Breaking New Grounds - Full Glass of Wine + Diverse Clocks
详情
下载文件
关于此版本
模型描述
为什么?
这个 LoRA 模型旨在解决机器学习图像生成模型中的“草莓”问题。
“哦,你的十亿美元算法连完整的酒杯问题都解决不了!”
现在不再是了。
开源属于每个人
开源不受大型企业工作流程和流程的束缚。在手动为 20 张图片添加字幕之后,我仅用 32 分钟就训练出了这个模型。
训练详情:
轮数:12
步数:1920
优化器:--optimizer_type=adopt.ADOPT
学习率:8e-5
TE 学习率:4e-5
调度器:constant_with_warmup 2%(重要:为冷藏的酒杯预热)
秩:128/64
去偏估计损失:True
不进行翻转或字幕打乱,因为翻转对时钟效果不佳(显而易见)。
准备与训练过程中遇到的问题:
找到完整的酒杯图片和显示不同时间的时钟稍微困难一些(显而易见)。感谢 Reddit 提供时钟,Instagram 提供完整酒杯。有些人真是动物。
我发现自己竟然忘了怎么读指针钟。有些图片的字幕可能标注错了。
酒杯和时钟的偏差比预期更难完全纠正。
OOD 生成效果仍不理想。可能需要更多样本和更多步骤。


