Breaking New Grounds - Full Glass of Wine + Diverse Clocks

详情

下载文件

模型描述

为什么?

这个 LoRA 模型旨在解决机器学习图像生成模型中的“草莓”问题。

“哦,你的十亿美元算法连完整的酒杯问题都解决不了!”

现在不再是了。

开源属于每个人

开源不受大型企业工作流程和流程的束缚。在手动为 20 张图片添加字幕之后,我仅用 32 分钟就训练出了这个模型。

训练详情:

轮数:12

步数:1920

优化器:--optimizer_type=adopt.ADOPT

学习率:8e-5

TE 学习率:4e-5

调度器:constant_with_warmup 2%(重要:为冷藏的酒杯预热)

秩:128/64

去偏估计损失:True

不进行翻转或字幕打乱,因为翻转对时钟效果不佳(显而易见)。

准备与训练过程中遇到的问题:

  • 找到完整的酒杯图片和显示不同时间的时钟稍微困难一些(显而易见)。感谢 Reddit 提供时钟,Instagram 提供完整酒杯。有些人真是动物。

  • 我发现自己竟然忘了怎么读指针钟。有些图片的字幕可能标注错了。

  • 酒杯和时钟的偏差比预期更难完全纠正。

  • OOD 生成效果仍不理想。可能需要更多样本和更多步骤。

此模型生成的图像

未找到图像。