数据集包含81张图片,大多是围绕笼子紧密裁剪的写实风格照片,也有一些插画。部分图片中有皮带扣,另一些则是自制的绳子。大量是256像素的低分辨率图像。
32/32 维度/透明度。训练12个epoch(共18个epoch),1067步,批次大小为4。使用Prodigy优化器,余弦调度。启用分桶、翻转和打乱。SNR gamma为5,噪声偏移为0。
这次在18个epoch时风格仍未达到写实效果,我不确定原因。手指和眼睛仍有扭曲。使用12个epoch是因为数据集中的一个错误:最高分辨率的图片中,包皮仅覆盖阴茎尖端,而这并非我想要的效果。
过度裁剪或许有助于保持风格,但却丢失了上下文,因此模型误以为大腿绑带和项圈中间也该有个笼子。或许应该适当拉远镜头,让模型能看清腿部的终点位置。
我添加了一些笼子未佩戴时的产品图,但忘记标注“未佩戴”,不过已标注“无真人”。这可能有助于细节表现,但模型仍会搞错细节。老实说,我不确定该怎么解决。下次我会尽量避免把图片裁得太小,上限设为512像素。虽然这可能会略微影响风格,但至少能减少细节错误?我不确定32维是否对此有太大帮助。我以为余弦调度会有用,或许常数调度更好。
不过,第一人称视角生成的图像在锁具细节上表现稍好,虽然仍不完美,我不清楚原因。或许你可以将第一人称视角上下颠倒,并从上方打标签来“作弊”。