80's porn centerfold
详情
下载文件
关于此版本
模型描述
这只是我花了不少时间做的一次有趣的小LoRA实验。我训练了三次,这简直疯狂,因为原本我只是打算一次性完成。但在这个过程中,我学到了不少有用的信息。
训练数据为54张1980年代色情杂志封面女郎的静态图片。目标是捕捉:1. 当时女性的整体外貌特征;2. 当时色情杂志所用视频/摄影的光影与氛围。
作为一个原本想快速完成的副项目(或说是“速成”LoRA),我觉得它的表现已经足够好了。
由于仅使用静态图片,我发现这个LoRA在高帧数下表现不佳。89帧是最佳点。121帧仍会有运动,但会明显减弱;145帧几乎总是生成静态图像。别浪费时间了。
标注非常简单:
A 1980's porn centerfold woman
你只需在上述提示词基础上添加一些通用姿势或场景描述,LoRA就能很好地生成头发浓密(包括头顶和私处)的女性形象。
试一试,玩得开心吧。
如果你不关心训练数据,到这里就可以停止了。
V1 — 我设定为1600步,共8个epoch,学习率(LR)为8e-5。

从损失曲线可以看出,它在第2个epoch就急剧下降,随后在第4个epoch缓慢回升再回落,但在第5至第8个epoch则开始飙升并过拟合。
V2 — 我立刻丢弃了之前的结果,改用学习率7e-5,训练10个epoch,试图避免过拟合过快。

较低的学习率似乎效果更好,但第6个epoch的下降幅度依然陡峭,随后再次出现峰值,继而回落,之后又稳步上升直至过拟合。
在第6到第8个epoch之间进行测试时,我发现第8个epoch的模型对提示词的遵循度更高,整体风格更统一,且未对动作表现造成明显损害。正是在这些测试推断中,我注意到在较高帧数下运动表现会减弱。
V3 — 作为一次实验,我尝试在每条标注前加上“An image of...”,其余训练设置保持不变。我在Discord上看到,这种做法有时能帮助模型理解所训练的概念来自静态图像,从而减少因过拟合导致的与运动生成之间的冲突。

这次损失曲线迅速且稳定地下降,随后缓慢而持续地过拟合,最后又缓慢回落。测试后发现,V3中第2和第10个epoch生成的模型不够连贯,产生的伪影远多于V2中第8个epoch的结果。
因此,我最终选择V2的第8个epoch作为最佳版本。
这至少从我的经验来看,凸显了标注在LoRA训练中的重要性。在同时包含图像和视频的数据集中,使用“an image of”和“a video of”作为前缀,确实有其价值;但对于单一媒介的独立训练,可能并不必要。
另一个收获是:不要因为损失曲线有轻微回升就直接丢弃某个epoch。有时下一个epoch反而仍然有用。
最终建议:如果在训练中期发现损失上升,不妨尝试降低学习率,以帮助稳定训练过程。
