FACESITTING HunYuan
详情
下载文件
关于此版本
模型描述
重大更新:204年12月26日
我终于将这个LoRA训练到了一个让我非常满意的状态。1.0版本是经过一系列 exhaustive 的迭代版本(我从未在此发布过)后最终得出的结果,之前的版本都不够好,直到现在才成功。与0.1版本不同,这次我不得不租用一台H100 NVL(93GB VRAM显卡),在云端进行训练。
主要变更
#1:数据集扩大了三倍,使LoRA能够学习到更多内容
#2:训练时最大分辨率提升至2048(此前为512),从而能生成更细致的“面坐”场景
#3:生成“面坐”效果远优于0.1版本
我将其命名为1.0,是因为我现在对它足够满意,认为它已达到1.0发布标准。实际上,在此过程中我曾经历了0.2到0.9多个版本。
0.2:与0.1相同,但额外训练了2000步。效果仅略微提升,直接对比几乎看不出差异。
0.3:尝试通过提高学习率再训练2000步来修正问题,但模型不知为何变得过于卡通化。
0.4:从头开始重新训练,这次将学习率设为4e-5(此前为2e-5)。但在6000步后模型“烧毁”,早期步骤的结果看起来也不对劲。
0.5:将训练数据扩大三倍,并降低学习率。起初似乎有效,但效果不稳定,最终仍部分“烧毁”。
0.6:重新从头训练,这次同时使用了更大的数据集,并将学习率调回2e-5。最终结果相当不错,我几乎要发布它了,但画面仍略显模糊。
0.7 / 0.8 / 0.9:在分辨率设置中加入了[2048],使支持的分辨率为[512,1024,2048]。
0.7在训练中途出现OOM,导致我的4090显卡崩溃。0.8增加了梯度,结果几乎什么都没学会。0.9找到了平衡点,能在4090上运行,但速度极慢,按此进度训练可能需要数月。
1.0:我租用了H100 NVL,让它运行了约16小时。2048分辨率导致即使这台顶级GPU也运行得非常缓慢,但至少完成了任务。我甚至在打这段文字时仍在运行它。如果后续轮次能产生更好的LoRA,我会立即上传更新。
我之前从未在此网站上传过任何内容,若行为不符合常规协议,敬请谅解。我训练这个LoRA的唯一原因是,我太想要它了,以至于不愿等待别人来制作。整个过程耗费了大量时间,其中许多时间用于折腾双系统Linux,因为我使用的训练工具仅支持Linux(我不知道目前是否有兼容Windows的工具)。
这是极其早期的Beta版本,我计划继续优化,直到它趋于完美。但即使在当前阶段,它已展现出显著潜力,值得上传。你应当预期生成结果可能出现:A. 偶尔的无意义画面或身体恐怖片段,或B. 完全没有“面坐”内容的视频。但当它起效时(至少在我的初步测试中相当频繁),效果惊人。(至少在我看来,哈哈。)
对我而言最有效的示例提示是:
“一段画质极高的电影级视频,一位极其美丽的女性坐在她办公室工作的男性脸上,她穿着蓝色牛仔裤和白色背心,棕色长发盘成发髻。男性的脸完全被她的臀部压住,她正面坐着他。男性挣扎着呼吸,试图挣脱头部,鼻子紧贴在她的臀部上。视频拍摄于一个非常拥挤的办公室,周围的人指着他,嘲笑他被臀部闷得窒息。”
你可以直接使用这个提示,或替换成你自己想要的外貌、服饰、场景,甚至彻底改写。这个LoRA不知为何在4-5秒时表现最佳。它当然也能用于更长的视频,但不知为何,当视频长度≥6秒时,更容易出现奇怪的异常情况。