Retro 90's Anime / Golden Boy Style Lora LTX2
详情
下载文件
模型描述
触发 GoldenBoyStyle
我使用的数据集来自我用来制作此版本的wan版的LoRA,大约80个视频和368张图像左右。wan 2.2版本更好,但那个LoRA经过了大量修订,才有了今天的效果。
由于数据集是16fps,我不得不将AI工具包设置为以16fps训练,并且必须使用“音频归一化”,否则所有声音都会变得尖锐。不幸的是,这导致前2000步的训练结果不可用,但我发现最佳效果出现在4500步左右,不过2500步的效果也不错。为了适应帧桶尺寸,我将部分片段填充了最多1-3帧(桶尺寸:17、25、33、41、49、57、65),并在512和768分辨率下进行训练。
音频训练使用的是日语配音(真希望当初制作这些片段时能直接从英语配音中截取)。但你可以用英语提示(实际上英语听起来更好)。我有个理论:因为我没有使用角色标签,所有女性的声音混在一起了,这也是为什么它们听起来尖锐的原因。如果你听到尖锐的声音,可以尝试重新生成种子或修改提示词。
我非常期待下一个LTX版本(2.1+),因为这个基础模型的扩展能力存在一些限制。
你最好使用非常长且详细的提示词(使用LLM最佳),否则风格可能无法触发。这个LoRA是为了学习如何在LTX2中实现动漫风格而制作的。我认为要获得真正优秀的结果,我们需要一个25fps的大规模视频数据集进行训练。目前这种用wan数据集适配LTX2的做法,属于临时拼凑,不是最佳方式。
如果你想生成类似我的效果,请使用我的示例工作流。我建议生成横屏视频,因为LTX2在横屏上表现更好。你可以在这里尝试更早或更晚的检查点
