LTXVideo 13B 0.9.7 Distilled Workflow - T2V or I2V with optional captioning/LLM/audio gen
详情
下载文件
关于此版本
模型描述
新版本 V2.1,适用于 LTXV 13B 0.9.7 蒸馏版!
我已更新此版本以兼容 0.9.7,并添加了所有能提升运行速度的优化节点。我修复了“添加细节”功能,新增了扩展模块,并对整体结构进行了大量清理。此外,还添加了 MMAudio 组,可根据视频生成声音。所有功能均配有简易开关和详细注释。
我尝试了一些采样器和调度器组合。
我发现以下组合效果较好:
STG 高级预设:自定义
采样器:Euler、Euler_a、LCM
调度器:Beta、Simple
最近我发现 Simple 调度器能显著平滑画面的跳跃感。
注意:在放大时,你需要手动调整 sigmas 值。因为使用 8 步时,sigmas 值通常保持较高,仅取最后 3 个值效果不佳。你需要在 0.90 至 0.75 之间选取 3 个值才能获得良好效果。
如果你发现特别好的组合,请在评论中分享!

V1
有人在 Reddit 上分享了这个:
https://civitai.com/articles/13699/ltxvideo-096-distilled-workflow-with-llm-prompt
我查看后很喜欢大部分内容,但其中一些部分未使用最新节点,且存在一些 LLM 问题。因此我对其进行了清理,并添加了字幕生成器。随后我增加了一些极其简便的开关,让你可以自由禁用任何不需要的功能,仅使用 T2V(带或不带 LLM),甚至仅使用另一张图像的字幕文本;或完全使用 I2V 并将图像字幕传递给 LLM,亦或仅使用 I2V 而不使用字幕或 LLM。
字幕生成使用的是 Florence-2,并采用了我发现的一个针对 NSFW 内容表现极佳的微调版本:https://huggingface.co/MiaoshouAI/Florence-2-large-PromptGen-v2.0
我还加入了 TeaCache。在蒸馏模型(9 步)上似乎效果不明显,但在基础模型(30 步)上节省了约 40% 或更多的内存。
此外,文档中也注明了:若要使用蒸馏模型或基础模型,应如何调整调度器/采样器设置,当前默认设置为适用于基础模型。
我还发现 T5xxl FP8 完全可用——我比较了 FP16 和 FP8 的效果,实际上更偏好 FP8。

不知道为什么导出截图中的文本没有换行?:


