ClothConsistency-Wan2.2-I2V-ConsistencyLoRA2

详情

模型描述

展示中的样本同时使用了高、低和闪电低LoRA。

这是一个LoRA,不是工作流。

大家好,好久不见。最近一个月我一直在研究Wan2.2-I2V模型的LoRA创新功能,因此没有发布更多模型,深表歉意。我终于取得了一些研究成果,现向大家介绍这个系列的Wan2.2-I2V LoRA,我称之为ConsistencyLoRA系列。这个LoRA系列的功能是:通过输入一张图像,利用Wan2.2-I2V模型直接生成与该图像高度一致的视频。

"ClothConsistency"是该系列的第二个模型。该模型旨在通过直接使用服装的白底图(产品图)和文本提示(部分示例可参考),生成人物穿着该服装的视频。

从我个人测试结果来看(推荐强度:high 0.7,low 0.9,lightning low: 1.0),在使用精心编写的提示词并配合lightning low LoRA加速时,ClothConsistency表现非常出色。例如,它能成功保持“滑板男孩”服装的一致性,精准还原汉服上的图案,捕捉舞者夹克上的光影,以及复现LV夹克上的纹理。

关于如何撰写有效提示词:该模型在训练时使用了如外套、裙子、衬衫、夹克、连衣裙、裤子等服装类别。因此,在提示词中明确指定服装类型会获得更佳效果。例如,如果是夹克,提示词应为:“used the jacket in the first frame, generate a video of a model wearing the jacket”;如果是多件服装组合,建议分别标注每件的类型(例如:“used the sweater and trousers in the first frame, generate a video of a model wearing the sweater and trousers”)。这样效果更稳定。缺点:部分随机种子会导致前置帧过多,解决方案是更换随机种子或调整提示词。

ClothConsistency是该系列的第二个模型。该模型希望通过直接输入衣服的白底图和提示词(示例中可参考部分提示词),直接生成人物穿着该服装的视频。从我个人测试来看(推荐强度:high 0.7,low 0.9,lightning low: 1.0),在编写良好的提示词和使用lightning low LoRA加速的情况下,ClothConsistency效果非常不错,例如:滑板少年服装的一致性、汉服上的花纹、跳舞女孩夹克上的光影、LV外套上的图案等。关于如何写提示词,因为训练时加入了服装种类,如coat、skirt、shirt、jacket、dress、pants等,因此在提示词中明确指定衣物类型会获得更好效果。例如:“used the jacket in the first frame, generate a video of a model wearing the jacket”。如果是整套衣物,建议分别标注每件类型,如:“used the sweater and trousers in the first frame, generate a video of a model wearing the sweater and trousers”。这样效果更稳定。缺点:部分随机种子会导致前置帧数过多,需更换随机种子或调整提示词。

创建ConsistencyLoRA系列的目标,是拓展I2V(图像到视频)模型的商业应用场景。ConsistencyLoRA的训练早于Wan Fun VACE和Wan Animate的发布。与它们相比,其缺点在于生成的视频包含来自输入图像的前置帧——可通过帧裁剪去除(我已上传CutFrame.ipynb脚本用于此操作),并且输出有时会模糊。然而,ConsistencyLoRA具有以下优势:1. 基于Wan I2V工作流:使用简单、便捷、显存需求低,且兼容其他基于I2V的LoRA。2. 基于提示词生成,无需视频替换:提示词生成是其关键优势,它允许直接通过T2V(文本到视频)快速创建场景,无需提供源视频进行内容替换。例如,使用ClothConsistency,可通过提示词生成不同种族、肤色、体型的模特穿着同一服装的视频。此外,由于无需视频替换,光影效果更自然。3. 训练成本较低,任务特异性稳定:训练成本较低,可针对特定一致性任务进行微调。因其专为特定任务训练,其在该任务上的稳定性高于Wan Animate或VACE,如CarConsistency场景所示。

从LoRA概念、数据集处理、训练到超参数调优,整个过程均由我独立完成。由于受限于24G 4090显卡的显存,目前仅能使用[360, 360]的潜空间进行训练,因此仍处于原型阶段。若效果不理想,恳请谅解并给予反馈,我会尽力改进。感谢您阅读至此。本模型用于商业用途需授权(希望能至少覆盖训练的电费,呵呵)。如果您拥有更大显存的算力资源支持我进行实验(尝试更大的潜空间以解决模糊问题),或有意进行商业合作训练特定产品的LoRA,请在Civitai上私信我。非常感谢!捐赠链接:https://ko-fi.com/ghostshell

此模型生成的图像

未找到图像。