ProductConsistency-Wan2.2-I2V-ConsistencyLoRA3
详情
下载文件
模型描述
展示中的样本同时使用了高、低和闪电低LoRA。
这是一个LoRA,不是一个工作流。
大家好,好久不见。由于最近一个月都在研究Wan2.2-I2V模型LoRA的创新功能,没有发布更多模型,抱歉。最近终于取得了一些研究成果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列。这个系列LoRA的功能是通过输入图像,使用Wan2.2-I2V模型直接生成与该图像高度一致的视频。
ProductConsistency是该系列的第三个模型。该模型旨在直接从带有白色背景的产品图像出发,通过文本提示生成产品视频。根据我的个人测试(推荐强度:high 0.9,low 0.9,lightning low: 1.0),在使用良好编写的提示并结合“lightning low” LoRA加速的情况下,ProductConsistency的表现相当不错。然而,相较于我此前发布的两个Consistency模型——CarConsistency和ClothConsistency,它在广告场景中遵循提示的能力仅属中等。这可能是由于Wan2.2的训练数据较少所致。要获得更佳效果,需要一定程度的提示工程。还需注意的是,不建议在提示中直接描述产品主体本身(这容易引发主体一致性问题)。相反,在示例中我会明确说明产品的类别(有助于T5模型更好地理解产品的实际形状并生成更生动的结果),例如:“该产品是一罐饮料/一盒巧克力/一瓶香水……”。另外,由于训练数据中不包含人物,因此无法确保生成包含人物的产品视频。一个示例提示(更多内容请查看视频信息):“Product Consistency. 使用第一帧中的产品,生成商业级产品视频。该产品是一罐饮料。产品在黑暗中悬浮于空中,伴有霓虹绿光闪耀。突然,产品被一只巨大的怪物之手抓住。整体氛围为黑暗赛博朋克风。”
ProductConsistency是该系列的第三个模型。该模型希望通过直接输入产品的白底图,借助提示直接生成产品的视频。从我个人测试来看(推荐强度:high 0.9,low 0.9,lightning low: 1.0),在提示编写良好且使用lightning low LoRA加速的情况下,ProductConsistency的效果很不错。但相较于我之前发布的CarConsistency和ClothConsistency两个Consistency模型,可能由于Wan2.2训练数据较少,其对广告场景提示的遵循程度一般,需要一定程度的Prompt Engineering才能获得较好结果。还需注意的是,不建议编写关于商品主体的提示(容易引发主体一致性问题);在示例中,我会明确说明产品的类别(使T5更好地理解商品本身的形状,生成更生动的结果),例如:“The product is a canned drink/a box of chocolate/a bottle of perfume...”。由于训练数据仅为纯产品视频(不含人),因此无法确定生成含人的产品视频的效果。一个示例提示,更多内容请见视频信息:“Product Consistency. 使用第一帧中的产品,生成商业级产品视频。该产品是一罐饮料。产品在黑暗中悬浮于空中,伴有霓虹绿光闪耀。突然,产品被一只巨大的怪物之手抓住。整体氛围为黑暗赛博朋克风。”
创建ConsistencyLoRA系列的目标是拓展I2V(图像到视频)模型的商业应用场景。ConsistencyLoRA的训练早于Wan Fun VACE和Wan Animate的发布。相较于它们,ConsistencyLoRA的缺点在于生成的视频包含输入图像的前置帧——可通过帧裁剪去除(我已上传CutFrame.ipynb脚本实现此功能)——且输出有时会模糊。但ConsistencyLoRA具有以下优势:1. 基于Wan I2V工作流:简单、便捷、显存需求低,且兼容其他基于I2V的LoRA。2. 基于提示生成,无需视频替换:直接通过提示生成是其关键优势,可利用T2V快速创建场景,无需源视频进行内容替换。例如,使用ClothConsistency,可通过提示生成穿着相同服装、不同种族、肤色和体型的模特。此外,由于无需视频替换,光影效果更自然。3. 训练成本较低且任务稳定性高:训练成本相对较低,可针对特定一致性任务进行微调。由于其为特定任务训练,因此在该任务上的稳定性高于Wan Animate或VACE,如CarConsistency场景所示。
从LoRA概念、数据集处理、训练到超参数调优,整个过程均由我独立完成。由于受限于24G 4090显卡的显存,目前我仅能使用[360, 360]的隐空间进行训练,因此仍处于原型阶段。若效果不尽理想,敬请谅解并提供反馈,我会尽力改进。感谢您阅读至此。本模型用于商业用途需获得授权(希望能至少覆盖训练电费,哈哈)。若您拥有更高显存的算力支持我进行实验(尝试更大隐空间以解决模糊问题),或有意进行商业合作以训练特定产品的LoRA,请在Civitai上私信我。非常感谢!赞助链接:https://ko-fi.com/ghostshell
