CarConsistency-Wan2.2-I2V-ConsistencyLoRA1
详情
下载文件
关于此版本
模型描述
展示中的样本同时使用了高和低分辨率,并结合了lightning-low LoRA。
大家好,好久不见。最近一个月我一直在研究Wan2.2-I2V模型的LoRA创新功能,因此没有发布更多模型,深表歉意。如今终于取得了一些研究成果,现向大家介绍我 personally 称为“ConsistencyLoRA系列”的这一组Wan2.2-I2V LoRA。该系列LoRA的功能是:通过输入一张图像,利用Wan2.2-I2V模型直接生成与该图像高度一致的视频。
CarConsistency是该系列中的首个模型。该模型的目标是:通过输入一辆车辆的图像(最好为白底图)及提示词(例如:“the car is speeding on the moon/water/ice field, floating in the space...”),直接生成与输入车辆高度一致的视频(若图像为F1赛车,建议将提示词中的“the car”改为“The F1 car”)。从我亲自测试的十余张图像来看,CarConsistency能够很好地保持车辆的高度一致性,保留诸如法拉利SF25赛车车身上的广告、SU7 Ultra和方程豹SUV车牌上的中文文字、以及车辆上的装饰纹路等细节。建议在生成时使用“lightning-low”模型,速度更快,质量更稳定。
创建ConsistencyLoRA系列的目的是拓展I2V(图像到视频)模型的商业应用场景。ConsistencyLoRA在Wan Fun VACE和Wan Animate发布前已完成训练。与它们相比,ConsistencyLoRA存在一些不足:首先,生成的视频包含输入图像的前置帧,可通过帧裁剪去除(我已上传脚本CutFrame.ipynb以实现一键处理);其次,生成结果有时会模糊。但ConsistencyLoRA也有其优势:1. 易用性与普适性:基于Wan I2V工作流,简洁方便,显存需求低,兼容其他基于I2V的LoRA;且由于针对特定任务训练,其在特定应用中稳定性强。2. 通过提示词快速生成:可借助提示词实现快速控制生成,例如在保持服装一致性时,通过提示词可生成不同种族、肤色、体型的模特穿着指定服装的视频。
整个流程——从LoRA概念构思、数据集处理、训练到超参数调优——均由我独立完成。由于受限于24G显存的4090 GPU,目前仅能使用[360, 360]的潜在空间进行训练,因此仍处于原型阶段。若效果不够理想,恳请各位理解与反馈,我会尽力改进。感谢您阅读至此。本模型若用于商业用途,需获得授权(希望能勉强覆盖训练电费,苦笑)。若您拥有更高显存的算力支持我进行实验(尝试更大潜在空间以解决模糊问题),或有意进行商业合作训练特定产品的LoRA,请在Civitai上私信我。若您愿意打赏支持我,可访问:https://ko-fi.com/ghostshell。谢谢!
