ProductConsistency-Wan2.2-I2V-ConsistencyLoRA3

詳細

モデル説明

ショーケースのサンプルは、ハイおよびロー、そしてライトニングローLoRAを両方使用しています。

これはLoRAです。ワークフローではありません。

皆さま、お久しぶりです。最近、モデルをあまりリリースできなかったことをお詫びします。過去1か月、Wan2.2-I2VモデルのLoRAに関する革新的な機能の研究に没頭していました。ついにいくつかの研究結果を得られたので、皆様にこのWan2.2-I2V LoRAシリーズをご紹介します。私はこれを個人的にConsistencyLoRAシリーズと呼んでいます。このLoRAシリーズの機能は、入力画像をもとに、Wan2.2-I2Vモデルを用いて、その画像と高い一貫性を保った動画を直接生成することです。

大家好,好久不见。由于最近一个月都在研究Wan2.2-I2V模型Lora的创新功能,没有发更多的模型,抱歉。最近终于有了一些研究结果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列。这个系列的LoRA功能是通过输入图像,通过Wan2.2-I2V模型直接生成与输入图像高度一致性的视频。

ProductConsistencyは、このシリーズの3番目のモデルです。このモデルは、白背景の製品画像を入力として、テキストプロンプトを用いて製品動画を直接生成することを目的としています。個人的なテスト結果(推奨強度:high 0.9、low 0.9、lightning low:1.0)では、良好なプロンプトと「lightning low」LoRAを用いて加速した場合、ProductConsistencyのパフォーマンスは非常に優れています。しかし、私が以前リリースしたCarConsistencyとClothConsistencyの2つのConsistencyモデルと比較すると、広告シーンにおけるプロンプトの追随能力は平均的です。これはWan2.2の訓練データが少ないためかもしれません。より良い結果を得るには、ある程度のプロンプトエンジニアリングが必要です。また、製品自体に関するプロンプトを書くのは推奨されません(製品の一貫性の問題を引き起こしやすいからです)。代わりに、サンプルでは製品のカテゴリを明示しています(T5モデルが製品の実際の形状をよりよく理解し、より鮮明な結果を生成するのに役立ちます)。例:「製品は缶飲料/チョコレートの箱/香水のボトルです…」。また、訓練データには人間が含まれていないため、人間と一緒に製品動画を生成することは保証できません。サンプルプロンプト(詳細は動画情報をご覧ください):「Product Consistency. Used the product in the first frame, generate a commercial-quality video of the product. The product is a canned drink. The product is floating in the air in the dark with some neon green light shineing. Suddenly the product is grabed by a huge monster hand. The overall atomsphere is dark and cyberpunk.」

ProductConsistencyは該シリーズの3番目のモデルです。このモデルは、製品の白背景画像を直接入力し、プロンプトを通じて製品動画を生成することを目的としています。個人的なテスト結果(推奨強度:high 0.9、low 0.9、lightning low:1.0)では、優れたプロンプトとlightning low LoRAを用いた場合、ProductConsistencyの効果は非常に良好です。しかし、私が以前リリースしたCarConsistencyとClothConsistencyの2つのConsistencyモデルと比較すると、Wan2.2の訓練データが少ないため、広告シーンにおけるプロンプトの追随能力は一般的です。より良い結果を得るには、ある程度のプロンプトエンジニアリングが必要です。また、製品の主体に関するプロンプトを書かないよう注意してください(主体の一貫性の問題を引き起こしやすいです)。サンプルでは、製品のカテゴリを明示しています(T5モデルが製品の実際の形状をよりよく理解し、より生動な結果を生成するのに役立ちます)。例:「The product is a canned drink/a box of chocolate/a bottle of perfume…」。訓練データは製品のみ(人間は含まれません)であるため、人間と組み合わせた製品動画の生成効果は保証できません。サンプルプロンプト(詳細は動画情報をご覧ください):「Product Consistency. Used the product in the first frame, generate a commercial-quality video of the product. The product is a canned drink. The product is floating in the air in the dark with some neon green light shineing. Suddenly the product is grabed by a huge monster hand. The overall atomsphere is dark and cyberpunk.」

ConsistencyLoRAシリーズの開発目的は、I2V(画像から動画へ)モデルの商業的応用シーンを広げることです。ConsistencyLoRAは、Wan Fun VACEとWan Animateがリリースされる前に訓練されました。これらと比較して、ConsistencyLoRAの欠点は、生成された動画に入力画像の前フレームが含まれること(フレームトリミングで削除可能です。私はこのためのCutFrame.ipynbスクリプトをアップロードしました)と、出力が時にぼやけることです。一方、ConsistencyLoRAの利点は以下の通りです:1. Wan I2Vワークフローに基づいているため、シンプルで便利、VRAMの要件が低く、他のI2VベースのLoRAとも互換性があります。2. プロンプトによる生成で、動画の置換は不要です。プロンプトによる生成は、T2V(テキストから動画へ)を用いてソース動画を置換せずともシーンを迅速に作成できるという大きな利点です。たとえばClothConsistencyであれば、異なる民族、肌の色、体型のモデルが同じ衣装を着ている様子をプロンプトで生成できます。さらに、動画の置換が不要であるため、照明と影がより自然に見えます。3. 訓練コストが比較的低く、特定の一致性タスクに微調整可能です。特定の目的で訓練されているため、Wan AnimateやVACEよりもそのタスクでの安定性が高くなります。CarConsistencyのシナリオでその点が証明されています。

做ConsistencyLoRA系列的LoRA是希望拓宽I2V模型商业应用的场景.ConsistencyLoRA的训练在Wan Fun VACE和Wan Animate发布之前,相比Wan Fun VACE和Wan Animate,ConsistencyLoRA的缺点在于视频有输入图像的前置帧,可以通过帧剪切去除(我上传了CutFrame.ipynb的脚本可以直接去除),然后生成有时候会有模糊情况.而ConsistencyLoRA优点在于:1.因为是基于Wan I2V工作流,所以简单方便,显存门槛低,各种基于I2V的lora也适用.2.通过Prompt生成,不需要替换视频.Prompt生成的优势在于,可以通过Prompt将画面快速通过T2V实现,不需要进行替换,比如ClothConsistency,通过Prompt可以生成不同族裔,不同肤色,不同身材的模特穿着对应的衣服.且因为不需要替换视频,所以光影会更自然.3.训练成本相对较低,可以对特定的一致性任务进行训练.因为是基于特定任务进行的训练,所以在特定任务上的稳定性也会比Wan Animate和VACE高,比如CarConsistency场景.

LoRAのコンセプトからデータセットの処理、訓練、ハイパーパラメータのチューニングまで、すべてを私が個人で処理しました。24GBの4090 GPUのVRAM制限により、現在は[360, 360]の潜在空間でのみ訓練が可能です。したがって、これはまだプロトタイプ段階です。結果が満足いくものでない場合は、ご理解とごフィードバックをお願いします。改善に全力を尽くします。ここまでお読みいただき、ありがとうございます。このモデルの商用利用にはライセンスが必要です(訓練にかかる電気代を回収できればと願っています、笑)。より大きなVRAMを備えた計算リソースで私の実験をサポートしていただける方(ぼやけの問題を解決するためにより大きな潜在空間を試すため)、または特定の製品向けのLoRAを訓練するためのビジネス提携に興味がある方は、CivitaiでDMをお送りください。心より感謝します。寄付はこちら:https://ko-fi.com/ghostshell

このモデルで生成された画像

画像が見つかりません。