ClothConsistency-Wan2.2-I2V-ConsistencyLoRA2
詳細
ファイルをダウンロード
モデル説明
ショーケースのサンプルは、ハイとロー、そしてライトニングローLoRAを両方使用しています。
これはLoRAです。ワークフローではありません。
皆さん、久々です。最近、モデルをあまりリリースしていなかったことをお詫びします。過去1か月、Wan2.2-I2VモデルのLoRA向けの革新的な機能を研究していました。ついにいくつかの研究結果を得たので、このWan2.2-I2V LoRAシリーズをご紹介します。私はこれをConsistencyLoRAシリーズと呼んでいます。このLoRAシリーズの機能は、入力画像をもとに、Wan2.2-I2Vモデルを使用して、その画像と高い一貫性を保った動画を直接生成することです。
大家好,好久不见.由于最近一个月都在研究Wan2.2-I2V模型Lora的创新功能,没有发更多的模型,抱歉.最近终于有了一些研究结果,向大家介绍这个系列的Wan2.2-I2V LoRA,我自己称为ConsistencyLoRA系列.这个系列的LoRA功能是通过输入图像,通过Wan2.2-I2V模型直接生成与输入图像高度一致性的视频.
「ClothConsistency」はこのシリーズの2つ目のモデルです。このモデルは、衣類の製品写真(白背景)とテキストプロンプトを直接使用して、その衣類を着た人物の動画を生成することを目的としています(参考用のプロンプトはいくつかサンプルとして用意しています)。
私の個人的なテスト結果(ハイ:0.7、ロー:0.9、ライトニングロー:1.0)では、丁寧に作成したプロンプトとライトニングローLoRAを加速に使用すると、ClothConsistencyは非常に優れた結果を出します。例えば、「スケートボードをする少年」の衣類の一貫性を正確に維持し、漢服(伝統的な中国衣装)の模様を正確にレンダリングし、ダンスする少女のジャケットの光と影を捉え、LVジャケットの模様を再現しています。
効果的なプロンプトの書き方について:このモデルはコート、スカート、シャツ、ジャケット、ドレス、パンツなどの衣類カテゴリで学習されています。そのため、プロンプトに衣類の種類を明確に記述すると、より良い結果が得られます。たとえば、ジャケットの場合、プロンプトは「最初のフレームのジャケットを使用し、そのジャケットを着たモデルの動画を生成する」とする必要があります。複数の衣装で構成されている場合は、各アイテムの種類を別々に明記することを推奨します(例:「最初のフレームのセーターとズボンを使用し、そのセーターとズボンを着たモデルの動画を生成する」)。このアプローチにより、より安定した信頼性の高い結果が得られます。また、欠点として、一部のランダムシードでは前置フレームが過剰に生成される場合があります。その対処法は、ランダムシードやプロンプトを変更することです。
ClothConsistencyは該シリーズの2番目のモデルです。このモデルは、衣類の白地写真とプロンプト(サンプルにいくつかのプロンプトが用意されています)を直接入力し、人物がその衣類を着た動画を生成することを目的としています。私の個人的なテスト結果(推奨強度:ハイ0.7、ロー0.9、ライトニングロー:1.0)では、丁寧に作成されたプロンプトとライトニングローLoRAを使用すると、ClothConsistencyの効果は非常に優れています。例えば、スケートボードをする少年の衣服の一貫性、漢服の模様、ダンスする女性のジャケットの光と影、LVジャケットの模様などです。プロンプトの書き方について、トレーニング時にコート、スカート、シャツ、ジャケット、ドレス、パンツなどの衣類カテゴリを含めていたため、プロンプトで衣類の種類を明示するとより良い結果が得られます。たとえば、「最初のフレームのジャケットを使用し、そのジャケットを着たモデルの動画を生成する」。複数の衣類で構成されている場合は、それぞれの種類を明確に記述することを推奨します。例:「最初のフレームのセーターとズボンを使用し、そのセーターとズボンを着たモデルの動画を生成する」。この方法でより安定した効果が得られます。欠点:一部のランダムシードでは前置フレーム数が過剰になることがあります。その対処法は、ランダムシードまたはプロンプトを変更することです。
ConsistencyLoRAシリーズの開発目標は、I2V(画像→動画)モデルの商業的応用範囲を広げることです。ConsistencyLoRAは、Wan Fun VACEおよびWan Animateがリリースされる前からトレーニングされています。それらと比較すると、ConsistencyLoRAの欠点は、生成される動画に入力画像の前置フレームが含まれる点(フレームカットで削除可能。私はそのためにCutFrame.ipynbスクリプトをアップロードしました)および、出力が時々ぼやける点です。しかし、ConsistencyLoRAにはいくつかの利点があります:1. Wan I2Vワークフローに基づいている:簡易的で使いやすく、VRAM消費量が少ない。他のI2VベースのLoRAとも互換性があります。2. プロンプトによる生成で、動画の置換は不要:プロンプトから直接生成できるのは大きな利点です。ソース動画を置き換える必要なく、T2V(テキスト→動画)でシーンを迅速に作成できます。たとえば、ClothConsistencyでは、プロンプトを使って異なる民族、肌の色、体型のモデルが同じ衣装を着た動画を生成できます。さらに、動画の置換がないため、光と影がより自然に見えます。3. トレーニングコストが低く、タスク特異的な安定性が高い:トレーニングコストは比較的低く、特定の一貫性タスクに対して微調整が可能です。特定の目的でトレーニングされているため、Wan AnimateやVACEと比較して、そのタスクにおける安定性は高いです。CarConsistencyのケースで実証されています。
因为从LoRA概念,数据集处理,训练和超参调整,都由我一个独立完成.由于4090 24G的显存限制,现在还只能用[360,360]的latent进行训练,所以还是处于原型机阶段,如果效果不太理想,请多谅解和反馈,我争取改进.感谢您能看到这里,该模型商用需要授权(希望能把训练的电费平了,哭).如果您有更大显存的算力支持我做一些实验(更大的latent尝试去解决模糊问题),或者有商业合作去训练特定产品LoRA的意向,请联系我QQ:3387286448,感谢感谢,赞助: https://ko-fi.com/ghostshell
