Redline 🎥 Wan2.1-T2V-14B

このLoRAは、オープンソースの動画LoRAとそれらが可能にするクリエイティブな作品に専念するキュレーションプロジェクトである OpenMuse で紹介されています。Wan2.1、LTX-Video、HunyuanVideoなどのモデルに焦点を当て、OpenMuse はエコシステム全体からの高品質なツールとアートを紹介しています。Banodocoコミュニティを基盤とし、OpenMuse はオープンで協働的なAIアートの成長する拠点であり、クリエイターにインスピレーションを与え、好奇心を刺激し、AI生成アートに懐疑的な人にも誇りを持って共有できる作品を提供することを目的としています。

説明

『Redline』は、小池健監督、マッドハウス制作による2009年のアニメ映画です。物語は、無鉄砲なレーサーJPと、彼のライバルでやがて同盟者となるソノシ・マクラーレンが、銀河で最も危険で権威あるレース「Redline」を競い合う様子を描いています。本作は、すべて手描きで制作されたアニメーションが特徴で、その制作には7年を要しました。激しく高エネルギーなスタイルと精緻なビジュアルは、『AKIRA』などの過去の名作に比肩され、技術的卓越性とダイナミックな物語への同様の情熱を反映しています。

これは私がこれまでで最も好きなアニメ映画のひとつであり、このLoRAはそのアニメーションスタイルを再構築する最初の試みです。このLoRAを作成した他の目的は以下の通りです：

トレーニングパイプラインを最適化すること。特に、1つのLoRAのトレーニングに90時間もかからないようにする 😉
Wanのモーション機能の研究と拡張

私は2番目の目標の解決に多くの時間（おそらくあまりにも多く）を費やしましたが、大きな成果は得られませんでした（期待通りで、小さなLoRAではすべてを実現できません）。しかし、Redlineのアートスタイルは比較的よく再現されました。カメラの動き、アングル、速い動的モーションなどは完全には採用できず、少なくとも私が求めていた精度には達しませんでした。全体として、私は3つのLoRAのバリエーションをトレーニングし、合計で80時間を費やしました。最終的に、完璧に到達できないことが自分自身を恥ずかしく感じ始めたため、3回目の反復後、トレーニングをやめることにしました。これ以上トレーニングを繰り返しても、どこが問題なのかを明確に理解できないまま無限に時間を費やすより、後でこのモデルを再訪したほうがましだと考えたのです。

使用方法

このLoRAは、各キャプションの冒頭に「Redline style」という語を含むようにトレーニングされています。また、伝説的なRedlineの加速度効果を強調するために、「kinetic-deformed」という用語（関連するシーンをキャプション化）も使用しました。この用語がシーンに影響を与える可能性は低いでしょう。なぜなら、この効果を含むデータセット内のシーンはわずか3つしかなかったからです。おそらくこれはプラセボ効果に過ぎませんが、カッコいい音なので、高速走行に関連するプロンプトには常にこれを含めています。

このLoRAはプロンプトに非常に依存しており、まだその潜在能力を最大限に引き出すための最適なプロンプトテンプレートを模索中です。以下は、比較的正確な出力を得られる可能性のあるテンプレートです（最後の行をあなたの好みのトピックに置き換えてください）：

あなたはAI動画生成モデルのための高度なプロンプト生成ツールです。あなたの目標は、Redlineアニメーション映画のスタイルでビデオクリップを生成するための、鮮明でシネマティックかつ高精細なプロンプトを作成することです。

プロンプト規則：
- すべてのプロンプトは「Redline style.」で始まらなければならない。
- 明確でシンプル、直接的かつ簡潔な言語を使用すること。比喩、誇張、比喩的表現、主観的修飾語は使用しない（例：「激しい」「息をのむような」など）。
- プロンプトの長さ：80～100語。
- 構造：シーン + 主体 + 行動 + 構図 + カメラの動き

1. シーン（環境の説明）
環境の種類：都市、自然、超現実的など。時間帯、天候、背景に見える出来事や雰囲気を含めること。見えたものだけを描写し、意見や感情は含めない。

2. 主体（詳細な説明）
身体的特徴、外見、服装のみを描写。鮮明だが最小限の形容詞を使用（「バイク乗り」「整備士」などの職業は含めない）。余計で華美な詳細は避ける。

3. 行動（主体と環境の動き）
明確な主体または環境との相互作用を1つだけ指定。5秒以内に見える動作のみを描写。

4. 構図と視点（フレーミング）
以下から選択：クローズアップ｜ミディアムショット｜ワイドショット｜ローアングル｜ハイアングル｜オーバーヘッド｜ファーストパーソン｜FPV｜バードズアイ｜プロファイル｜極遠景｜エアリアル

5. モーション（シネマティックな動き）
以下を使用：ドルイイン｜ドルイアウト｜ズームイン｜ズームアウト｜ティルトアップ｜ティルトダウン｜パン左｜パン右｜フォロウ｜180度回転｜360度回転｜プルバック｜プッシュイン｜降下｜上昇｜360度オービット｜ハイパーラプス｜クレーンオーバー｜クレーンアンダー｜リバイテート
カメラの動きとそれが捉えるものを明確に描写。照明、ムード、粒子効果（ほこり、ネオンの反射、雨など）、必要に応じてカラーパレットに焦点を当てる。感情的ではなく、視覚的に描写すること。各モーションやカメラの動きは簡潔に、約5秒分の動画を表す。強いビジュアルの「Redline」アニメーション・美学を維持：大胆で鮮やか、エネルギッシュで流れるようなアニメーション感。

5歳のアーティストに指示するような、シンプルなプロンプトを使用する。

では、Redlineの世界における、表現豊かで危険な女性10人のクローズアップショットを生成してください。

いくつかの特徴の漏れ（例：女性が時々JPのパームパウアールヘアスタイルを持つ）が見られますが、私は最初からこれを無視しました。なぜなら、キャラクターではなくスタイルLoRAを作成したかったからです。（また、パームパウアールヘアの女性は極めてかっこいいことに気付きました 😙）。一般的に、男性または女性を指定し、外見の特徴を詳しく記述しない場合、JPまたはソノシが登場することが期待されます。

ワークフローは各mp4ファイルに埋め込まれています。JSON形式のワークフローの例は以下です：https://files.catbox.moe/31mpay.json

以前と同様、私は多くの最適化（TeaCacheを含む）を用いて、RTX 3090で640x480x81のクリップを約5分でレンダリングできるようにしました。私の意見では、TeaCacheは一般的に信じられているほどモーションを破壊しません。（アニメーションのみについて言及しています。Wanで現実的な動画を生成したことはないので、それについては言及できません。）はい、品質は若干低下しますが、TeaCacheを有効にしたときにクリップがひどい場合、無効にしても良くなるとは限りません。高速な遷移や急激な動きは、TeaCacheの有無にかかわらず、依然として安定しません。

他のLoRAやI2Vチェックポイントとの互換性はテストされていません。

トレーニング

大半は以前のLoRAから手順を再利用しました。つまり、異なる解像度と長さの画像と動画を混合してトレーニングしました。musubi-tuner（Windows 11、RTX 3090、64GB RAM）を使用しました。トレーニングパイプラインを最適化・洗練し、他のクリエイターの手法（特にblyssの詳しいインサイトとblipの有用なヒントに感謝します）を導入しました。以前のLoRAのトレーニングパイプラインと比較して、今回のトレーニングはほぼ3倍速くなり、RTX 3090で1回のイテレーションが約5秒（以前は12〜13秒）で完了しました。新しいパラメータを使用すれば、以前のLoRAを90時間から30時間でトレーニングできました。素晴らしい。

（すべてのトレーニングデータとトレーニング設定をLoRAと一緒にアップロードしました。ご希望であればご確認ください。）

全体的に、最も顕著な変更は以下の通りです：

fp16チェックポイント（bf16ではなく）＋ fp8_base ＋ fp8_scaled
ブロックスワッピングなし（最適化されたデータセット構造により、後述）
CAMEオプティマイザ（adamw8bitではなく）
FlashAttentionによるトレーニング加速（sdpaではなく）
loraplus_lr_ratio=2 と低い学習率（5e-5ではなく3e-5）

データセットに関して、主な変更は、すべての動画を別々の長さのバケットに分割して効率的に使用すること、およびVRAM制限（24GB）のためにトレーニング解像度を下げることでした。全体の手順は以下の通りです：

ソース映画を可能な限り最高品質（合理的なレベル）で取得：1864x1048、H.265 17104 Kb/s
PySceneDetectで断片に分割
カスタム簡易GUIを使用して適切な断片を選択（高速な動画選択とナビゲーション）：合計175箇所
16fpsに変換、音声を削除（ffmpeg）
高解像度画像データセットとしてキーフレームを抽出（ffmpeg）：合計170枚
動画を長さのバケットに分割：合計28フォルダ（バケット）
musubi-tuner用のデータセットtomlファイルを生成（各バケットに最適化されたパラメータを使用、後述）
画像用のキャプションを生成（後述）
動画用のキャプションを生成（「デュアルキャプション」アプローチを使用：全体的なシーン説明の「短い」バージョンと、詳細なキャプションの「長い」バージョン、後述）

完全なdataset.tomlファイル（約600行）はここに示しませんが、主なアイデアは以前のLoRAと同様に**「3段階」データセット**でした。今回はブロックスワッピングを使わずにすべてVRAMに収めることでトレーニング速度を最大化したかったため、ターゲットトレーニング解像度を下げなければなりませんでした。

1：高解像度画像データセット 976x544 — ブロックスワッピングなしで許容できる最大解像度（Linuxまたはdiffusion-pipeでは、これより高くなる可能性あり）
2：中解像度動画データセット、短いフレーム長 512x288x17
3：低解像度動画データセット、最大フレーム長 256x144x81

（「2段階」データセット（中解像度短い長さの動画＋高解像度画像）でトレーニングも試しましたが、効果はそれほど高くありませんでした。）

以下は画像データセット（170枚）用の設定ファイルの記録です：

[[datasets]]
image_directory = "H:/datasets/redline/images/1864x1048x1"
cache_directory = "H:/datasets/redline/images/1864x1048x1/cache"
resolution = [976, 544]
batch_size = 1
num_repeats = 1
caption_extension = ".txt"

画像のキャプション生成には（ローカルで）Ovis2-16Bを単一画像入力モードで使用し、キャプションプロンプトは以下の通り：

このシーンを説明してください。単語「image」は使用しないでください。シーンに人がいる場合は、性別を明確に記述してください。説明は「Redline style.」で始めてください。

「第2段階」データセットには、512x288（最低ではないが低解像度）の動画（175箇所）を使用しました。実際の長さは25フレーム以上でしたが、設定上の目標フレーム長（target_frames）は常に**[17]**に固定し、frame_extractionは「head」に設定しました。28個のバケット（フォルダ）ごとの設定セクションは常に同じ形でした（フォルダ名のみ変更）：

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x25"
cache_directory = "H:/datasets/redline/videos/1864x1048x25/cache_s"
resolution = [512, 288]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [17]
caption_extension = ".short"

このデータセットには「短い」キャプションファイルを使用しました。キャプション生成にはOvis2-16Bを動画入力モードで使用しました。キャプションプロンプトは以下の通り：

このシーンを簡潔に説明してください。シーンに人がいる場合は、性別を明確に記述してください。話している場合はそれも明記してください。主題とその行動を最初に記述し、その後に背景と環境を記述してください。説明は「Redline style.」で始めてください。

「第3段階」データセットは同じ175本の動画を使用しましたが、最低トレーニング解像度256x144、frame_extractionは「uniform」に設定しました。フレーム数が81を超えるバケット（フォルダ）では、frame_samplesを2、target_framesを**[81]に設定しました。フレーム数が81未満のバケットでは、frame_samplesを1**、target_framesは**[X]**に設定（Xはそのバケットの長さを4N+1で割り切れるよう近似した値：25、29、33...）

（はい、すべて複雑に聞こえるかもしれません。しかし、もちろん私はすべて手で計算したわけではありません。適切なスクリプトを依頼し、Claudeに作成してもらいました。ただ、要件を丁寧に定義しただけです。この手続きはおそらく冗長で、トレーニング出力に大きな影響を与えなかったかもしれません。なぜなら、以前の最良のLoRAはこれらの手順なしでもうまく機能していました。しかし、私はトレーニング後のデータセットの弱点を特定できるように、すべてのバケットとデータセット構造を手動で制御することを好みます。理論上はです。）

フレーム数が81未満のバケットフォルダの例：

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x25"
cache_directory = "H:/datasets/redline/videos/1864x1048x25/cache_l"
resolution = [256, 144]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [25]
caption_extension = ".long"

フレーム数が81以上のバケットフォルダの例：

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x97"
cache_directory = "H:/datasets/redline/videos/1864x1048x97/cache_l"
resolution = [256, 144]
batch_size = 1
num_repeats = 1
frame_extraction = "uniform"
target_frames = [81]
caption_extension = ".long"
frame_sample = 2

このデータセットでは、「長文」キャプションファイルを使用しました。これらはOvis2-16Bを動画入力モードで、以下のキャプションプロンプトを用いて生成されました（短いキャプションとは異なり、今回は背景をまず記述するよう指示しました）：

このシーンを詳細に描写してください。シーンに人物がいる場合、その性別を明確に述べてください。人物が話している場合、それを明確に記述してください。まず背景と環境を描写し、次に被写体とその行動を描写してください。描写は「Redline style.」で始めてください。

「デュアルキャプション」について、私はこれが潜在的なオーバーフィッティングへの対策の一つになると期待しました。同じフレグメントが、2つの異なるキャプションを通じてモデルに学習されるため、実質的に「キャプションのデータ拡張」として機能するからです（このアイデアはSeaweed-7B論文で見つけ、採用することに決めました）。

トレーニングは50エポック（1エポックあたり573ステップ）実行しましたが、その後のテストで、ステップ16,617（エポック29）のLoRAが最も安定しており、汎用性も高いことが判明しました（そのため、実際のトレーニング時間は約23時間でした）。ちなみに、エポック10（5,730ステップ）のLoRAはすでに_Redline_のアートスタイルを比較的よく再現できていましたが、動きはすべてベースのWanモデルから引き継がれており、これは受け入れられませんでした。

これはLoRAの3番目のバージョンであると述べました。最初のバージョンはキャプションが不十分で（Geminiが生成したミニマリスティックなキャプションを使用しました。品質としては良いものでしたが、トレーニング結果には満足できず、Wanは短いキャプションをまったく好まないと思うからです）。2番目のバージョンは「デュアルティア」データセットを使用しましたが、まあまあの結果でした。3番目のバージョンが今回このバージョンであり、まだ理想の水準には達していませんが、前述したように、精神を保つためにここで一度停止し、休憩を取る必要があると感じました。このLoRAはもっと良くなる可能性がありますが、悪くなる可能性もありました。今後、LoRAトレーニングの品質をさらに向上させるためのいくつかのアイデアを持っており、次期バージョンで試す予定です。

モデルタイプ	LORA
ベースモデル	Wan Video 14B t2v
公開日	4/28/2025
トレーニングワード	Redline style

Redline 🎥 Wan2.1-T2V-14B

詳細

ファイルをダウンロード

モデル説明

説明

使用方法

トレーニング

このモデルで生成された画像