Gurren Lagann / Anime Style Wan 2.2 14B Lora

詳細

ファイルをダウンロード

モデル説明

新規追加

10/15 - AIツールキットを使用して、Qwenバージョンを14.5kステップ学習

9/11 - High LoRA V1.1を117Kステップまで学習し、多くのモーションおよび品質の問題を修正。HighはこのLoRAに対して多数の変更を加えているため、ぜひお試しください。以前のバージョンを試したい場合は、125–300の代替エポックはこちらで確認できます

参考:MPS LoRAをリリースしました。強度0.5で試してみてください。ただし、このLoRAとの組み合わせは十分にテストされていません

このLoRAとは

これは、Gainaxが制作した2007年のアニメ『天元突破グレンラガン』のスタイルを再現するために作成したスタイルLoRAです。これは私の最も好きなシリーズの一つであり、アニメが私にとって本物の感動をもたらした瞬間を象徴しています。この作品は、Gainaxが生み出したメカアニメの定番を解体し、過剰に使われてきたジャンルのトロープをすべて完璧に実行しています。彼らの傑作『ガンバスター』との完璧な姉妹作品であり、両方を見ていただければ、私の言っている意味が分かるでしょう。每一幕は、圧倒的な抑圧と悲しみに打ち勝つ物語であり、その後再び立ち上がり、再び挑戦するためのリセットと背中を押す瞬間を描いています。彼らはあなたを感情の最も暗い場所へと導き、そしてすぐに頂点へと突き上げます。

このアニメのアートスタイルは、明るいシーンでも暗いシーンでも、照明の使い方が非常に優れています。モーションとアニメーションスタイルも非常に興味深く、アクションの瞬間は非常に速く、短い爆発的な動きが特徴です。アクションシーンでは広角ショットを高速アニメーションで描き、その後キャラクターのリアクションを中近接ショットで切り替えるという手法を頻繁に採用しています。アニメーションのクオリティは最高レベルですが、面白いことに、予算を使い切ったエピソードでは次のエピソードで明らかに粗い仕上がりになることもありますが、その5〜10分のS級アニメーションのためならすべての犠牲は価値があります。

このスタイルLoRAの目的は、このアニメのビジュアルとモーションのスタイルを再現することです。キャラクターロラではなく、適切なプロンプトを使用すればキャラクターも再現できます。

トリガー語:GurrenLagannStyle

(アニメやアニメーションスタイルに関する追加の説明はプロンプトに不要です。このトリガー語だけでスタイルが適用されます。)実際、アニメ関連のキーワードをプロンプトに加えることは推奨しません。なぜなら、このモデルは以前よりはるかに優れたアニメ学習を行っており、追加のキーワードがベースモデルにバイアスを生む可能性があるからです。トリガー語はなくても動作する可能性がありますが、念のため入れてあります。

この学習データには、アニメの第1シーズンに登場するすべてのキャラクターが含まれています。タイムスキップ以降のデータは含まれていませんが、ヨーコの「Pieces of Sweet Stars」のミュージックビデオのデータは含んでいます。スタイルが異なるため、関連作品は除外しました。画像はアニメ本編から、動画はリマスター版映画#1から取得しています。そのため、いくつかの新規シーンも含まれています。

以下に、一部のキャラクターを再現する方法を示します(より多くの説明はキャプションデータをご覧ください):

ヨーコ:

長い赤い尖った髪をポニーテールで結び、箸とスカルアクセサリーで留め、赤い炎模様の黒いビキニトップ、薄ピンクのスカーフ、白いステッド付き黒のショートパンツ、ピンクのハイソックス、指なしの黒手袋、白と赤のブーツを着用。巨大な濃灰色の六角形バレルを持つライフルを手に持つ。

シモン:

尖った暗青色の髪をした少年。裸の上半身に青いジャケットを着用し、頭に赤いゴーグルを装着。

カミナ:

筋肉質な男性。尖った青い髪と青い螺旋のタトゥー。オレンジ色のフレームレス三角形サングラスと赤いボロボロのマントを着用。前腕に包帯を巻いている。

ニア:

波打つ金色と薄青色の髪、 teal の瞳に赤い瞳孔が十字に花びらの形に並ぶ若い女性。ピンクと白のドレスに大きな金のベルトとカフスを着用。複雑な金の首輪に赤と緑の宝石、赤いネクタイ、ピンクと白の髪飾りを身に着けている。

グレン & ラガン:

人型メカ(顔の特徴などは説明した方が良いが、キャプションにはあまり記載されていない)。頭のサムライ角を言及する必要がある場合は明記してください。すべての形態(飛行モード、戦艦など)がデータに含まれています。

バイラル:

不整な金色の髪で片方の目を隠している男性。白いファー縁取りのジャケットと赤いショルダーパッドを着用。

メカ:

すべてのメカは「mecha」とラベル付けされています。「クジラのようなmecha」や「カメのようなmecha」などと記述することで異なる種類を生成できます。学習データにはほぼすべてのメカが含まれています。「mecha」という語句だけでトリガーできます。

獣人 = 「creature」(例:カメのようなcreatureなど)

ブータ:

小さな茶色の錠剤形のピンクのブタモグラ。長く細い触覚、巻き尾、ひげ、丸いサングラスを備えている。

ロード・ジーン:

巨大で極めて筋肉質な男性。剃った頭、ダークなスタイリッシュなひげ、強い明るい色の目。上半身は裸で、腕に二つの大きな銀色のU字型ブレスレットを着用している。(ひげのキャプションを忘れてしまったかもしれません。この語を追加してみてください)

他にも多数のキャラクターが含まれており、第1シーズンの主要・次要キャラクターはほぼ網羅しています。自分自身で説明してみてください。あるいはキャプションデータをご確認ください。

推奨設定:

**Eulerは使用しないでください。**すべてのモーションが歪みます。samplerはdpm++_sdeを使用してください。20ステップの場合、11ステップ目でHighとLowを分割してください。Highは8 shift、Lowは6 shiftが最適ですが、8/8 shiftでも問題ありません。Shift 5では歪みが発生します。フレームが少なすぎるとLowモデルでスタイルがトリガーされない可能性があるため、40フレーム以上(理想的には65–81フレーム)を推奨します。ただし、テストしてフィードバックをお願いします。「背景に小さな赤いメカのおもちゃ」を追加すると、100%の確率でトリガーされます。なぜか、トレーニングデータに含まれていない性的な描写や裸体をプロンプトに含めると、このメカのおもちゃを追加することでLoRAをトリガーする必要がある場合があります。

このLoRAは、照明/ lightx LoRAなしで広範囲にテスト済みです。ただし、それらと組み合わせても問題なく動作します。照明/ lightxのテストには時間を要しているため、現在の私の意見は、これらはスタイルをそれぞれ異なる方法で大きく変更するため、使用しないことを推奨します。しかし、見た目は悪くなく、少し違うスタイルになりますので、お試しください。どの組み合わせが最適か、あなた自身で判断してください。個人的には、それらなしの状態が最良ですが、どうしても使用する場合、Highにlightx1.5、Lowにlightning1.0は悪くありませんが、色が少し飽和気味になります。

こちらのギャラリーで、これらのLoRAがLoRAに与える影響を確認できます。

1.) デフォルト設定

他のLoRAを一切使用せず、このLoRAのみで実行してください。オリジナルの作品に最も近い見た目とフィーリングを再現できます。3090では、720pの動画生成に20分以上かかります。

20ステップ(High 11ステップ / Low 9ステップ)、CFG 3.5、NAGなし、dpm++_sde、Shift 8 / Shift 6

利点:学習データに最も近い結果を得られる。モーション、品質、カメラ制御など、すべての2.2の利点を享受できる。

欠点:処理が遅く、リソース消費が多い。

2.) Lightx2V Wan 2.1 LoRA最適化

1.) このLoRA(Gurren Lagann Style LoRA)(High/Lowとも強度1.0)

2.) Wan21_T2V_14B_lightx2V_cfg_step_destill_lora_rank32(High/Lowとも強度1.0、同じLoRAファイルを両方に使用)

7ステップ(High 3 / Low 4)、ただし4/4や2/2も試してください。CFG 1、NAG使用

利点:より少ないステップで高解像度を生成可能。モーションは維持され、スタイルはデフォルト設定に近い。Lightning LoRAより安定。

欠点:Lightx2VはWan 2.1 LoRAのため、出力が2.2より2.1に近づく可能性がある。色調がやや暗くなる傾向あり。まれに不自然な雪の効果が発生するため、Lightx2V LoRAの強度を上げることで軽減可能。

3.) Lightning 1.1 Wan 2.2 LoRA最適化

7ステップ(High 3 / Low 4)、ただし4/4や2/2も試してください。CFG 1、NAG使用

1.) このLoRA(Gurren Lagann Style LoRA)(High/Lowとも強度1.0)

2.) Wan 2.2 Lightning v1.1 LoRA(High/Lowとも強度1.0)

利点:少ないステップで高解像度を生成可能。色調が明るく、飽和度が低くなる(その美的感覚が好きな場合は良い)。2.2 LoRAのため、技術的には2.2の利点を享受できるが、現在正しく動作していない可能性がある

欠点:スタイルに大きな影響を与える。アニメ的でレトロな外観は残るが、色が原作より明るすぎる。モーションは大幅に低下する。

4.) 混合アプローチ:HighにLightx2V 1.5強度 / LowにLightning 1.0強度

利点:リソース消費を減らし、少ないステップで処理可能。

欠点:色が飽和しすぎ。2.1と2.2 LoRAの混合により、結果が2.1寄りになる傾向。無LoRA時より一部のモーション歪みが軽減される。

5.) その他の2.1 LoRA

データセット:

アニメ本編から直接スクリーンキャプチャした441枚の画像(1920 x 1080)

PySceneDetect を使用してアニメ本編から抽出した134本の動画(1920 x 1080)をffmpegで16fpsに変換。

ローカルトレーニング用に3090の24GB VRAM内に収めるため、以下の設定をdataset.tomlに適用:

画像は解像度[512]で、enable_ar_bucket = true(これにより、Diffusion Pipeが自動で16:9の512標準解像度に調整)。

動画はフレームバケット[8, 12, 16, 24, 32, 48]、解像度[256]以内に制限。

HandBrakeを使用して、選定したすべてのクリップを上記のフレームバケットにカット。大部分は32または48フレームに収まり、80フレームを超えるクリップは48と32フレームに分割。

この設定により、VRAM 22/24GBでブロックスワップなしにトレーニング可能になり、約2週間連続でトレーニング(半分の成果は破棄したため)。

キャプション作成:

Google Gemini(AI Studio経由)を使用して、以下のようなプロンプトで5枚ずつ動画・画像をバッチ処理。以前は15万トークンを超えると乱れが発生していたが、現在は再プロンプト不要で安定している。おそらく一度だけ再プロンプトしたため改善した可能性あり。キャプションは80%程度正確だったため、ほとんどを軽微に修正、一部は手動で完全に再作成。

あなたはWAN AI動画生成モデルのための高度な画像キャプション作成者です。目標は、WAN 2.2 T2V 14BモデルのLoRA学習用に、鮮烈で映画的、非常に詳細なキャプションを作成することです。したがって、キャプションはWANの構文に従います。今回はアニメシリーズ「天元突破グレンラガン」のスタイルLoRAの作成を目的とします。アニメ本編から抽出した動画クリップを入力として受け取ります。キャラクター名は一切使用せず、すべてのキャプションは一般的に記述し、学習中にスタイルを学習できるようにしてください。「または」といったフレーズは使用せず、最も正確な記述を一つ選んでください。主語を「the subject」と称せず、「男性が〜」や「女性が車内にいる」などと明確に記述してください。成人男性は「man」、成人女性は「woman」と記述。ただし「若い女性」や「少女」などの修飾語は使用可。性別を明示しないでください。「〜のように見える」など曖昧な表現は避けてください。スタイル以外すべてを詳細に記述してください。服装の色や位置なども正確に記述してください。

プロンプトルール:

すべてのプロンプトは「GurrenLagannStyle」で始めてください。

明確で簡潔で直接的な言語を使用してください。比喩、誇張、比喩的表現、主観的修飾語(例:「激しい」「息を吞む」など)は使用しないでください。

目的は、画像や動画内のすべてを記述することです。特に人物がいる場合は、その人物を細かく記述してください。服装のすべての部分(色、位置など)を詳細に記述。彼らの外見や普段の服装の標準的な記述を加える一方で、環境もスタイルの一部であるため、必ず記述してください。

画像の内容を記述してください。たとえば「コスプレをしたBowsetteの写真」といった記述は誤りです。単に「Live action Bowsette...」と記述し、その後画像の内容を記述してください。

誇張された「ちび」風の顔や描写がある場合は、キャプションに必ず明記してください。可能な限り語彙を統一してください。

プロンプトの長さ:制限なし。長く詳細で構いません。WANのリファレンス文書の構造に従ってください。

以下の構造に従ってください:

プロンプト = サブジェクト(サブジェクトの説明)+シーン(シーンの説明)+モーション(モーションの説明)+美的制御+スタイル化

サブジェクトの説明:サブジェクトの外見に関する詳細。形容詞または短いフレーズで記述。例:「黒髪のミャオ族の少女が少数民族の衣装を着用」または「異世界の飛行する妖精。ボロボロだが優雅な衣装を着ており、瓦礫の破片でできた奇妙な翼を持つ」
シーンの説明:サブジェクトがいる環境の詳細。形容詞または短いフレーズで記述。
モーションの説明:動きの特徴を記述。振幅、速度、動きの効果を含む。例:「激しく揺れる」「ゆっくり動く」「ガラスが砕ける」
美的制御:光源、照明環境、ショットサイズ(構図)、カメラアングル、レンズ、カメラモーションを含む。一般的な映像用語については下記のプロンプト辞書を参照してください。
スタイル化:シーンの視覚的スタイルを記述。例:「サイバーパンク」「線画イラスト」「ポストアポカリプティックスタイル」など。一般的なスタイル例については下記のスタイルバンクを参照してください。

構成と透視(フレーミング)
以下から選択:クローズアップ | ミディアムショット | ワイドショット | 低角度 | 高角度 | 上から見た角度 | 一人称視点 | FPV | 鳥の目線 | プロファイル | 極端な長距離ショット | 空中

モーション(映画的移動)(動画ソースの説明時にのみ使用)
使用:ドルリーイン | ドルリーアウト | ズームイン | ズームアウト | タイルアップ | タイリングダウン | パン左 | パン右 | フォロー | 180度回転 | 360度回転 | プルバック | プッシュイン | 降下 | 上昇 | 360度オービット | ハイパーラプス | クレーンオーバー | クレーンアンダー | リバテート | アーク |

カメラの動きとその撮影対象を明確に説明してください。照明、ムード、粒子効果(塵、ネオンの反射、雨など)、必要に応じて色調に焦点を当ててください。感情的ではなく、視覚的に詳細に描写してください。各モーションやカメラ移動は簡潔に保ち、それぞれ約5秒の動画を表すようにしてください。

シンプルなプロンプトを使用してください。5歳のアーティストに指示するように、でもWANの構文と表現ルールに従ってください。これにより、作成するキャプションデータでLoRAが正しくトレーニングされます。添付された画像/動画を参照し、それらをキャプションしてください。キャプションはプロンプト形式で記述してください。シーン・被写体・アクションなどのラベルは不要です。例(過去にラヴェンLoRA用にキャプションした例):

ラヴェン、薄いラベンダー色の肌と短い暗紫色の角張った髪を持ち、上向きの脚を広げたヨガの姿勢をとっている。首には小さな暗紫色のボウタイが、手首には白い袖口がついている。頭の上には高い暗紫色のうさぎの耳が乗っている。手は頭の両側に上げ、犬の姿勢で、白い背景に向かって伸びている。額には赤い宝石がある。黒いロングスリーブのレオタード、赤い宝石が見えるゴールド色のベルト、手首にはゴールドと赤の円形の装飾が施された濃い青の袖口を着用している。体は弓なりに曲がり、腕は床にまっすぐ下に伸び、素足の先端で支えられている。頭は前方やや上を向いており、驚いたか好奇心旺盛な表情で、口は少し開いている。カメラは腰の高さで、ラヴェンを半側面から下から見上げている。カメラトラッキングショット。

サンプルプロンプト:
GoldenBoyStyle。室内設定。短い黒い髪、赤い野球帽を後ろ向きにかぶった若い男性。薄い緑色のTシャツを着ている。顔には、狂ったように広がった目、大きな歯を見せる笑顔、両頬に目立つ赤いほてりを伴う、極端に滑稽な好色な表情を浮かべている。手には開かれた濃い茶色のノートと白いペンを持ち、熱心に書き記している。クローズアップショットで、誇張された顔の表情に焦点を当てる。静止カメラ。

トレーニング情報:

私は今後公開する予定の、このLoRAを例に挙げたWAN 2.2でのアニメスタイルLoRAのトレーニングチュートリアル記事のため、詳細を短く抑えます。記事が公開され次第、ここにリンクを追加し、モデルページのリソースとして参照できるようにします。現在の簡潔な情報:

[model]

type = 'wan'

ckpt_path = '/data/trainingstuff/wan2.2_base_checkpoint'

transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/low_noise_model'

#transformer_path = '/data/trainingstuff/wan2.2_base_checkpoint/high_noise_model'

dtype = 'bfloat16'

transformer_dtype = 'float8'

timestep_sample_method = 'logit_normal'

#min_t = 0.875

#max_t = 1

min_t = 0

max_t = 0.875

#高ノイズ設定をコメントアウト。高ノイズトレーニング時は、これをアンコメントし、低ノイズのtimestepおよびtransformer_path設定をコメントアウトしてください。

[adapter]

type = 'lora'

rank = 32

dtype = 'bfloat16'

[optimizer]

type = 'adamw_optimi'

lr = 2e-5

betas = [0.9, 0.99]

weight_decay = 0.01

eps = 1e-8

後ほどガイドに詳しく記述しますが、グラフについて少し話しましょう。

低グラフ:

ジグザグに下がる傾向です。今後、低グラフはこのような形になると考えられます。まるで平らになり、突然0.001程度急降下するような形状です。このトレンドは継続可能なので、悪影響が出るまでトレーニングを続けます。しかし、スタイルはすでに確立されているため、17Kステップ程度で停止しても問題ありません。

高グラフ:

はい、これは2.2の高グラフの標準的な形状です。C字型に下がり、その後平坦になります。約17Kステップまでトレーニングしました。

高/低テスト:

ガイドで詳しく説明します。ここでは短く簡潔に:

2つの異なるLoRAをテストするのは非常にストレスが高く、難しいです。キャラクターロラのルールはここでは適用されません。2.2キャラクターロラに関するアドバイスでは、「高」はできるだけ短くトレーニングし、ブラーが出るかどうかをテストし、キャラクターの特徴が現れたら過学習と判断します。しかし、アニメスタイルLoRAでは、「高」に特徴やディテールがなければ、「低」が変に見え、スタイルが失われます。したがって、私は両方を十分にトレーニングし、高と低の組み合わせを試行錯誤で見つけるべきだと考えます。同じ低エポック数を使い、高のエポック数を5、30、100、125などと変えてテストするのが有効です。「見た目」が最も近い組み合わせを見極めてください。また、これは単なるスタイルLoRAではなく、モーションLoRAでもあることを忘れないでください(先ほど高速な動きについて言及しました)。

私は同じ低エポック数のLoRAを用いて、高エポック数を4種類ずつバッチでテストしています。スタイルの確認には「極端なクローズアップ」「ミディアムショット」を832×480でテストすることをお勧めします。

左端が最も番組のスタイルに近いことがわかります。キャラクターがヨコに正確に再現されていない部分は、より良いプロンプトとシードで修正可能です。高55も悪くないかもしれません。125と55の間でさらにテストを繰り返し、より良い値を絞り込む価値があります。また、これはキャラクターロラではなく、スタイルとモーションのLoRAです。モーションについては、上記と同様にカメラの動きやキャラクターの動作が硬くならないかを確認してください。また、一部のモーション歪みは完全には除去できませんでしたが、「高」がそれを際立たせることがあります。それにも注意してください。テストを実施し、最も良い結果を選んでください。

以下の例は、「高」LoRAが最終スタイルに与える影響の大きさを示しています(高30は完全に別のキャラクタースタイルに見えます)。

簡単に言えば、私のアドバイスは以下の通りです:両方とも十分にトレーニング(この場合は17Kステップ)、最もトレーニングされた「低」エポックを使用し、それに複数の「高」エポックを対比させてテストしてください。その後、最適な「高」を見つけたら、改めて「低」と組み合わせてテストしても構いません。私は実際にはその逆をやっていませんが、「低」をトレーニングし続けることで問題が生じた時点で停止するのが良いでしょう。また、損失値自体は重要ではありません。重要なのは「トレンド」です。例示したグラフと同様のパターンを追う必要があります。2.1のWANでは0.01〜0.02を目指していましたが、ここでは0.1の損失でも非常に良い結果が出ます。結論を出すにはまだ時間がかかりますが、今回のLoRAから得られた最良の結果は、「低」と「高」をともに最もトレーニングした組み合わせであることがわかりました。

まとめの意見:

私は100%成功したとは言えませんが、今はこれで十分です。今後さらに学習していきます。このLoRAにはまだ十分な時間とテストが必要です。しかし、私の精神的健康のために、一旦休憩します。WAN 2.2の挙動についてさらに学び、再びテストを進めます。低解像度で遠くの目が歪む現象や、高速移動時の歪みが残っています。しかし、動きがあるときはそれほど目立たないと思います。これは従来のアニメーションでも同様で、高速で動いているフレームを一時停止すると奇妙に見えることがあります(オンラインで公開されているシンプソンズの古典的なエピソードの例を参照してください)。私はその歪みを修正しようと40Kステップ近くを無駄にしました。どちらの「高」「低」も実はバージョン2です。今後、高LoRAの代替エポックをいくつか提示しますので、各自で実験して、最も効果的な組み合わせを教えてください。更新版を随時提供します。

特別な感謝:

Banodoco Discordサーバーのトレーニングチャンネルにいる皆様に、心より感謝します。皆さんのアドバイスで多くの問題を解決できました。進捗を共有し、フィードバックをもらえるのはとても心強かったです。今回使用したすべての内容は、Seruva19さんの研究と作業に基づいています。彼のLoRAや、非常に詳細な解説記事もぜひチェックしてください。また、質問に丁寧に答えてくれ、優れたノードを作成してくれたKijaiさんにも心より感謝します。

このモデルで生成された画像

画像が見つかりません。