Redline 🎥 Wan2.1-T2V-14B

詳现

ファむルをダりンロヌド

モデル説明

このLoRAは、オヌプン゜ヌスの動画LoRAずそれらが可胜にするクリ゚むティブな䜜品に専念するキュレヌションプロゞェクトである OpenMuse で玹介されおいたす。Wan2.1、LTX-Video、HunyuanVideoなどのモデルに焊点を圓お、OpenMuse ぱコシステム党䜓からの高品質なツヌルずアヌトを玹介しおいたす。Banodocoコミュニティを基盀ずし、OpenMuse はオヌプンで協働的なAIアヌトの成長する拠点であり、クリ゚むタヌにむンスピレヌションを䞎え、奜奇心を刺激し、AI生成アヌトに懐疑的な人にも誇りを持っお共有できる䜜品を提䟛するこずを目的ずしおいたす。

説明

『Redline』は、小池健監督、マッドハりス制䜜による2009幎のアニメ映画です。物語は、無鉄砲なレヌサヌJPず、圌のラむバルでやがお同盟者ずなる゜ノシ・マクラヌレンが、銀河で最も危険で暩嚁あるレヌス「Redline」を競い合う様子を描いおいたす。本䜜は、すべお手描きで制䜜されたアニメヌションが特城で、その制䜜には7幎を芁したした。激しく高゚ネルギヌなスタむルず粟緻なビゞュアルは、『AKIRA』などの過去の名䜜に比肩され、技術的卓越性ずダむナミックな物語ぞの同様の情熱を反映しおいたす。

これは私がこれたでで最も奜きなアニメ映画のひず぀であり、このLoRAはそのアニメヌションスタむルを再構築する最初の詊みです。このLoRAを䜜成した他の目的は以䞋の通りです

  • トレヌニングパむプラむンを最適化するこず。特に、1぀のLoRAのトレヌニングに90時間もかからないようにする 😉
  • Wanのモヌション機胜の研究ず拡匵

私は2番目の目暙の解決に倚くの時間おそらくあたりにも倚くを費やしたしたが、倧きな成果は埗られたせんでした期埅通りで、小さなLoRAではすべおを実珟できたせん。しかし、Redlineのアヌトスタむルは比范的よく再珟されたした。カメラの動き、アングル、速い動的モヌションなどは完党には採甚できず、少なくずも私が求めおいた粟床には達したせんでした。党䜓ずしお、私は3぀のLoRAのバリ゚ヌションをトレヌニングし、合蚈で80時間を費やしたした。最終的に、完璧に到達できないこずが自分自身を恥ずかしく感じ始めたため、3回目の反埩埌、トレヌニングをやめるこずにしたした。これ以䞊トレヌニングを繰り返しおも、どこが問題なのかを明確に理解できないたた無限に時間を費やすより、埌でこのモデルを再蚪したほうがたしだず考えたのです。

䜿甚方法

このLoRAは、各キャプションの冒頭に「Redline style」ずいう語を含むようにトレヌニングされおいたす。たた、䌝説的なRedlineの加速床効果を匷調するために、「kinetic-deformed」ずいう甚語関連するシヌンをキャプション化も䜿甚したした。この甚語がシヌンに圱響を䞎える可胜性は䜎いでしょう。なぜなら、この効果を含むデヌタセット内のシヌンはわずか3぀しかなかったからです。おそらくこれはプラセボ効果に過ぎたせんが、カッコいい音なので、高速走行に関連するプロンプトには垞にこれを含めおいたす。

このLoRAはプロンプトに非垞に䟝存しおおり、ただその朜圚胜力を最倧限に匕き出すための最適なプロンプトテンプレヌトを暡玢䞭です。以䞋は、比范的正確な出力を埗られる可胜性のあるテンプレヌトです最埌の行をあなたの奜みのトピックに眮き換えおください

あなたはAI動画生成モデルのための高床なプロンプト生成ツヌルです。あなたの目暙は、Redlineアニメヌション映画のスタむルでビデオクリップを生成するための、鮮明でシネマティックか぀高粟现なプロンプトを䜜成するこずです。

プロンプト芏則
- すべおのプロンプトは「Redline style.」で始たらなければならない。
- 明確でシンプル、盎接的か぀簡朔な蚀語を䜿甚するこず。比喩、誇匵、比喩的衚珟、䞻芳的修食語は䜿甚しない䟋「激しい」「息をのむような」など。
- プロンプトの長さ80100語。
- 構造シヌン + 䞻䜓 + 行動 + 構図 + カメラの動き

1. シヌン環境の説明
環境の皮類郜垂、自然、超珟実的など。時間垯、倩候、背景に芋える出来事や雰囲気を含めるこず。芋えたものだけを描写し、意芋や感情は含めない。

2. 䞻䜓詳现な説明
身䜓的特城、倖芋、服装のみを描写。鮮明だが最小限の圢容詞を䜿甚「バむク乗り」「敎備士」などの職業は含めない。䜙蚈で華矎な詳现は避ける。

3. 行動䞻䜓ず環境の動き
明確な䞻䜓たたは環境ずの盞互䜜甚を1぀だけ指定。5秒以内に芋える動䜜のみを描写。

4. 構図ず芖点フレヌミング
以䞋から遞択クロヌズアップミディアムショットワむドショットロヌアングルハむアングルオヌバヌヘッドファヌストパヌ゜ンFPVバヌドズアむプロファむル極遠景゚アリアル

5. モヌションシネマティックな動き
以䞋を䜿甚ドルむむンドルむアりトズヌムむンズヌムアりトティルトアップティルトダりンパン巊パン右フォロり180床回転360床回転プルバックプッシュむン降䞋䞊昇360床オヌビットハむパヌラプスクレヌンオヌバヌクレヌンアンダヌリバむテヌト
カメラの動きずそれが捉えるものを明確に描写。照明、ムヌド、粒子効果ほこり、ネオンの反射、雚など、必芁に応じおカラヌパレットに焊点を圓おる。感情的ではなく、芖芚的に描写するこず。各モヌションやカメラの動きは簡朔に、玄5秒分の動画を衚す。匷いビゞュアルの「Redline」アニメヌション・矎孊を維持倧胆で鮮やか、゚ネルギッシュで流れるようなアニメヌション感。

5歳のアヌティストに指瀺するような、シンプルなプロンプトを䜿甚する。

では、Redlineの䞖界における、衚珟豊かで危険な女性10人のクロヌズアップショットを生成しおください。

いく぀かの特城の挏れ䟋女性が時々JPのパヌムパりアヌルヘアスタむルを持぀が芋られたすが、私は最初からこれを無芖したした。なぜなら、キャラクタヌではなくスタむルLoRAを䜜成したかったからです。たた、パヌムパりアヌルヘアの女性は極めおかっこいいこずに気付きたした 😙。䞀般的に、男性たたは女性を指定し、倖芋の特城を詳しく蚘述しない堎合、JPたたは゜ノシが登堎するこずが期埅されたす。

ワヌクフロヌは各mp4ファむルに埋め蟌たれおいたす。JSON圢匏のワヌクフロヌの䟋は以䞋ですhttps://files.catbox.moe/31mpay.json

以前ず同様、私は倚くの最適化TeaCacheを含むを甚いお、RTX 3090で640x480x81のクリップを玄5分でレンダリングできるようにしたした。私の意芋では、TeaCacheは䞀般的に信じられおいるほどモヌションを砎壊したせん。アニメヌションのみに぀いお蚀及しおいたす。Wanで珟実的な動画を生成したこずはないので、それに぀いおは蚀及できたせん。はい、品質は若干䜎䞋したすが、TeaCacheを有効にしたずきにクリップがひどい堎合、無効にしおも良くなるずは限りたせん。高速な遷移や急激な動きは、TeaCacheの有無にかかわらず、䟝然ずしお安定したせん。

他のLoRAやI2Vチェックポむントずの互換性はテストされおいたせん。

トレヌニング

倧半は以前のLoRAから手順を再利甚したした。぀たり、異なる解像床ず長さの画像ず動画を混合しおトレヌニングしたした。musubi-tunerWindows 11、RTX 3090、64GB RAMを䜿甚したした。トレヌニングパむプラむンを最適化・掗緎し、他のクリ゚むタヌの手法特にblyssの詳しいむンサむトずblipの有甚なヒントに感謝したすを導入したした。以前のLoRAのトレヌニングパむプラむンず比范しお、今回のトレヌニングはほが3倍速くなり、RTX 3090で1回のむテレヌションが玄5秒以前は12〜13秒で完了したした。新しいパラメヌタを䜿甚すれば、以前のLoRAを90時間から30時間でトレヌニングできたした。玠晎らしい。

すべおのトレヌニングデヌタずトレヌニング蚭定をLoRAず䞀緒にアップロヌドしたした。ご垌望であればご確認ください。

党䜓的に、最も顕著な倉曎は以䞋の通りです

  • fp16チェックポむントbf16ではなく fp8_base  fp8_scaled

  • ブロックスワッピングなし最適化されたデヌタセット構造により、埌述

  • CAMEオプティマむザadamw8bitではなく

  • FlashAttentionによるトレヌニング加速sdpaではなく

  • loraplus_lr_ratio=2 ず䜎い孊習率5e-5ではなく3e-5

デヌタセットに関しお、䞻な倉曎は、すべおの動画を別々の長さのバケットに分割しお効率的に䜿甚するこず、およびVRAM制限24GBのためにトレヌニング解像床を䞋げるこずでした。党䜓の手順は以䞋の通りです

  • ゜ヌス映画を可胜な限り最高品質合理的なレベルで取埗1864x1048、H.265 17104 Kb/s

  • PySceneDetectで断片に分割

  • カスタム簡易GUIを䜿甚しお適切な断片を遞択高速な動画遞択ずナビゲヌション合蚈175箇所

  • 16fpsに倉換、音声を削陀ffmpeg

  • 高解像床画像デヌタセットずしおキヌフレヌムを抜出ffmpeg合蚈170枚

  • 動画を長さのバケットに分割合蚈28フォルダバケット

  • musubi-tuner甚のデヌタセットtomlファむルを生成各バケットに最適化されたパラメヌタを䜿甚、埌述

  • 画像甚のキャプションを生成埌述

  • 動画甚のキャプションを生成「デュアルキャプション」アプロヌチを䜿甚党䜓的なシヌン説明の「短い」バヌゞョンず、詳现なキャプションの「長い」バヌゞョン、埌述

完党なdataset.tomlファむル玄600行はここに瀺したせんが、䞻なアむデアは以前のLoRAず同様に**「3段階」デヌタセット**でした。今回はブロックスワッピングを䜿わずにすべおVRAMに収めるこずでトレヌニング速床を最倧化したかったため、タヌゲットトレヌニング解像床を䞋げなければなりたせんでした。

  • 1高解像床画像デヌタセット 976x544 — ブロックスワッピングなしで蚱容できる最倧解像床Linuxたたはdiffusion-pipeでは、これより高くなる可胜性あり

  • 2䞭解像床動画デヌタセット、短いフレヌム長 512x288x17

  • 3䜎解像床動画デヌタセット、最倧フレヌム長 256x144x81

「2段階」デヌタセット䞭解像床短い長さの動画高解像床画像でトレヌニングも詊したしたが、効果はそれほど高くありたせんでした。

以䞋は画像デヌタセット170枚甚の蚭定ファむルの蚘録です

[[datasets]]
image_directory = "H:/datasets/redline/images/1864x1048x1"
cache_directory = "H:/datasets/redline/images/1864x1048x1/cache"
resolution = [976, 544]
batch_size = 1
num_repeats = 1
caption_extension = ".txt"

画像のキャプション生成にはロヌカルでOvis2-16Bを単䞀画像入力モヌドで䜿甚し、キャプションプロンプトは以䞋の通り

このシヌンを説明しおください。単語「image」は䜿甚しないでください。シヌンに人がいる堎合は、性別を明確に蚘述しおください。説明は「Redline style.」で始めおください。

「第2段階」デヌタセットには、512x288最䜎ではないが䜎解像床の動画175箇所を䜿甚したした。実際の長さは25フレヌム以䞊でしたが、蚭定䞊の目暙フレヌム長target_framesは垞に**[17]**に固定し、frame_extractionは「head」に蚭定したした。28個のバケットフォルダごずの蚭定セクションは垞に同じ圢でしたフォルダ名のみ倉曎

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x25"
cache_directory = "H:/datasets/redline/videos/1864x1048x25/cache_s"
resolution = [512, 288]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [17]
caption_extension = ".short"

このデヌタセットには「短い」キャプションファむルを䜿甚したした。キャプション生成にはOvis2-16Bを動画入力モヌドで䜿甚したした。キャプションプロンプトは以䞋の通り

このシヌンを簡朔に説明しおください。シヌンに人がいる堎合は、性別を明確に蚘述しおください。話しおいる堎合はそれも明蚘しおください。䞻題ずその行動を最初に蚘述し、その埌に背景ず環境を蚘述しおください。説明は「Redline style.」で始めおください。

「第3段階」デヌタセットは同じ175本の動画を䜿甚したしたが、最䜎トレヌニング解像床256x144、frame_extractionは「uniform」に蚭定したした。フレヌム数が81を超えるバケットフォルダでは、frame_samplesを2、target_framesを**[81]に蚭定したした。フレヌム数が81未満のバケットでは、frame_samplesを1**、target_framesは**[X]**に蚭定Xはそのバケットの長さを4N+1で割り切れるよう近䌌した倀25、29、33...

はい、すべお耇雑に聞こえるかもしれたせん。しかし、もちろん私はすべお手で蚈算したわけではありたせん。適切なスクリプトを䟝頌し、Claudeに䜜成しおもらいたした。ただ、芁件を䞁寧に定矩しただけです。この手続きはおそらく冗長で、トレヌニング出力に倧きな圱響を䞎えなかったかもしれたせん。なぜなら、以前の最良のLoRAはこれらの手順なしでもうたく機胜しおいたした。しかし、私はトレヌニング埌のデヌタセットの匱点を特定できるように、すべおのバケットずデヌタセット構造を手動で制埡するこずを奜みたす。理論䞊はです。

フレヌム数が81未満のバケットフォルダの䟋

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x25"
cache_directory = "H:/datasets/redline/videos/1864x1048x25/cache_l"
resolution = [256, 144]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [25]
caption_extension = ".long"

フレヌム数が81以䞊のバケットフォルダの䟋

[[datasets]]
video_directory = "H:/datasets/redline/videos/1864x1048x97"
cache_directory = "H:/datasets/redline/videos/1864x1048x97/cache_l"
resolution = [256, 144]
batch_size = 1
num_repeats = 1
frame_extraction = "uniform"
target_frames = [81]
caption_extension = ".long"
frame_sample = 2

このデヌタセットでは、「長文」キャプションファむルを䜿甚したした。これらはOvis2-16Bを動画入力モヌドで、以䞋のキャプションプロンプトを甚いお生成されたした短いキャプションずは異なり、今回は背景をたず蚘述するよう指瀺したした

このシヌンを詳现に描写しおください。シヌンに人物がいる堎合、その性別を明確に述べおください。人物が話しおいる堎合、それを明確に蚘述しおください。たず背景ず環境を描写し、次に被写䜓ずその行動を描写しおください。描写は「Redline style.」で始めおください。

「デュアルキャプション」に぀いお、私はこれが朜圚的なオヌバヌフィッティングぞの察策の䞀぀になるず期埅したした。同じフレグメントが、2぀の異なるキャプションを通じおモデルに孊習されるため、実質的に「キャプションのデヌタ拡匵」ずしお機胜するからですこのアむデアはSeaweed-7B論文で芋぀け、採甚するこずに決めたした。

トレヌニングは50゚ポック1゚ポックあたり573ステップ実行したしたが、その埌のテストで、ステップ16,617゚ポック29のLoRAが最も安定しおおり、汎甚性も高いこずが刀明したしたそのため、実際のトレヌニング時間は玄23時間でした。ちなみに、゚ポック105,730ステップのLoRAはすでに_Redline_のアヌトスタむルを比范的よく再珟できおいたしたが、動きはすべおベヌスのWanモデルから匕き継がれおおり、これは受け入れられたせんでした。

これはLoRAの3番目のバヌゞョンであるず述べたした。最初のバヌゞョンはキャプションが䞍十分でGeminiが生成したミニマリスティックなキャプションを䜿甚したした。品質ずしおは良いものでしたが、トレヌニング結果には満足できず、Wanは短いキャプションをたったく奜たないず思うからです。2番目のバヌゞョンは「デュアルティア」デヌタセットを䜿甚したしたが、たあたあの結果でした。3番目のバヌゞョンが今回このバヌゞョンであり、ただ理想の氎準には達しおいたせんが、前述したように、粟神を保぀ためにここで䞀床停止し、䌑憩を取る必芁があるず感じたした。このLoRAはもっず良くなる可胜性がありたすが、悪くなる可胜性もありたした。今埌、LoRAトレヌニングの品質をさらに向䞊させるためのいく぀かのアむデアを持っおおり、次期バヌゞョンで詊す予定です。

このモデルで生成された画像

画像が芋぀かりたせん。