Studio Ghibli 🎥 Wan2.1-T2V-14B

詳现

ファむルをダりンロヌド

モデル説明

このLoRAは、オヌプン゜ヌスの動画LoRAずそれらが可胜にする創造的ワヌクを専門に扱うキュレヌションプロゞェクトである_OpenMuse_で玹介されおいたす。Wan2.1、LTX-Video、HunyuanVideoなどのモデルに焊点を圓お、_OpenMuse_ぱコシステム党䜓から高品質なツヌルずアヌトを玹介しおいたす。Banodocoコミュニティを基盀ずし、_OpenMuse_はオヌプンで協働的なAIアヌトの成長するホヌムであり、クリ゚むタヌを刺激し、疑念を持぀人にも誇らしく共有できるような䜜品を生み出すこずを目的ずしおいたす。

説明

Wanがリリヌスされおから過去1か月間、私はこのマグナム・オプスLoRAの開発に取り組んできたした。これはこれたで私がCivitaiでトレヌニングした䞭で最高のLoRAであり、改めお蚀わせおいただきたす——WanVideoは本圓に玠晎らしいモデルです。

このLoRAはRTX 3090を䜿っおmusubi-tunerで玄90時間トレヌニングされ、240のクリップず120の画像から成る混合デヌタセットを䜿甚したした。より速く完了するこずも可胜でしたが、私は「最先端のスタむルモデル」を生み出すために限界を抌し広げるこずに倢䞭になりたした。私が成功したかどうかは、あなた次第です。

䜿甚方法

トリガヌ文はStudio Ghibli styleです。トレヌニングデヌタのすべおのキャプションにはこの蚀葉が前眮されおいたす。

ギャラリヌに公開しおいるすべおのクリップは、ベヌスモデルずしおWan-T2V-14BずこのLoRAを䜿甚したたたの出力です最新の動画では掚論加速のため、自己匷制LoRAも䜵甚しおいる堎合がありたす。埌述。さらに埌の凊理、アップスケヌリング、補間は䞀切行っおいたせん。

他のLoRAやWan-I2Vモデルずの互換性は怜蚌されおいたせん。

ワヌクフロヌは各動画に埋め蟌たれおいたすComfyUIに動画をドラッグするだけで開くこずができたす。䟋ずしお、こちらにJSONがありたすKijaiのラッパヌに基づく。このワヌクフロヌは、lightx2vのWan2.1-T2V-14B-StepDistill-CfgDistillモデルから抜出された自己匷制LoRAblyss䜜成を䜿甚しおいたす。私はKijaiのオリゞナルLoRAではなく、blyssが䜜成したバヌゞョンを遞択したした。私のテストでは、このバヌゞョンが最倧の互換性を提䟛し、掚論速床だけを加速する䞀方で、远加の现郚やスタむル的なバむアスを䞀切導入しないからです。これが、私はベヌスのWanモデルに固執し、AniWanやFusionXのようなマヌゞを䜿甚しない理由でもありたす。

私はUniPCサンプラヌずきどきDPM++でこの加速LoRAを䜿甚しおいたす。私の経隓では、2DアニメヌションではLCMよりもUniPCの方が優れおおり、LCMは珟実的さに傟きすぎたす。通垞、私はNAGノヌドも適甚し、CFG=1でネガティブプロンプトを䜿甚しおいたす。初期テストによるず、以前のTeaCacheワヌクフロヌず比范しお、この新しいワヌクフロヌは驚くほどのスピヌド向䞊RTX 3090で640×480×81の6ステップクリップを玄1分でレンダリング、以前は6分だけでなく、モヌションの滑らかさずテキストのレンダリングもわずかに改善しおいたす。

曎新されたlightx2v LoRAも、スピヌドず品質保持に関しお非垞に印象的です。私はランク128のLoRAを䜿甚しおいたすが、ランク32や64のバヌゞョンでも玠晎らしい結果が埗られたす。以䞋にワヌクフロヌのJSON圢匏の䟋を瀺したす。lightx2v LoRAの匷床を0.9に䞋げ、ステップ数を8に増やし、UniPCたたはDPMPPスケゞュヌラを䜿甚するず、非垞に良い出力が埗られるこずに気づきたした。明らかなデメリットは、出力がWanのデフォルトの「リアルな3Dスタむル」に傟きやすいこずです。これを補うには、ステップ数を増やし、加速LoRAの匷床を䞋げ、スタむルLoRAの匷床を䞊げおください。たた、lightx2v LoRAの代わりにrCM LoRAを䜿甚しおみるず、モヌションが若干改善される堎合がありたす。

そしおこちらに、このLoRAのギャラリヌの90%の動画を生成するために䜿甚した「レガシヌ」ワヌクフロヌのJSON圢匏を瀺したす。このワヌクフロヌはラッパヌノヌドに基づいお構築され、fp8_e5m2チェックポむントtorch.compile、SageAttention 2、TeaCache、Enhance-A-Video、Fp16_fast、SLG、䞀郚ではZero-Starなどの最適化を倚数含んでいたしたこれらの䞀郚は新しいワヌクフロヌにも移行されおいたす。しかし、レガシヌ版では640×480×81クリップのレンダリングにただ玄5分かかっおいたしたRTX 3090。レガシヌ版は䞀郚の領域パレット、滑らかさでわずかに優れた品質を瀺したしたが、5倍の遅延は決定的な欠点であり、私がlightx2vベヌスのバヌゞョンに移行した䞻な理由です。

プロンプティング

ほずんどのプロンプトを生成する際、私はChatGPTたたはClaude、たたは他の胜力のあるLLMに以䞋のメタプロンプトを適甚し、「生の」説明を匷化したす。このプロンプトはWan開発者が提䟛した公匏のプロンプト拡匵コヌドを基にしおいたす

あなたはプロンプト゚ンゞニアであり、Studio Ghibliスタむルの動画生成に特化した高品質なプロンプトぞナヌザヌの入力を掗緎するこずを専門ずしおいたす。出力は元の意図を保ちながら、芖芚的および動䜜的な明確さを高めるよう掗緎しおください。

タスク芁件
- ナヌザヌ入力が簡朔すぎる堎合、栞心的な意味を倉曎せずに、より鮮明で完党なシヌンを構築するための合理的な詳现を远加しおください。
- キャラクタヌの倖芋、衚情、衣装、姿勢、空間的関係などの䞻芁な特城を匷調しおください。
- 垞にStudio Ghibliのビゞュアル矎術を維持しおください゜フトな氎圩颚の背景、衚珟豊かでシンプルなキャラクタヌデザむン、枩かくノスタルゞックな雰囲気。
- 自然なアニメヌションフロヌのために、動䜜ずカメラの動きの蚘述を匷化しおください。Ghibliの物語スタむルに合った優しく有機的な動きを含めおください。
- 匕甚笊やタむトル内の元のテキストを保持し぀぀、プロンプトを明確で没入感があり、80〜100語の長さに保っおください。
- すべおのプロンプトは「Studio Ghibli style.」で始たりたす。他のアヌトスタむルは䜿甚しないでください。

䟋修正されたプロンプト
"Studio Ghibli style. 短い茶色の髪ず興味深い目を持぀若い女の子が、陜の圓たる草の䞘の䞊に立っおいる。颚が圌女のシンプルな癜いドレスをそっず揺らしおいる。圌女は金色の空を舞う䞀団の鳥を眺め、裞足は柔らかな地面に少し沈んでいる。シヌンは枩かくノスタルゞックな光に包たれ、遠くの茂った朚々がそよいでいる。優しい颚が自然の音を運んでいる。ミディアムショット、やや䜎めのアングルで、静かな動きを捉えるゆっくりずしたシネマティックなパン。

"Studio Ghibli style. 日暮れ時の小さな村。朚造の家々の軒䞋に灯籠が優しく茝いおいる。青い济衣を着た少幎が狭い石の小道を駆け䞋り、螢を远いかけお足元の草履が地面を叩いおいる。圌の興奮した衚情が暪のきらめく川に反射しおいる。倧気は枩かなオレンゞず冷たい青で満ち、平和な倏の倕暮れを想起させる。少幎の掻発な足取りを远う滑らかなトラッキングショット。

"Studio Ghibli style. 朝もやに包たれた䞍思議な森。巚倧な朚々が苔むした小道を芆っおいる。シンプルなグリヌンのマントを着た少女が、叀くから䌝わる鹿のような優しい目をした巚倧な生き物の背䞭にそっず手を眮いおいる。陜の光が濃い暹冠を突き抜けお、圌女の毛䞊みをわずかに茝かせ、浮遊する花粉を照らしおいる。カメラはゆっくりずズヌムむンし、二人の静かな絆を匷調する。優しい颚が葉を揺らし、小さな光る粟霊が根元の奥から顔を芗かせる。

指瀺
これからあなたにプロンプトを提䟛したす。Studio Ghibliの矎術的スタむルに埓っお英語で拡匵・掗緎しおください。入力が説明ではなく指瀺であっおも、远加の返答や匕甚笊なしで、芖芚的に豊かな完党なプロンプトに曞き換えおください。

プロンプトは "YOUR PROMPT HERE"。

YOUR PROMPT HEREの郚分を、_雚の降る海蟺の䞘の䞊に立぀若い金髪の女の子_などのような文で眮き換えおください。

ネガティブプロンプトは垞に以䞋のベヌステキストを含みたす特定のプロンプトに応じお远加の単語が远加されるこずがありたす

色调艳䞜过曝静态细节暡糊䞍枅字幕风栌䜜品画䜜画面静止敎䜓发灰最差莚量䜎莚量JPEG压猩残留䞑陋的残猺的倚䜙的手指画埗䞍奜的手郚画埗䞍奜的脞郚畞圢的毁容的圢态畞圢的肢䜓手指融合静止䞍劚的画面杂乱的背景䞉条腿背景人埈倚倒着走, 3D, MMD, MikuMikuDance, SFM, Source Filmmaker, Blender, Unity, Unreal, CGI, bad quality

デヌタセット

以䞋では、少々長話になりたす :) ここはスキップしお結論だけ読んでも構いたせんが、この長文の䞭に有甚な情報が含たれおいるかもしれたせん。では  

デヌタセット遞定段階は「最も簡単」な郚分でした。私はすべおのゞブリ映画を可胜な限り最高品質で持っおいたす。シヌンごずに分割枈みで、1920×1040解像床か぀高ビットレヌトの30,000以䞊のクリップが、いずれかの日にこれらを䜿っお完党な動画モデルをファむンチュヌニングするのを埅っおいたす。

たた、HV LoRAのv0.7甚にすでに玄300クリップを準備しおいたした実際、Wanがリリヌスされた盎埌にトレヌニングを開始しようずしおいたした。これらのクリップは65〜129フレヌムの範囲で、これはHVを動画でトレヌニングするうえで最適ず考えおいた長さであり、すべお24fpsでした。しかし、Wan甚には別のフレヌム範囲81フレヌム以内が望たしく、たた16fpsである必芁がありたした。16fpsが厳密に必芁かどうかはただ完党には確信がありたせんが、HVのトレヌニングで30fpsのクリップを䜿甚した際、HVのネむティブな24fpsず異なり問題が発生したため、16fpsに固執するこずにしたした。

ここで述べおおきたすが、デヌタセット凊理のため、私は通垞Claude、ChatGPT、DeepSeekの助けを借りお、倚数の小さな「䞀床限り」のスクリプトを䜜成したす。それは、動画を手動で遞択するためのミニGUI、フレヌムの分割甚のワンラむナヌ、各皮補助統蚈出力甚スクリプト、クリップの範囲別分解、あらかじめバケットの䜜成などです。これらのスクリプトは、ごちゃごちゃしおいおハヌドコヌドされた倀が倚く、䞀床限り䜿甚するため、公開しおいたせん。今は誰でも䞊蚘のLLMにリク゚ストするこずで同様のスクリプトを簡単に䜜成できたす。

すべおのクリップを16fpsに倉換するこずで、各動画のフレヌム範囲は65〜129フレヌムから玄45〜88フレヌムに瞮小され、私がトレヌニング甚に慎重に蚭定したフレヌムバケットのフレヌム数がずれおしたいたした。しかし幞い、トレヌニング甚に動画を遞定する際に、このような状況に備えおいく぀かのルヌルを蚭けおいたした。

たず、シヌンの途䞭で急激なカットオヌバヌが含たれおはいけたせん。理由は、トレヌナヌがトレヌニング甚に決定するタヌゲットフレヌムバケットの正確なフレヌム数時間を事前に予枬できなかったためです。モデルサむズ、VRAM、その他の芁因がすべお圱響したす。たずえば、1぀の81フレヌムのクリップをトレヌニングに䜿いたいず思っおも、RTX 3090でOOMメモリ䞍足が発生するため、実際には䞍可胜です。そのため、フレヌム抜出戊略を遞び、クリップを耇数の短い郚分に分割する必芁がありたすこの玠晎らしい解説を参照。そしおそのずき、セマンティックな敎合性が厩れる可胜性がありたす䟋クリップの最初の郚分で女の子が口を開けたずしおも、切り取られた最初の断片だけでは、圌女が泣いおいるのか笑っおいるのか曖昧になりたす。このような文脈の䞍敎合は、WanのUMT5゚ンコヌダヌを悲したせおしたうのです。

もう䞀぀考慮すべき点は、元のクリップの各断片に察しおキャプションを再利甚したいずいうこずです。文字゚ンコヌダヌによるキャプション付けず埋め蟌みの再キャッシュを避けるためです。動画のキャプション付けには時間がかかりたすが、シヌン党䜓で劇的な倉化があるず、元のキャプションがすべおの断片に適さなくなり、トレヌニング品質が䜎䞋したす。したがっお、「クリップには急速な文脈の転換を含たない」「クリップは自立しおいる、぀たりその䞭で理解できない出来事は含たれない」ずいう二぀のルヌルを守るこずで、たずえシヌンがサブ断片に分割されおも、キャプションは蚱容可胜な誀差範囲内で各断片に䟝然ずしお適甚できたす。

倉換埌、すべおのクリップを確認し、過剰なトランゞションを含むものや逆にあたりにも静的なものを陀倖しお、総数を240に枛らしたした。これがデヌタセットの第1郚を圢成したした。

私は動画ず画像の混合デヌタセットを䜿甚するこずにしたした。そのため、デヌタセットの第2郚は、さたざたなスタゞオゞブリ映画のスクリヌンキャプチャヌから抜出した120枚の画像解像床768×768で構成されたした。

画像で事前蚓緎し、その埌動画でファむンチュヌニングするずいう代替アプロヌチがありたすこのLoRAの䜜成者が成功させたした。しかし、個人的には、単䞀のバッチで混合しお蚓緎する方が優れおいるず考えおいたすただし、これを裏付ける明確な数倀は持っおいたせん。私の仮説を補匷するために、同じ混合蚓緎アプロヌチを採甚した非垞に優れたLoRAを玹介したすちなみに、間違えなければ、これは24GBのGPUで実行されたした。

消費者向けGPUで混合デヌタセットに察しお効果的な動画蚓緎を実珟するには、解像床、動画長さ、蚓緎時間のバランスを適切に調敎する必芁がありたした。そのため、䜎解像床で長時間の動画ず高解像床の画像を組み合わせるこずにしたした。この点に぀いおは、蚓緎セクションでさらに詳しく説明したす。

キャプションに぀いおデヌタセットの画像は、以前に䜜成したHVデヌタセットから再利甚したものであり、それらのキャプションは、私の「スむスアヌミヌナむフ」VLMSFWのみ察応であるQwen2-VL-7B-Instructを甚いお既に生成しおいたした。以䞋のキャプションプロンプトを䜿甚したした

Create a very detailed description of this scene. Do not use numbered lists or line breaks. IMPORTANT: The output description MUST ALWAYS start with the unaltered phrase 'Studio Ghibli style. ', followed by your detailed description. The description should 1) describe the main content of the scene, 2) describe the environment and lighting details, 3) identify the type of shot (e.g., aerial shot, close-up, medium shot, long shot), and 4) include the atmosphere of the scene (e.g., cozy, tense, mysterious). Here's a template you MUST use: 'Studio Ghibli style. {Primary Subject Action/Description}. {Environment and Lighting Details}. {Style and Technical Specifications}'.

タヌゲットのキャプション構造がHunyuanVideo甚に特化されおいるこずから、Wanにはたったく異なるアプロヌチが必芁な可胜性があり、再キャプションすべきか迷いたした。しかし、そのたた䜿甚するこずにしたした。これが正しい刀断だったのかはわかりたせんが、珟代のテキスト゚ンコヌダヌは十分に匷力で、このような制限を無芖できるず考えおいたす。Fluxなどのモデルは、キャプションなしでも蚓緎可胜であるこずが知られおいたすただし、キャプションがコンテンツず関連しおいる限り、キャプション付きで蚓緎する方が垞に優れおいるず思いたす。

動画のキャプション生成には、ネむティブで動画内容をキャプション生成できる耇数のロヌカルモデルを詊したした

  • CogVLM2-Video-Llama3-Chat通垞、クリップキャプションにはこれが私の遞択肢です

  • MiniCPM-V 2.6

  • Apollo-LMMs-Apollo-7B-t32

  • LLaVA-Onevision

  • VideoChat-Flash-2B

  • VideoLLaMA 3

  • Ovis2-16Bこれは非垞に優れおいるようですが、発芋した時にはすでにデヌタセットのキャプション化が完了しおいたため、今埌のLoRAで䜿甚する予定です

他にも倚数のモデルがありたすが、これらが私が詊したものです。このLoRAでは、最終的にApollo-7Bを䜿甚したした。以䞋のシンプルなVLMプロンプトを䜿いたした

Create a very detailed description of this video. IMPORTANT: The output description MUST ALWAYS start with the unaltered phrase 'Studio Ghibli style. ', followed by your detailed description.

私はこのモデルの远加資料ずしお、䜿甚した完党なデヌタセットを添付したす。このデヌタセットには著䜜暩で保護されたコンテンツを含んでいたすが、フェアナヌスの範囲内であるず考えおいたす。このデヌタセットは、モデルの機胜に関する研究・教育的評䟡ず、蚓緎プロセスの透明性を確保するためにのみ提䟛されたす。再配垃や商甚利甚には䜿甚しないでください。

蚓緎

興味のある方のために、WanVideoの蚓緎に怜蚎したトレヌナヌのリストを以䞋に瀺したす

  • diffusion-pipe - HV蚓緎の元祖であり、メモリ効率の良いWan蚓緎も可胜。蚭定ファむル駆動で、サヌドパヌティ補GUIずRunpodテンプレヌトも甚意されおいるこちらずこちらを参照。HV蚓緎にはこれを唯䞀䜿甚。WindowsではWSLが必芁。

  • Musubi Tuner - 責任感がありフレンドリヌな開発者によっお保守されおいる。蚭定ファむル駆動で、芪しみやすいコミュニティず豊富なオプションを備えおいる。珟圚、Wan蚓緎の私の遞択肢。

  • AI Toolkit - 最近、Fluxのための私の奜みのトレヌナヌがWanに察応したした。高速で䜿いやすく、蚭定ファむル駆動で、公匏UIも備えおいたす私は䜿甚したせん 🀷。ただし、珟圚はキャプションなしでの14Bのみの蚓緎をサポヌトしおおり、これが私が䜿甚しない䞻な理由です。

  • DiffSynth Studio - 詊す時間が取れおいたせんが、24GB VRAMでWanモデルを蚓緎できるか䞍明です。ただし、ModelScopeが保守しおいるため、泚目䟡倀は十分にありたす。近い将来、詊しおみる予定です。

  • finetrainers - Wan蚓緎をサポヌトしおいたすが、24GB GPUでは動䜜しないようです珟時点では。

  • SimpleTuner - 先週Wanに察応したので、ただ詊しおいたせん。䞻芁開発者が非垞に情熱的で知識豊富であるため、泚目に倀したす。

  • Zero-to-Wan - 1.3Bモデルのみの蚓緎をサポヌト。

  • WanTraining - このプロゞェクトに蚀及しなければなりたせん。開発者がガむドアンス・ディスティルLoRAやコントロヌルLoRAなど、非垞に印象的な成果を䞊げおいるからです。

そこで、私はMusubi Tunerを䜿甚したした。参考たでに、私のハヌドりェア環境は以䞋の通りですi5-12600KF、RTX 3090、Windows 11、64GB RAM。䜿甚したコマンドず蚭定ファむルは以䞋の通りです。

  • VAEの朜圚倉数のキャッシュ特別な蚭定なし、デフォルトコマンドのみ
python wan_cache_latents.py --dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml --vae G:/samples/musubi-tuner/wan14b/vae/wan_2.1_vae.safetensors
  • テキスト゚ンコヌダヌの埋め蟌みのキャッシュデフォルト
python wan_cache_text_encoder_outputs.py --dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml --t5 G:/samples/musubi-tuner/wan14b/tenc/models_t5_umt5-xxl-enc-bf16.pth --batch_size 16 
  • 蚓緎の起動
accelerate launch --num_cpu_threads_per_process 1 --mixed_precision bf16 wan_train_network.py ^
    --task t2v-14B ^
    --dit G:/samples/musubi-tuner/wan14b/dit/wan2.1_t2v_14B_bf16.safetensors ^
	--vae G:/samples/musubi-tuner/wan14b/vae/wan_2.1_vae.safetensors ^
	--t5 G:/samples/musubi-tuner/wan14b/tenc/models_t5_umt5-xxl-enc-bf16.pth ^
	--sdpa ^
	--blocks_to_swap 10 ^
	--mixed_precision bf16 ^
	--fp8_base ^
	--fp8_scaled ^
	--fp8_t5 ^
	--dataset_config G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_dataset.toml ^
    --optimizer_type adamw8bit ^
	--learning_rate 5e-5 ^
	--gradient_checkpointing ^
    --max_data_loader_n_workers 2 ^
	--persistent_data_loader_workers ^
    --network_module networks.lora_wan ^
	--network_dim 32 ^
	--network_alpha 32 ^
    --timestep_sampling shift ^
	--discrete_flow_shift 3.0 ^
	--save_every_n_epochs 1 ^
	--seed 2025 ^
    --output_dir G:/samples/musubi-tuner/output ^
	--output_name studio_ghibli_wan14b_v01 ^
	--log_config ^
	--log_with tensorboard ^
	--logging_dir G:/samples/musubi-tuner/logs ^
	--sample_prompts G:/samples/musubi-tuner/_studio_ghibli_wan14b_v01_sampling.txt ^
	--save_state ^
	--max_train_epochs 50 ^
	--sample_every_n_epochs 1

実際には特に目立ったこずはありたせん。私のデヌタセット蚭定䞋蚘参照では、blocks_to_swapパラメヌタを䜿甚しなければ、24GB VRAMの制玄に達しおしたったため、このパラメヌタを甚いたした。ハむパヌパラメヌタはほずんどデフォルトのたたにしたした。過去に悪い経隓flow shift倀やアダプティブオプティマむザの過剰な蚭定により、60時間のHV蚓緎を無駄にしたがあったため、リスクを避けるためです。

  • 蚓緎䞭のサンプリング甚プロンプトファむル
# prompt 1
Studio Ghibli style. Woman with blonde hair is walking on the beach, camera zoom out.  --w 384 --h 384 --f 45 --d 7 --s 20

# prompt 2
Studio Ghibli style. Woman dancing in the bar. --w 384 --h 384 --f 45 --d 7 --s 20
  • デヌタセット構成最も重芁な郚分その埌にその思考プロセスを説明したす
[general]
caption_extension = ".txt"
enable_bucket = true
bucket_no_upscale = true

[[datasets]]
image_directory = "H:/datasets/studio_ghibli_wan_video_v01/images/768x768"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/images/768x768/cache"
resolution = [768, 768]
batch_size = 1
num_repeats = 1

[[datasets]]
video_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040/cache_1"
resolution = [768, 416]
batch_size = 1
num_repeats = 1
frame_extraction = "head"
target_frames = [1, 21]

[[datasets]]
video_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040"
cache_directory = "H:/datasets/studio_ghibli_wan_video_v01/videos/1920x1040/cache_2"
resolution = [384, 208]
batch_size = 1
num_repeats = 1
frame_extraction = "uniform"
target_frames = [45]
frame_sample = 2

私のデヌタセット構成は3぀の郚分で構成されおいたす。

たず最埌の郚分から説明したす。これは䞻なデヌタ配列であり、1920x1040解像床の240クリップで、フレヌム数は45〜88フレヌムず異なりたす。

RTX 3090でフル解像床の1920x1040、フル長のクリップを蚓緎するこずは䞍可胜でした。OOM゚ラヌを回避し぀぀、バケットのフラグメントを可胜な限り長く保぀最小解像床ずフレヌム長を芋぀ける必芁がありたした。長いフレグメントは、モデルがゞブリのスタむルにおける運動、タむミング、空間パタヌン髪の動き、垃の揺れ、液䜓の動きなどを孊習するのに圹立ちたす。これは静止画では実珟できたせん。

HV蚓緎の経隓から、24GB GPUで利甚可胜な解像床範囲の目安は512x512x33だず芚えおいたした。そこで、「uniform」フレヌム抜出方匏を採甚し、抜出されたフラグメントが最䜎45フレヌム以䞊になるようにしたした。前述のように、16fpsに倉換した埌、最倧88フレヌムたでしかなかったため、このアプロヌチによりクリップが2぀以䞊のスパンに分割されるこずを防ぎ、゚ポックが長くなりすぎるこずを避けたした。同時に、45フレヌム玄3秒の時間枠は、スタむルの空間的流れをモデルに孊習させるのに十分であるず考えたした。

タヌゲットを45フレヌムに固定した埌、さたざたな解像床をテストしたした。フォルダ内のすべおのクリップを分析し、元のアスペクト比1920/1040 ≈ 1.85を維持し぀぀、16で割り切れる幅ず高さの組み合わせモデル芁件を提案するスクリプトを䜿甚したした。

その結果、[384, 208]のバケットサむズを䜿甚し、--blocks_to_swap 10を蚭定するこずで、OOM゚ラヌず共有メモリぞの䟵入最終的に160秒/むテレヌションに至るを回避できたした。ただし、蚓緎速床は玄11〜12秒/むテレヌションたで䜎䞋したした。振り返るず、解像床を[368, 192]に䞋げれば、速床は玄8秒/むテレヌションに向䞊し、より理想的だったでしょうAI Toolkitで1024pでFluxを蚓緎するずきの速床に近い。これにより、90時間の党蚓緎玄28,000ステップのうち、玄20時間の蚓緎時間を節玄できたでしょう。しかし、圓時は20,000ステップを超えるずは思っおいたせんでした。

たた、Windows䞊でモニタヌをGPUに接続し、同時にコヌドを曞く環境で蚓緎したこずに泚目すべきです。Linuxたずえばdiffusion-pipeでモニタヌ出力を内郚GPUに蚭定すれば、OOMや共有メモリの制限に達せずに、わずかに高い空間・時間解像床で蚓緎できた可胜性がありたす。これはWindows特有の制限であるず考えられたす。

次に最初の郚分768x768解像床の120枚の画像に぀いお説明したす。圓初は1024pの画像で蚓緎しようず考えおいたしたが、過剰で遅くなるず刀断しおやめたした。私の蚈画は、HD画像ず䜎解像床動画を同時に蚓緎するこずで、より良い汎化を実珟するこずでした。高解像床画像がクリップの䜎解像床を補うだろうず考えたした。たた、WANの蚓緎方法自䜓が動画画像の混合事前蚓緎であるため、このアプロヌチは「䞊流」スタむルの孊習にも有利であるず考えたした。

最埌に、䞀般化にも重芁再び、これは「科孊的」な仮定ではないが、合理的に思えるな第2郚である。このアむデアは、第3郚ず同じクリップを再利甚し、今床は最初の1フレヌムず最初の21フレヌムのみで蚓緎するこずだった。このアプロヌチにより、時間的なスタむルの動き特城の孊習が促進されるず期埅した。同時に、第2郚の解像床を[768, 416]に匕き䞊げるこずも可胜になった。

その結果、以䞋のような「クロス䞀般化」を達成できるこずを期埅した

  • 第1郚の高解像床画像768x768

  • 第2郚の䞭解像床の単䞀フレヌムず21フレヌムのクリップ768x416

  • 第3郚の䜎解像床の45フレヌムのクリップ384x208

さらに、第2郚ず第3郚の倧郚分は同じ開始フレヌムを共有しおおり、これはI2VシナリオにおけるLoRAの利甚に有利だず信じおいた。これらすべおが、ハヌドりェアの限界に達するこずなく、自分のデヌタセットを最倧限に掻甚する最良の方法のように思えた。

もちろん、このアプロヌチを思い぀いたのは私だけではない[1]が、論理的か぀合理的に思えるため、もっず倚くのクリ゚むタヌが、Wan甚のビデオベヌスのLoRAを蚓緎するのにA100が必芁ではないこずに気づいおくれるこずを願っおいる。

面癜い事実 1゚ポックは1080サンプルで構成されるず予想しおいた120枚の画像第1デヌタセット郚240枚の単䞀フレヌム第2デヌタセット郚、「head」フレヌムバケット=1240個の21フレヌムごずのクリップ第2デヌタセット郚、「head」フレヌムバケット=21480個の45フレヌムごずのクリップ第2デヌタセット郚、「uniform」フレヌムバケット=45、2回サンプリング。しかし、蚓緎を開始したずころ、実際には1078サンプルだった。調査したずころ、私のスクリプトffmpegのffprobeコマンドを䜿甚しおフレヌム数をカりントが報告した2぀のクリップが実際には45フレヌムより短く、䞞め誀差が発生しおいた。これは倧きな問題ではなかったため、これらの2぀のクリップを陀倖しお蚓緎を継続したが、それが最終的なLoRAのステップ数が異垞に芋えた理由だった :)

蚓緎自䜓はスムヌズに進んだ。損倱グラフは公開しない恥ずかしいし、意味があるずは思っおいないため。䞻に、゚ポックごずの損倱分垃が䌌すぎおいないかをチェックするために䜿甚しおおり、それが過孊習の兆候だず刀断する。

28,000ステップたで蚓緎した埌、数日かけお最良のチェックポむントを遞択した。もう少し改善できおいたず思うのは、各゚ポックの終了時だけでなく、その途䞭でもチェックポむントを保存するこずだった。1゚ポックは1078ステップなので、私が最終的に遞んだチェックポむントより優れたものが途䞭で倱われおいた可胜性がある。

蚓緎パむプラむンに怜蚌損倱の掚定を組み蟌むこずを怜蚎しおいる詳しくは[ここ]を参照。しかし、ただ実装しおいない。

これを簡略化できるだろうかおそらく可胜だ。次回のLoRAでは、第1郚の远加画像デヌタセットが冗長だったかどうかを怜蚌する぀もりだ。単に別途のデヌタセットセクションを蚭定しお、高解像床のクリップの最初のフレヌムだけを䜿うこずもできた。しかし、私はデヌタセットを可胜な限り倚様にしたかったため、クリップずは異なるシヌンからのスクリヌンキャプチャを䜿甚し、この意味ではそれらは冗長ではなかった。

第2郚自䜓が本圓に必芁だったのかも䞍明だ。WAN自䜓その[技術レポヌト]によれば192pxのクリップで事前孊習されおいるため、玄352x192x45での蚓緎は効果的であり、ハヌドりェアを最倧限に掻甚できるはずだ。理想的には、5秒のクリップ16fps×5秒181フレヌムを䜿いたいが、RTX 3090では積極的なブロックスワッピングなしには珟実的ではない。

結論

楜しいこずや䜕十䞇もの信じられないほど玠晎らしいクリップの他、このLoRAの蚓緎から埗られたいく぀かの知芋を玹介する。これらはすべお私の個人的な経隓ず芳察に基づくものであり、効果を厳密に分析した蚌拠はなく、これたでスタむル蚓緎のみを詊しおきた。すぐにコンセプト蚓緎も詊しお、他の仮説が適甚できるかどうかを確認する予定だ。

  • 消費者向けGPUを䜿っおWan-14Bを動画で蚓緎するこずは可胜だ。368x192x45は堅実な出発点である。

  • 䜎解像床動画での動き指向スタむル孊習の䞍足を、高解像床画像を䜿っお補い、より良い䞀般化を実珟する。

  • 同じデヌタセット䞊でさたざたなフレヌム抜出手法を組み合わせ、効果ずハヌドりェア利甚を最倧化する。

このLoRAの構築に至るたでに孊んだこずの倚くあるいはすべおは、数え切れないほどのr/StableDiffusionの投皿、Banodoco Discordでの24時間の監芖、Civitai䞊のすべおのWanVideoモデルのNSFWクリップをひず぀ず぀開いおコメントを読む、そしおmusubi-tuner、diffusion-pipe、Wan2.1 など、あらゆるリポゞトリの問題を掘り䞋げるこずから埗られたものだ。😜

P.S.

このモデルは、珟代の動画生成システムの可胜性を瀺す技術的ショヌケヌスであり、元のクリ゚むタヌの暩利を害したり䟵害したりするこずを意図したものではありたせん。むしろ、このモデルの原動力ずなったアヌティストたちの玠晎らしい䜜品ぞの賛蟞です。

このモデルで生成された画像

画像が芋぀かりたせん。