MoCha | Wan2_1_mocha-14B-preview_fp8_e4m3fn_scaled_KJ
詳細
ファイルをダウンロード
モデル説明
HuggingFace からの転送。
https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/MoCha
ワークフローのサンプル: https://www.runninghub.ai/post/1980967242705854466
MoCha の始まり方
MoCha を使用して独自のキャラクター置換を開始するには、以下の3つの入力が必要です:
ソース動画: 置換対象のキャラクターが含まれる元の動画。
最初のフレーム用の指定マスク: ソース動画の最初のフレームにおける、置換対象のキャラクターをマスクで示すもの。
リファレンス画像: 新しいキャラクターのクリーンな背景付きリファレンス画像。高品質で正面からの顔のアップ画像を少なくとも1枚アップロードすることを推奨します。
抽象
構造的ガイドなしのエンドツーエンド動画キャラクター置換
ユーザーが提供した1つのキャラクターで動画のキャラクター置換を制御するには、適切な対応動画データの不足により、依然として大きな課題です。従来の研究は、フレームごとのマスクや明示的な構造的ガイド(例:ポーズ、深度)に依存する再構成ベースのパラダイムを主に採用してきました。しかし、このような依存性は、被写体の遮蔽、稀なポーズ、キャラクターと物体の相互作用、または複雑な照明を伴う複雑なシナリオで脆弱になり、視覚的アーティファクトや時間的な不連続性を引き起こすことが多いです。本論文では、MoCha と呼ばれる新しいフレームワークを提案します。これは、最初のフレームのマスク1枚のみを必要とし、異なる条件を単一のトークンストリームに統合することでキャラクターを再レンダリングします。さらに、MoCha は条件認識型の RoPE を採用し、複数のリファレンス画像と可変長動画生成をサポートします。データボトルネックを克服するために、我々は適切な対応訓練動画を収集する包括的なデータ合成パイプラインを構築しました。広範な実験により、当手法は既存の最先端手法を大幅に凌駕することが示されました。
モデルの詳細についてはこちら:https://orange-3dv-team.github.io/MoCha/
定性的なパフォーマンス
アニメキャラクターの置換
MoChaは、アニメキャラクターの参照画像を条件として、高忠実度の動画を生成します。
実在人物のキャラクター置換
MoChaは、ソース動画内の実在人物のキャラクターを置換する場合にも優れた性能を発揮します。
シーンの照明の一貫性
従来の手法と比較して、MoChaは元の動画の照明と色調をよりよく維持し、キャラクターを新しい環境に自然に統合できます。さらに、MoChaは揺れる照明や強い背光などの複雑な照明条件にも対応できます。
正確な動作の保持
MoChaは、速い動きや物体との相互作用を伴う複雑なシーンにおいても、元の動画の動作と表情を正確に再現します。これにより、生成されたキャラクター動画が元のパフォーマンスに高忠実度で保持されます。
