MoCha | Wan2_1_mocha-14B-preview_fp8_e4m3fn_scaled_KJ

HuggingFace からの転送。

https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/MoCha

ワークフローのサンプル: https://www.runninghub.ai/post/1980967242705854466

MoCha の始まり方

MoCha を使用して独自のキャラクター置換を開始するには、以下の3つの入力が必要です：

ソース動画: 置換対象のキャラクターが含まれる元の動画。
最初のフレーム用の指定マスク: ソース動画の最初のフレームにおける、置換対象のキャラクターをマスクで示すもの。
リファレンス画像: 新しいキャラクターのクリーンな背景付きリファレンス画像。高品質で正面からの顔のアップ画像を少なくとも1枚アップロードすることを推奨します。

抽象

構造的ガイドなしのエンドツーエンド動画キャラクター置換

ユーザーが提供した1つのキャラクターで動画のキャラクター置換を制御するには、適切な対応動画データの不足により、依然として大きな課題です。従来の研究は、フレームごとのマスクや明示的な構造的ガイド（例：ポーズ、深度）に依存する再構成ベースのパラダイムを主に採用してきました。しかし、このような依存性は、被写体の遮蔽、稀なポーズ、キャラクターと物体の相互作用、または複雑な照明を伴う複雑なシナリオで脆弱になり、視覚的アーティファクトや時間的な不連続性を引き起こすことが多いです。本論文では、MoCha と呼ばれる新しいフレームワークを提案します。これは、最初のフレームのマスク1枚のみを必要とし、異なる条件を単一のトークンストリームに統合することでキャラクターを再レンダリングします。さらに、MoCha は条件認識型の RoPE を採用し、複数のリファレンス画像と可変長動画生成をサポートします。データボトルネックを克服するために、我々は適切な対応訓練動画を収集する包括的なデータ合成パイプラインを構築しました。広範な実験により、当手法は既存の最先端手法を大幅に凌駕することが示されました。

モデルの詳細についてはこちら：https://orange-3dv-team.github.io/MoCha/

定性的なパフォーマンス

アニメキャラクターの置換

MoChaは、アニメキャラクターの参照画像を条件として、高忠実度の動画を生成します。

実在人物のキャラクター置換

MoChaは、ソース動画内の実在人物のキャラクターを置換する場合にも優れた性能を発揮します。

シーンの照明の一貫性

従来の手法と比較して、MoChaは元の動画の照明と色調をよりよく維持し、キャラクターを新しい環境に自然に統合できます。さらに、MoChaは揺れる照明や強い背光などの複雑な照明条件にも対応できます。

正確な動作の保持

MoChaは、速い動きや物体との相互作用を伴う複雑なシーンにおいても、元の動画の動作と表情を正確に再現します。これにより、生成されたキャラクター動画が元のパフォーマンスに高忠実度で保持されます。

モデルタイプ	チェックポイント
ベースモデル	Wan Video 14B t2v
公開日	10/22/2025