Hunyuan video t2v with facedetailer POC

HUNYUAN VIDEO FACEDETAILER アップデート V1.2

バグ修正。latentサイズを取得するノードがHunyuan latent動画と互換性がなく、画像の幅/高さ比を崩す異なる動画幅を出力していました。GoonyBird氏のご指摘に感謝します。

HUNYUAN VIDEO FACEDETAILER アップデート V1.1

多くの状況（小さな顔やスローモーションなど）で多くのユーザー（私も含む）を悩ませていたちらつきを改善することを主な目的に、FaceDetailerグループにいくつかの改良を加えました。

BBOXに関して、Animatediff検出器を使用して隣接フレームのBBOXを平均化し、BBOXの拡張を増加させ、シフト、コンディショニング、ノイズ除去を減少させました。

V1より若干良くなることを期待していますが、その代わりに顔の定義度がやや低下します。

さらなる最適化は可能ですが、これらは第1段階で生成された動画に大きく依存します。ちらつきが発生した場合、FaceDetailerモジュールで以下を試してみてください：

Animatediff用のシンプル検出器を使用
bbox_dilationを増加（最大100）
Modelsampling: shiftを減少（最小0）
Fluxguidance: guidanceを減少（最小1）
Basicscheduler: denoiseを0.4未満に減少

ちらつきを完全に解消できない場合、代替として静的BBOX FaceDetailerを作成しました。これは、動画中の顔のすべての可能な位置の和として静的BBOXを作成するものです。このオプションは、動画内の顔の動きが限られている場合にのみ有用であることにご注意ください。私の見解では、動的BBOXに比べて品質はやや低下しますが、ちらつきがなく、顔の消失やサイドビューなど多くの状況に対してよりロバストです。

そのほか、いくつかの改善を行いました：

サンプラーをTTP_teaCacheに変更。超高速サンプラーは、中間のV2VまたはFaceDetailer段階で微細な品質低下を伴いながらも、大幅な速度向上が可能です。
アップスケールをHunyuan動画のx16要件に合わせて改善。
最新のFaceDetailerサンプラーボックスが処理する顔のサイズを（おおよそ368x5xx）で固定。12GB以上のVRAMを搭載したカードをお使いの場合は調整可能。
フローを最適化し、アップスケール、2種類のFaceDetailerスタイル、補間器を個別に選択可能に。
調整する可能性の高いノードを緑色で強調。

楽しんでください！

優れたbonetrouslesのT2Vワークフローを元に：

/model/1092466/hunyuan-2step-t2v-and-upscale?modelVersionId=1294744

最後のステップで単純なアップスケールにとどまらず、より良い方法があるのではないかと考えました。

FaceDetailerの原理をヒントに、通常小さく、解像度が低く、揺れやすい顔部分のアップスケールに、さらに注意を払う価値があると考えました。この場合、単純なアップスケールでは十分な効果が得られません。

私のアイデアは、顔をBBOXで囲い、切り出し、別途のHunyuan Detailerワークフロー（顔専用の追加プロンプト付き）に送信し、元の画像に戻すことです。

画像リサイズは、VAEエンコーダーおよびサンプラーに送信する前にHunyuanの潜在空間サイズに合わせ、Hunyuanリファイナーに高解像度画像を入力するためです。VAEエンコード、Hunyuanサンプリング、VAEデコード後、元の位置に再貼り付けし、その後の処理に送ります。これで完了です。

添付のワークフローで基本的なテストを行い、概念実証としての結果は有望です。

もちろん、顔のサイズに大きく依存します（顔が非常に小さい場合はあまり改善されません）。静的被写体にはあまり対応していませんが、そもそもアニメーションの話ですよね？

被写体のディテールが明確になり、ぼやけや揺れが減りました。この投稿にはいくつかの例を載せています（最後の1つだけ補間済み）。

私はComfyUIの初心者で、画像リストやバッチの扱いで数時間悩み、ワークフローは非常に基本的です。微調整はほとんど行っていないため、熟練ユーザーであればさらに改善の余地が大きくあります。例えば、BBOXサイズに基づいてリファイナーの動画サイズを決定する、またはHunyuan用の正式なFaceDetailerノードを構築するなど。

時間に余裕があれば、来週末にこのワークフローを改善し、優れたLatentDreamのオールインワンワークフローに統合してみようと思います。

いつものように、コーヒーは大歓迎です！

https://ko-fi.com/vamjoe

モデルタイプ	ワークフロー
ベースモデル	Hunyuan Video
公開日	2/19/2025

Hunyuan video t2v with facedetailer POC

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

このモデルで生成された画像