Hunyuan Video Generation
詳細
ファイルをダウンロード
モデル説明
注: このモデルカードには、CivitaiがHunyuanの推論およびLoRAトレーニングのために必要とする複数のHunyuan関連モデルが含まれています。これらのモデルの一部は重複アップロードされている可能性がありますが、問題ありません。これは主に内部使用を目的としています。
Hunyuan Video
公式リポジトリ: https://huggingface.co/tencent/HunyuanVideo
概要
我々はHunyuanVideoを発表します。これは、既存の閉源モデルと同等、あるいはそれ以上の動画生成性能を示す新規のオープンソース動画ファウンデーションモデルです。HunyuanVideoモデルのトレーニングにあたり、データの選別、画像-動画共同モデルトレーニング、大規模モデルトレーニングおよび推論を支援するための効率的なインフラストラクチャといった複数の主要技術を採用しました。さらに、モデルアーキテクチャとデータセットのスケーリングに関する効果的な戦略を通じて、130億パラメータを超える動画生成モデルを成功裏にトレーニングし、これは現在公開されているすべてのオープンソースモデルの中で最大規模です。
我々は広範な実験を実施し、高い視覚的品質、運動の多様性、テキスト-動画の整合性、および生成の安定性を確保するための複数のターゲット設計を実装しました。専門家による人的評価の結果によると、HunyuanVideoはRunway Gen-3、Luma 1.6、および上位3つの中国製動画生成モデルを含む従来の最先端モデルを上回りました。ファウンデーションモデルおよびそのアプリケーションのコードと重みを公開することで、閉源とオープンソースの動画ファウンデーションモデルのギャップを埋めることを目指しています。この取り組みは、コミュニティのすべてのメンバーが自身のアイデアを試すことを可能にし、よりダイナミックで活気に満ちた動画生成エコシステムの形成を促進します。
HunyuanVideoの全体アーキテクチャ
HunyuanVideoは、Causal 3D VAEによって圧縮された空間・時間的に圧縮された潜在空間上でトレーニングされます。テキストプロンプトは大規模言語モデルによってエンコードされ、条件として使用されます。ガウシアンノイズと条件を入力として、当社の生成モデルは潜在変数を出力し、その後3D VAEデコーダによって画像または動画にデコードされます。

HunyuanVideoの主な特徴
統合された画像・動画生成アーキテクチャ
HunyuanVideoはTransformer設計を導入し、画像と動画の統合生成にフルアテンションメカニズムを採用しています。具体的には、動画生成のために「デュアルストリームからシングルストリーム」へのハイブリッドモデル設計を用いています。デュアルストリーム段階では、動画トークンとテキストトークンがそれぞれ複数のTransformerブロックを通じて独立して処理され、各モダリティが干渉なく独自の適切なモジュレーション機構を学習できるようになります。シングルストリーム段階では、動画トークンとテキストトークンを連結し、後続のTransformerブロックに入力して効果的なマルチモーダル情報融合を実現します。この設計は視覚的および意味的情報間の複雑な相互作用を捉え、モデル全体の性能を向上させます。

MLLMテキストエンコーダ
従来のテキストから動画へのモデルは、一般的に事前学習済みのCLIPとT5-XXLをテキストエンコーダとして使用しており、CLIPはTransformerエンコーダ、T5はエンコーダ-デコーダ構造を採用しています。一方、我々は、デコーダのみ構造を持つ事前学習済みマルチモーダル大言語モデル(MLLM)をテキストエンコーダとして利用しています。このアプローチには以下の利点があります:(i) T5と比較して、視覚的指示によるファインチューニング後のMLLMは、特徴空間内での画像-テキストの整合性が優れており、拡散モデルにおける指示の追従難易度を軽減します;(ii) CLIPと比較して、MLLMは画像の詳細描写と複雑な推論において優れた能力を示しています;(iii) MLLMはユーザーのプロンプトの前にシステム指示を付与することでゼロショット学習者として機能し、テキスト特徴が重要な情報に注意を向けるのを支援します。さらに、MLLMは因果的アテンションに基づいており、T5-XXLが使用する双方向アテンションよりも拡散モデルに対するテキストガイドをより効果的に生成できます。したがって、我々はテキスト特徴を強化するために追加の双方向トークンリファイナーを導入しました。

3D VAE
HunyuanVideoは、CausalConv3Dを用いた3D VAEをトレーニングし、ピクセル空間の動画と画像をコンパクトな潜在空間に圧縮します。動画の長さ、空間、チャネルの圧縮比をそれぞれ4、8、16に設定しました。これにより、後続の拡散Transformerモデルのトークン数を大幅に削減でき、元の解像度とフレームレートで動画をトレーニングすることが可能になります。

プロンプトリライト
ユーザーが提供するプロンプトの言語スタイルや長さの変動に対処するため、Hunyuan-Largeモデルをプロンプトリライトモデルとしてファインチューニングし、元のユーザープロンプトをモデル好適なプロンプトに適応させます。
我々は「ノーマルモード」と「マスターモード」の2つのリライトモードを提供しており、異なるプロンプトで呼び出せます。プロンプトの内容はこちらに記載されています。ノーマルモードは、ユーザーの意図を動画生成モデルがより正確に理解できるよう支援し、提供された指示の解釈を向上させることを目的としています。マスターモードは、構図、照明、カメラムーブメントなどの要素の記述を強化し、より高品質な動画の生成に焦点を当てます。ただし、この強調により一部の意味的詳細が失われることもあります。
プロンプトリライトモデルは、Hunyuan-Largeの元のコードを直接デプロイ・推論可能です。プロンプトリライトモデルの重みはこちらで公開しています。
比較評価
HunyuanVideoの性能を評価するために、閉源動画生成モデルから5つの強力なベースラインを選定しました。合計1,533のテキストプロンプトを使用し、HunyuanVideoで一回の推論で同等数の動画サンプルを生成しました。公平な比較を実現するため、1回のみ推論を実行し、結果の選別は一切行いませんでした。ベースラインモデルとの比較では、すべての選定モデルでデフォルト設定を維持し、動画の解像度を統一しました。評価はテキスト整合性、運動品質、視覚品質の3つの基準に基づいて行われ、60名以上の専門評価者が評価を実施しました。注目すべきことに、HunyuanVideoは全体的な性能が最も優れており、特に運動品質で顕著な成果を収めました。なお、この評価はHunyuanVideoの高品質版に基づいており、現在公開されている高速版とは異なります。
| モデル | オープンソース | 長さ | テキスト整合性 | 運動品質 | 視覚品質 | 全体評価 | 順位 |
|---|---|---|---|---|---|---|---|
| HunyuanVideo(本モデル) | ✔ | 5s | 61.8% | 66.5% | 95.7% | 41.3% | 1 |
| CNTopA(API) | ✘ | 5s | 62.6% | 61.7% | 95.6% | 37.7% | 2 |
| CNTopB(Web) | ✘ | 5s | 60.1% | 62.9% | 97.7% | 37.5% | 3 |
| GEN-3 alpha(Web) | ✘ | 6s | 47.7% | 54.7% | 97.5% | 27.4% | 4 |
| Luma1.6(API) | ✘ | 5s | 57.6% | 44.2% | 94.1% | 24.8% | 5 |
| CNTopC(Web) | ✘ | 5s | 48.4% | 47.2% | 96.3% | 24.6% | 6 |
必要条件
以下の表は、HunyuanVideoモデル(バッチサイズ = 1)で動画を生成する際の要件を示しています。
| モデル設定(高さ/幅/フレーム) | GPU最大メモリ |
|---|---|
| HunyuanVideo | 720px/1280px/129f |
| HunyuanVideo | 544px/960px/129f |
- CUDA対応のNVIDIA GPUが必要です。
- モデルは1台の80GB GPUで検証済みです。
- 最小必要: 720px/1280px/129fでは60GB、544px/960px/129fでは45GBのGPUメモリが必要です。
- 推奨: より高品質な生成を実現するには、80GBメモリのGPUの使用を推奨します。
- 検証済みOS: Linux
