Hunyuan Video Lora. Anime, Akame ga kill. Akame. v1

詳細

ファイルをダウンロード

モデル説明

Hunyuan Video LoRA。アニメ、アカメが斬る!。アカメ。v1

私が初めて訓練したLoRAです。以下の疑問があります:

  1. どのキャプションが最も効果的ですか?私は以下の形式に従いました:"""<タグ>, <ビュー>, <対象+視覚的説明>, <より精密なビュー>"""

  2. どの解像度の動画を使用すべきですか?私は[768, 480]を使用しました。異なる解像度の動画を使うべきか、それとも統一した解像度にするべきでしょうか?

  3. 「frame_buckets = [1, 16, 33, 65, 97, 129]」という値はどのように決定すべきですか?私はこの値を採用しました。なぜなら、データセット内の動画の長さは0.6秒から4.93秒だったからです。

  4. 「video_clip_mode」とは何ですか?私は「multiple_overlapping」を選択しましたが、他の選択肢と比べてなぜこれが適切なのでしょうか?

  5. LoRAの品質を向上させるために、以下のどれがより重要ですか?

    • A:より多くのデータを収集する;
    • B:より良いキャプションを作成する;
    • C:1つのタスクまたは1つの動きに特化したデータのみ収集する;
  6. LoRAを画像と動画の両方で訓練する価値はありますか?それとも動画のみで訓練すべきですか?

  7. 変更可能なパラメータが多すぎて、最適な推論パラメータを決定するのが難しいです。

もし上記の質問に答えをお持ちの方がいらっしゃれば、ぜひ教えていただきたいです。

説明

アニメ『アカメが斬る!』の第1話から収集したアカメの短いクリップ(合計29本、平均長さ:2.16秒)を用いて訓練されたHunyuan LoRAモデルです。Diffusion-pipeリポジトリを使用して訓練しました。

トレーニング設定、ワークフロー、LoRAモデル、およびすべてのデータは以下で確認できます。akame_v1

推論パラメータ

  • lora_strength: 1.0
  • dtype: bfloat16
  • resolution: [[768,480]](幅、高さ)
  • num_frames: 93
  • steps: 20
  • embedded_guidance_scale: 9.00 ※私はこの値が他のLoRAで効果的だったため、こちらでも同一の値を使用しました。実験してみる価値があると思います。
  • enhance video weight: 4.0 ※このパラメータも調整可能であり、enhance videoノードには他のパラメータもあります。

データ

  • 数量:0.6秒から4.93秒の29本のクリップ
  • 平均長さ:2.16秒

データはOpenShotプログラムを用いて手動で収集しました。1つのアニメエピソードから29本のクリップを収集するのに約1時間、Sonnet 3.5をキャプション作成ツールとして使用して各クリップのキャプションを作成し、手動で誤りを修正するのにさらに約1時間かかりました。

このモデルで生成された画像

画像が見つかりません。