Hunyuan Video Lora. Anime, Akame ga kill. Akame. v1
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
Hunyuan Video LoRA。アニメ、アカメが斬る!。アカメ。v1
私が初めて訓練したLoRAです。以下の疑問があります:
どのキャプションが最も効果的ですか?私は以下の形式に従いました:"""<タグ>, <ビュー>, <対象+視覚的説明>, <より精密なビュー>"""
どの解像度の動画を使用すべきですか?私は[768, 480]を使用しました。異なる解像度の動画を使うべきか、それとも統一した解像度にするべきでしょうか?
「frame_buckets = [1, 16, 33, 65, 97, 129]」という値はどのように決定すべきですか?私はこの値を採用しました。なぜなら、データセット内の動画の長さは0.6秒から4.93秒だったからです。
「video_clip_mode」とは何ですか?私は「multiple_overlapping」を選択しましたが、他の選択肢と比べてなぜこれが適切なのでしょうか?
LoRAの品質を向上させるために、以下のどれがより重要ですか?
- A:より多くのデータを収集する;
- B:より良いキャプションを作成する;
- C:1つのタスクまたは1つの動きに特化したデータのみ収集する;
LoRAを画像と動画の両方で訓練する価値はありますか?それとも動画のみで訓練すべきですか?
変更可能なパラメータが多すぎて、最適な推論パラメータを決定するのが難しいです。
もし上記の質問に答えをお持ちの方がいらっしゃれば、ぜひ教えていただきたいです。
説明
アニメ『アカメが斬る!』の第1話から収集したアカメの短いクリップ(合計29本、平均長さ:2.16秒)を用いて訓練されたHunyuan LoRAモデルです。Diffusion-pipeリポジトリを使用して訓練しました。
トレーニング設定、ワークフロー、LoRAモデル、およびすべてのデータは以下で確認できます。akame_v1
推論パラメータ
- lora_strength: 1.0
- dtype: bfloat16
- resolution: [[768,480]](幅、高さ)
- num_frames: 93
- steps: 20
- embedded_guidance_scale: 9.00 ※私はこの値が他のLoRAで効果的だったため、こちらでも同一の値を使用しました。実験してみる価値があると思います。
- enhance video weight: 4.0 ※このパラメータも調整可能であり、enhance videoノードには他のパラメータもあります。
データ
- 数量:0.6秒から4.93秒の29本のクリップ
- 平均長さ:2.16秒
データはOpenShotプログラムを用いて手動で収集しました。1つのアニメエピソードから29本のクリップを収集するのに約1時間、Sonnet 3.5をキャプション作成ツールとして使用して各クリップのキャプションを作成し、手動で誤りを修正するのにさらに約1時間かかりました。
