Hunyuan Video LoRA。アニメ、アカメが斬る！。アカメ。v1

私が初めて訓練したLoRAです。以下の疑問があります：

どのキャプションが最も効果的ですか？私は以下の形式に従いました："""<タグ>, <ビュー>, <対象+視覚的説明>, <より精密なビュー>"""
どの解像度の動画を使用すべきですか？私は[768, 480]を使用しました。異なる解像度の動画を使うべきか、それとも統一した解像度にするべきでしょうか？
「frame_buckets = [1, 16, 33, 65, 97, 129]」という値はどのように決定すべきですか？私はこの値を採用しました。なぜなら、データセット内の動画の長さは0.6秒から4.93秒だったからです。
「video_clip_mode」とは何ですか？私は「multiple_overlapping」を選択しましたが、他の選択肢と比べてなぜこれが適切なのでしょうか？
LoRAの品質を向上させるために、以下のどれがより重要ですか？
- A：より多くのデータを収集する；
- B：より良いキャプションを作成する；
- C：1つのタスクまたは1つの動きに特化したデータのみ収集する；
LoRAを画像と動画の両方で訓練する価値はありますか？それとも動画のみで訓練すべきですか？
変更可能なパラメータが多すぎて、最適な推論パラメータを決定するのが難しいです。

もし上記の質問に答えをお持ちの方がいらっしゃれば、ぜひ教えていただきたいです。

説明

アニメ『アカメが斬る！』の第1話から収集したアカメの短いクリップ（合計29本、平均長さ：2.16秒）を用いて訓練されたHunyuan LoRAモデルです。Diffusion-pipeリポジトリを使用して訓練しました。

トレーニング設定、ワークフロー、LoRAモデル、およびすべてのデータは以下で確認できます。akame_v1

lora_strength: 1.0
dtype: bfloat16
resolution: [[768,480]]（幅、高さ）
num_frames: 93
steps: 20
embedded_guidance_scale: 9.00 ※私はこの値が他のLoRAで効果的だったため、こちらでも同一の値を使用しました。実験してみる価値があると思います。
enhance video weight: 4.0 ※このパラメータも調整可能であり、enhance videoノードには他のパラメータもあります。

データはOpenShotプログラムを用いて手動で収集しました。1つのアニメエピソードから29本のクリップを収集するのに約1時間、Sonnet 3.5をキャプション作成ツールとして使用して各クリップのキャプションを作成し、手動で誤りを修正するのにさらに約1時間かかりました。