Katsuhiro Otomo 🎥 HunyuanVideo
詳細
ファイルをダウンロード
モデル説明
説明
このLoRAは、大友克洋のアニメ映画『AKIRA』と『蒸汽男孩』のスクリーンキャプチャを用いて微調整されました。動画からスタイルを学習する最適な方法はまだ見つかっておらず(現在のところ、画像を使った方が動画よりも良い結果が得られます)、HVのトレーニングに最適なパラメータも完全には解明されていません。しかし、これはHunyuanVideo用の私のアニメLoRAシリーズの最終作ではないため、動画クリップでのトレーニングが画像よりも優れていると確信しており、将来的には最適なトレーニングパラメータを確立できると期待しています。
このLoRAに関しては、出来にとても満足していますが、完璧ではありません。次のバージョンではすぐにいくつかの問題を解決しようと思います(おそらく動画データを用いることになるでしょう)。大友克洋には、もっと優れたLoRAがふさわしいはずです。
使用法
デフォルトのComfyUIワークフローに_LoRALoaderModelOnly_ノードを追加してテスト済みです。Kijaiのラッパーでも動作する可能性があります(ただし、私は使用していないため確実ではありません)。私は以下の設定を使用しています:
guidance: 7.0
steps: 30
また、こちらの理由でtemporal_sizeを76に変更しました。
ショーケースの画像は640x480解像度、73フレームで生成されました(RTX 3090でtriton/sage-attentionを有効にした場合、各クリップの生成には約4分30秒かかりました)。HVの出力は解像度に依存しており、低解像度では不要なアーチファクトが発生しやすくなります。
トリガー語は「Katsuhiro Otomo style」です。ギャラリーの大部分のプロンプトは、以下の入力に基づいてChatGPT/Claudeで生成されました:
以下のテンプレートを使って、ビデオ生成モデル用の20のプロンプトを作成してください: "Katsuhiro Otomo style. {CAMERA MOVEMENT} camera. {CHARACTER, その外見と主要な視覚的特徴を簡潔に記述}, who is {具体的で視覚的インパクトの強い動的アクション}. The background is {環境の簡潔で鮮やかな記述、注目すべき特徴とムードを設定する細部を含む}."
顕著なカメラ移動の種類には、ズームイン、ズームアウト、パンアップ、パンダウン、パンレフト、パンライト、ティルトアップ、ティルトダウン、ティルトレフト、ティルトライト、アラウンドレフト、アラウンドライト、静止ショット、ハンドヘルドショットがあります。
簡潔な記述を使用し、複雑な記述は複数の文に分割してください。曖昧な用語や抽象的な表現は避けてください。
テーマは、『AKIRA』や『蒸汽男孩』のスタイルで、動的シーンに登場する金髪の女性と各種機械ですが、これらのタイトルを直接言及しないでください。
私はテーマをランダムに「攻撃的で半裸の金髪女性が末世的環境にいる」などに変更し、ショットタイプやカメラ移動を様々に試しましたが、基本構造は変更しませんでした。(手動で入力したプロンプトは、タイポが含まれているものだけです 😌)
もし結果が半現実的スタイルや一般的なアニメスタイルに傾く場合は:
- 「クローズアップ」や「ワイドショット」などの写真関連の用語を排除し、代わりに被写体を直接記述してください。例:「灰色の目と広い鼻を持つ金髪の女性」
- 「高貴な戦士」「激しい少女」などの抽象的な副詞は避けてください。曖昧さを招く可能性があるため、具体的に記述しましょう。
- 解像度またはフレーム数を増やしてください。
- シードを変更してください 🤷
- シーンが静的だと感じられる場合は、「動的」「表現的」「感情的に反応しながら…」「顕著な困惑を示しながら…」などの言葉を用いて動きの感覚を強化してください。
このLoRAの現在の使用上の不便さ(スタイルの一貫性の欠如など)についてお詫び申し上げます。次のバージョンではこれらの問題を解決し、スタイルの一貫性を向上させることを期待しています。
学習詳細
前述の通り、このLoRAは画像のみで微調整されました。合計103枚のスクリーンキャプチャ(1500x806)を使用:『AKIRA』から62枚、『蒸汽男孩』から41枚(データセットは同梱されています)。キャプション生成にはCogVLM2を使用しました。正確なプロンプトは覚えていませんが、以下のようだったと記憶しています:「この画像のスタイルの詳細を述べず、簡潔な説明を作成してください」。HVは短いプロンプトを嫌う傾向があり、推奨されるプロンプト構造があるため、これは最適ではなかったと推測しています。
学習はdiffusion-pipeを用い、Windows 11 WSL2、64 GB RAM、RTX 3090で実行しました。変更したトレーニングパラメータは以下の通りです:
rank = 16
lr = 5e-5
データセットパラメータはデフォルトのままですが、以下の項目のみ変更:
resolutions = [768]




















