Floating Heads HiDream

詳細

ファイルをダウンロード

モデル説明

フローティングヘッズ HiDream

フローティングヘッズ HiDream LoRA は LyCORIS ベースで、スタイル化された人物に焦点を当てた 3D バストレンダーで学習されています。Sora のエクスプロアページで見かけたトレンドのプロンプトをもとに、この学習を試みたのです。目的は、正確な構図で頭部と首を切り取り、自然なアクセサリー、細部まで再現された顔の構造、ソフトなスタジオ照明を強調することです。

ギャラリーの最初の画像に組み込まれたワークフローを使用した場合、出力は 1760x2264 になります。このワークフローは大量出力よりも、視覚的な豊かさ、一貫性、品質を優先しています。

結果としては、一般に非常にクリーンでシャープ、詳細が豊かであり、キャラクターの配置が一貫しており、照明の挙動も予測可能です。これは表現力豊かなキャラクター設計、編集用アセット、または高品質な顔のレンダリングが必要なあらゆるプロジェクトに最適です。img2vid、LivePortrait、またはリップシンクにぴったりです。


ワークフローの注意点

ギャラリーの最初の画像には、複数のスケジューラーとサンプラーを連続して使用するマルチパスワークフローが組み込まれており、顔の構造、アクセサリーの明瞭さ、テクスチャの忠実度を最大化しています。ギャラリー内のすべての画像はこのプロセスで生成されています。LoRA はこのワークフローを意図して学習されたものではありませんが、モデルとマルチパスアプローチを並行して開発したため、シングルパスでのテストは十分に行っていません。最終パスの CFG は 2 に設定されており、しわや毛穴のような細部をよりクリアに引き出します。出力が過度にシャープに見える場合は、CFG を 1 に設定してください。

このプロセスは速くありません — RTX 4090 で3つのパスすべてを実行すると、約300秒のディフュージョン時間がかかります(場合によっては2番目のパスだけで十分な詳細が得られます)。私は推論時間を短縮する方法をまだ模索中であり、ご自身のニーズに合わせて設定を調整して構いません。何か効果的な設定を見つけたら、コメント欄で共有してください。

「このプロセスは遅い」という指摘は不要です。3つのパスで300秒かかるのは想定内です。


トリガー語:

h3adfl0at, 3D floating head

推奨強度: 0.5–0.6
推奨シフト: 5.0–6.0


バージョンノート

v1: 年齢、顔の構造、人種を多様にカバーした、首から上の孤立したレンダーに焦点を当てて学習しました。人物の多様性(年齢、人種、性別)が高く、スタイルの一貫性が保たれています。

v2(進行中): v1 の結果を v2 に組み込み、さらなる一貫性を高める予定です。


学習仕様

  • 3,000 ステップ 学習、2 回繰り返し、学習率 2e-4SimpleTuner 使用(約3時間かかりました)
  • データセット:71 枚の生成された合成画像、解像度 1024x1024
  • 学習および推論は RTX 4090 24GB で実行
  • キャプションは Joy Caption Batch で 128 トークン

この LoRA は HiDream Full を使用して SimpleTuner で学習し、推論は ComfyUI で HiDream Dev モデルを使用して実行しました。

品質に感動された方、または同様の今後の LoRA の開発を支援したい方は、以下からご寄付をお願いします:
🔗 https://ko-fi.com/renderartist
🔗 renderartist.com

このモデルで生成された画像

画像が見つかりません。