Flaming coiling serpent - Diablo IV Inferno spell [Flux] [Concept]

詳細

モデル説明

このLoRAは、間もなく訪れる蛇年に関連するコンテストをきっかけに作成されました。

(コンテストの詳細はこちら:「投稿募集:蛇年のリソース!」)

インスピレーションと主なコンセプト

私は、Diablo 4ゲームの「インフェルノ」呪文に登場する炎の蛇からインスピレーションを受け、ネット上で公開されているいくつかの画像を基にこのコンセプトを構築しました。 Lunar New Year(旧正月)と蛇のテーマが関連していることから、これを最初のテーマに選びました。

データセット

私のデータセットは、GoogleやBingの画像検索など、公開されたソースからダウンロードしたオリジナル画像(6枚)を基に構成されています。まず、すべての画像に水平反転を加えて拡張しました。その後、VAEによる潜在画像エンコードとCanny ControlNetを用いて、色の拡張と画像のバリエーションを生成するより高度な手法を適用し、形状を正確に保ちました。

データセット拡張の詳細

この作業には、ControlNet(Canny)とKsampler、SD 1.5 Canny ControlNet(v.1.1)を使用しました。チェックポイントには、majicMIX realistic 麦橘写实 (v.7) を使用し、ソース画像のVAEエンコードから得られた潜在入力を用いて画像の色の拡張を実行しました。これにより、色のバリエーションを増やし、データセットを6枚から16枚に拡張できました。

潜在色拡張のワークフローでは、Ksampler(効率的)を使用し、以下のパラメータを採用しました:

  • Sampler: heun
  • Scheduler: Karras
  • Steps: 10
  • CFG: 1.0
  • ControlNet strength: 1.2

VAEエンコードを通じてスタイルを転送するために使用した画像は、ControlNetで使用した画像とは異なりました(同じ画像では動作しません)。

LoRAタグ付けワークフローにはFlorence 2タガーを使用し、画像サイズを512×512(W×H)および256×256にリサイズしました。最終的なデータセットは、反転と色拡張を含めた16×2=32枚の画像で構成されています。

トレーニングワークフロー

次に、トレーニングワークフローについて説明します。私は、Kijaiの公式ワークフロー(GitHub - kijai/ComfyUI-FluxTrainer)を採用し、Kohyaスクリプトに基づいてトレーニングを行いました。トレーニング設定は以下の通りです:_64_枚の画像(バケットを含む)、ステップ数—1000(最良の結果は_200_ステップと_800_ステップで得られ、それ以外のステップ数ではあまり満足のいく結果が得られませんでした。したがって、私の観察によると、これらはそれぞれ_3_エポックと_15_エポックに相当します)。

使用したチェックポイントについては、Atomix FLUX Unet (v.1.0) を使用しました。これは、私が所有していたPhotorealisticスタイルのUnet形式かつFP8形式のチェックポイントのみでした。他のチェックポイントはPhotorealisticスタイルへのトレーニングには適していなかったためです。トレーニングパラメータについては、fp8形式でオフローディングなしbを使用しました。詳細はトレーニングワークフローに記載されています。

LoRAは次のステップ間隔で生成しました:200, 400, 500, 600, 800, 1000。_200_ステップと_800_ステップの結果が、私が目指したスタイルを最もよく捉えていました。

LoRAのデプロイとテスト

モデルのデプロイとテストでは、トレーニングに使用したのと同様のUnetおよびText Encoderを使用しました:

これまでに得られた最良の結果は、以下のパラメータで得られました:

  • LoRA モデル重み: 1.0
  • LoRA CLIP重み: 1.0
  • Steps: 15
  • CFG: 1.5
  • Sampler: Euler
  • Scheduler: simple

LoRAは初期トレーニング画像のタグに基づいて学習されたため、トリガーワードの代わりに、以下の例提示文の「タグ」セクションを使用してください:

"炎が巻きつく蛇、火、ダークファンタジー、Diablo IV、インフェルノ呪文、マジック、輝き、魔術師、うろこ、大きな蛇、中立的な背景、ダークな背景。暗い岩場の風景の中心に、炎のような蛇型構造物が描かれたデジタルイラスト。構造物の表面は蛇の皮膚のようにテクスチャ化され、オレンジ色の輝きに包まれている。画像の中心には、筋肉質で決意に満ちた表情の小さな人間型の戦士が、構造物の上部に立っている。蛇は戦士の周りを巻きつくように動き、エネルギーと動的な感覚を生み出している。背景は暗い色と明るい色が混在し、緑の植物や遺跡の痕跡が点在し、劇的で激しい雰囲気を強調している。"

クレジット

本モデルおよびComfyUIノードの開発者、プロンプトとワークフローのインスピレーションを提供してくれた方々に感謝します。使用したモデルとワークフローのすべてのクレジットは、それぞれの作者に帰属します(AlexLai, Merjic, kijai)。また、ここに明示されてはいませんが、この画像作成に不可欠だった他の優れたノード、モデル、ツールの作者にも感謝します。

コンテンツに関する免責事項

チェックポイントは初期ベータ段階であるため、特定のチェックポイント(例:dedistilled)と併用してプロンプトを入力すると、すべての視聴者向けではないコンテンツを生成する可能性があります。このLoRAは実在の人物を描写するものではなく、あくまでテスト目的での使用を想定しています。

トレーニングデータの公正な使用に関する免責事項

トレーニングデータ(64枚の画像)は、GoogleやBing画像検索などのオンライン検索プラットフォームから取得した6枚の公開画像を基に生成されました。得られた出力は、Diablo IVのゲーム映像やコンテンツを複製・模倣することを目的としておらず、Diablo IVのテーマに捧げられたファンアートやイラストといった芸術的用途に限定されています。得られた画像は実際のゲーム映像を表すものではなく、ゲームそのものに関するいかなる印象も与えません。

色拡張、ControlNet、ディスティリング、フィルタリング、リサイズなどの変換処理を加えることで、BingやGoogleなどのオンライン画像検索プラットフォームからダウンロードした元の画像との類似性を低減しています。本モデルは研究目的での使用を意図し、非営利ライセンスで配布、作成、再生成を行うことができます。Diablo IVゲームの元の画像および映像のすべてのクレジットは、それぞれの画像作者およびDiablo IVの開発者(Blizzard Inc.)に帰属します。

ライセンス

このLoRAは、トレーニングワークフローで使用したAtomix Fluxのライセンスを継承します:

FLUX.1 [dev] 非営利ライセンス .

FLUX.1 [dev] モデルは、Black Forest Labs, Inc.によりFLUX.1 [dev] 非営利ライセンスの下で許諾されています。著作権 © Black Forest Labs, Inc.

いかなる場合にも、Black Forest Labs, Inc.は、本モデルの使用に起因または関連して生じるいかなる請求、損害、その他の責任についても一切負いません。

このモデルで生成された画像

画像が見つかりません。