VestalWater's Illustrious Styles for Qwen Image
詳細
ファイルをダウンロード
モデル説明
概要
このLoRAは、Qwen Imageの出力をIllustriousのファインチューニング画像に似せることを目的としています。具体的には、このLoRAは以下のことを実現します:
太い筆致。皮膚の明暗やシャドウを滑らかなグラデーションで表現するアートスタイルではなく、この太い筆致を選択しました。なぜなら、この人物の描写方法は初期のAI画像モデルと関連付けられているからです。あの不気味な谷のAIの超滑らかな肌、あのやつですね。
美しく比例した女性を生成します。広い hips、細いウエストなど。
目を過剰に大きくしたり、アニメ風に描きません。これはスタイル的な好みですが、より真剣なコンセプトアートで使いやすい出力になります。
NSFWの知識を復元します。このLoRAで乳首や膣を生成できます。これ以上は言いません。
Qwenの量子化バージョンと8ステップのLightning LoRAと互換性があります。
比較
大きな胸と金色のポニーテールを持つ裸の女性。赤い自販機がある。観覧者を見つめている。彼女は膝をついて段ボール箱を抱えており、腕には青い腕章を着けている。透明な白い安全ベストを着ている。ピンクのスマートウォッチを着用。青いユーティリティベルトを着用。乳首が見え、裸の胸、乳輪があり、赤らんでいる。恥ずかしそうな表情。ピンクのチョーカーを着用。シーンは公共の場所に設定されており、床には段ボール箱がある。
中くらいの胸を持つフライトアテンダントが、飛行機の内部でカートを押している。長い金色のポニーテール。青いジャケットと、お尻とパンティが見えるほどの非常に短いスカートを着用。首にはシルクのスカーフを巻いている。横からのショット、お尻のアップ。彼女は恥ずかしそうで、赤らんでいる。飛行機には乗客が満席で、彼女を見つめている。
大きな胸を持つ女性。観覧者を見つめている。曇り空の照明、柔らかい影。アンダーブラストを露出するニット製オフショルダーセーターとミントグリーンのシンクスタイルのショートパンツを着用。正面ビュー、サイドの編みこみ、黒髪、掲示板と教室のポスター。黒い目、嫉妬の表情、机の上に座り、脚を組み、腕を組んでいる。背景に黒板がある日差しの差す教室。
D.Va(オーバーウォッチ):長い茶色の髪と大きな胸を持つ女性。アンダーブラストを露出する衣装。笑顔。ブラックとピンクのチアリーダー服を着用。ピンクのビキニパンツ。ブラックのポンポンを片手に持ち、片腕を上げている。観客が歓声を上げるゲームアリーナにいる。天井から紙吹雪が降っている。
設定とワークフロー
イメージカーソル内のすべての画像にはComfyUIワークフローが添付されています。
簡単に言うと:
サンプラー:Euler
スケジューラ:Simple
LoRAの強度:1.0
ステップとCFGは、8ステップのLightning LoRAを使用するかどうかによって異なります。8ステップLoRAを使用する場合:
ステップ:8
CFG:1
モデルシフト:2
8ステップLoRAを使用しない場合:
ステップ:20–40
CFG:4
トレーニング方法
LoRAトレーニングのガチガチな排他的文化を抑制し、そのLoRAをまったく使わないという無駄を防ぐため、私は自分の完全なトレーニング方法と一部のデータセットを共有します。
私はOstrisのAIツールキットと、5090 GPU、および彼の優れたスタイルLoRAトレーニングチュートリアルを使用しました。
OstrisのAIツールキット:https://github.com/ostris/ai-toolkit
Ostrisのチュートリアル動画:https://youtu.be/MUint0drzPk?si=7UrMNAL0fDAutfB3
動画の設定をほぼそのまま使用し、以下の変更を加えました:
3ビットのARaから6ビットのTransformerに変更。これはRunPodで5090を使用していたため、より高精度な量子化モデルがメモリに収まるからです。
学習率を0.0001から0.0002に変更。これは動画の2回目の実行でも彼が行っていることです。
トレーニング方法の要約
デバイス:RunPod上のRTX 5090(時給$0.9)、総トレーニング時間は約4時間。
ステップ:3000。ただし、CivitAIにアップロードしたチェックポイントは2750ステップ目。これが最も気に入ったものだったからです。
ジョブ設定
- トリガーワード: 設定なし
モデル設定
モデルアーキテクチャ: Qwen-Image
名前またはパス: Qwen/Qwen-Image
オプション: Low VRAMはオン
量子化
Transformer: 6ビット
テキストエンコーダ: Float8(デフォルト)
ターゲット設定
ターゲットタイプ: LoRA
線形ランク: 16
保存設定
データタイプ: BF16
保存間隔: 250
保持する最大ステップ保存数: 4
トレーニング設定
バッチサイズ: 1
勾配蓄積: 1
ステップ: 3000
最適化: AdamW8bit
学習率: 0.0002
重み減衰: 0.0001
タイムステップタイプ: Weighted
タイムステップバイアス: Balanced
ノイズスケジューラ: FlowMatch
EMA(指数移動平均): EMAはオフ
テキストエンコーダ最適化: Unload TEはオフ、Cache Text Embeddingsはオン
正則化: Differential Output Preservationはオフ
データセット
LoRA重み: 1
キャプションドロップアウト率: 0.05
設定: Cache Latentsはオフ、Is Regularizationはオフ
解像度: 256はオフ、512はオン、768はオン、1024はオン、1280はオフ、1536はオフ
データセット内の画像数: 43枚
データセットサンプル
短い黒髪の女性。グリーンのビキニ、透けるプラスチックのエプロン、グリーンのサングラス、グリーンのチョーカー(紐付きIDバッジ)を着用。スーパーマーケットの通路に立っている。
茶髪で茶色の目を持つ女性。ベッドの上に仰向けに寝て脚を広げている。ブラックレザーのボディハーネスを着用。右上に手が映り、スマートフォンが彼女を撮影している。
短い黒髪と前髪の女性。ダブルチェーンネックレス、光沢のあるブラックビキニの上にロングスリーブの透けたブラックトップ、赤いベルトとホルスター付きのブラックスカートを着用。赤い自販機と青く明るく照らされた自販機の間に立っている、暗く狭い空間。
データセットのキャプション方法
LoRAトレーニングにおいて覚えておくべき良い指針:
キャプションに記述されていないすべての要素は、LoRAがスタイルと関連付けて学習する。
ごみを入れれば、ごみが出る。
キャプション
私のキャプション方法は上記のルールに従っています。Qwenが魅力的なプロポーションの女性を生成するように教えるため、データセット内の女性を「太いヒップ」「大きな胸」とは一切記述していません。これにより、LoRAは「女性 = データセットの画像」であると学習し、「曲線的な女性=太いヒップと大きな胸を持つ女性 = データセットの画像」とは学習しません。その結果、LoRAは「女性はデフォルトでデータセットの画像のように見える」と学習します。
皮膚と光のトランジションの描写方法についても同様です。データセットのすべての画像には、濃い筆致のコンセプトアートスタイルが含まれていることに注意してください。しかし、私はキャプションでこれを一切記述していません。その結果、LoRAはすべての出力に太い筆致を適用するようになります。これがこのLoRAで私が望んでいたことです。
データセットを美しく見せる方法
Illustriousは、目を不自然に生成することで有名です。高解像度修復をすれば目は良くなりますが、その代わりに髪が異常に不自然になります。そのため、私はデータセットにFaceDetailerを適用しました。その結果、目が劇的に改善されました(サンプル画像をご覧ください)。ただし、完全ではありません。虹彩が完全に円形でない場合があります。
手が不自然。これは後処理で安定して修正できません(インペインティングでも結果はまちまち)。そのため、良い手が得られるまで何度もリジェネレートしました。
背景が意味不明。これも、ある程度整合性のある背景が得られるまで何度も試行錯誤しました。
もっと忍耐力があれば、データセット全体のテキストやロゴをPhotoshopで修正していたでしょう。








