DALL-E 3-like Girls
詳細
ファイルをダウンロード
モデル説明
生成:
トリガー語は不要です。
非常にシンプルなタグベースのプロンプト例:
detailed, two girls, tongue out, smile, night rave
データセットでよく見られた、プロンプトに置き換えられるより有用なプロンプト語:
tongue out, puckered lips, laying down, on back, on stomach, ring light, asian, latina, african, 3d, animation
強く推奨される設定:
お気に入りのプロンプトごとに、3000ステップで学習されたデフォルトのLoRAと、3250ステップ版の両方を試すことをお勧めします。両方とも良好で、十分に異なる結果をもたらします。
プロンプトに
detailedを含めると常に良くなります。1328x1328で生成するのは1024x1024より常に優れています。異なる解像度を試してください。
euler-simple / euler ancestral-simple / lcm-simple を試し、shiftを0.5から4の範囲で調整してください。
私は4ステップのライトニングLoRAを使用した高速なQwen Imageワークフローに集中しながら、自分好みの設定を見つけました。生成設定を微調整することで、DALL-E 3のような女の子のスタイルが簡単に変化するため、お好みのスタイルに合う設定を見つけてください。
私の設定:
私は実際、Qwen Image Edit ライトニングLoRA を使用しており、これによりはるかに興味深い結果が得られ、Qwen Imageのシード分散が低い問題を解決する上で最大の貢献をしています(ただし、画像がやや粒状になる場合があります)。また、他のライトニングLoRA も試すことができます。
1328x1328、4ステップ、cfg 1、euler-simple、shift 2.5(および0.5/1/2/3.1)
ライトニングなしで最小限のテストを行いましたが、2.5 cfg、50ステップでも問題なく動作しました。50ステップワークフローのプロンプトに公式推奨の , Ultra HD, 4K, cinematic composition. を追加することも有効です。
制限事項:
データセットには手の身体的異常なぼやけがわずかに存在し、それが反映されることがあります。
3000ステップモデルでは、奇妙な服やタトゥーの概念が混ざり込むことがあります。しかし、このモデルはDALL-E 3のようなスタイルと顔立ちが優れていると感じています。
プロンプトや設定によっては、体に液体がこぼれたような概念の混ざり込みが発生することがあります。特に1024x1024で、トレーニングデータセット内の一部の完全にタグ付けされていない独自の画像が原因だと推測されます。
上記の問題がお気に入りのシードで発生した場合、ポジティブ/ネガティブプロンプトを調整して問題のある概念を軽減し、LoRAの強度を下げて混ざり込みをなくすことができます。
学習情報:
ai-toolkit を使用し、この公式チュートリアル とその設定に基づき、学習率0.0002、ステップ数3500で学習しました。3500ステップはLoRAを過学習させすぎており、3000ステップと3250ステップのチェックポイントが最適です。
約100枚の画像、ほとんどが1024x1024、非常にシンプルなタグベースのキャプションのみ。
興味深い生成設定を見つけたら、下のコメント欄に投稿してください。




















