LomoXL

詳細

ファイルをダウンロード

モデル説明

LomoXL


SD1.5用のLomoStyle と同様に、LomoXLはアナログ機器で撮影された画像から構成されるデータセットで学習されています。


特徴

  1. 高解像度画像:1024x1024ピクセル(XLのデフォルト)の画像を手動でキャプション付け・トリミングし、最適な出力を得られるよう学習。

  2. 写実性:SD1.5と比較するとまだ不十分ですが、このモデルにはより本物らしい写実的な画像を生み出すためのデータ選定、処理、キャプション付け、トレーニングパラメータがすべて盛り込まれています。

  3. 完全なパラメータ微調整:これはオリジナルのSDXLベース1.0モデルの完全なパラメータ微調整です。U-Netと両方のテキストエンコーダーがトレーニング中に調整されています。


制限事項

残念ながら、LomoXLは元のSDXLモデルの一部の制限を引き継いでいます。写実性の改善は行われましたが、SD1.5モデルと比較するとまだ及ばない部分があります。特に肌の質感や裸体表現です。NSFWの生成は可能ですが、理想的ではありません。この問題を解決するため、SDXLベースモデルがこの課題を克服するまで、追加のネットワーク(LoRAやTextual Inversionなど)を一時的な対策として使用することをお勧めします。


使用方法

VAE - https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

+ プロンプト:自然言語に、以下の2つの特別なタグを追加:

  • lomostyle:プロンプトの最初に置ける接頭辞。
  • in lomostyle:プロンプトの最後に追加できる接尾辞。

注:これらのトークンは必須ではありません。

LomoXLで使用できるその他の特別なトークン(タグ)については、Lomostyleを参照してください。

- ネガティブプロンプト:これはまだ確定していません。主に以下のネガティブプロンプトを使用しました:

  • kid, child, 3D render, cartoon, watermark, text, signature, distorted, bad, exaggerated limbs, fake

他のネガティブトークンも自由に試してみてください。一般に、ディフュージョンモデルでは「少ないほど良い」です。


質問・フィードバック・更新情報は?

Unstable Diffusion Discordのスレッドをご覧ください


今後、SDXLの性能をSD1.5レベル以上に引き上げる更新が進行中です。ご協力いただける方は、上記のDiscordスレッドまでDMをお願いします。


その他のモデルをご覧ください

SDXL

SD1.5

LoRA

このモデルで生成された画像

画像が見つかりません。