SciStyle

詳細

ファイルをダウンロード

モデル説明

SciStyle

SciStyle v1は、私が開発している新しい画像キャプションパイプラインのためのテストモデルです。このモデルは、さまざまなスタイル・メディアの1,000枚の画像のサブセットで学習されました。1,000枚の画像だけで訓練されたモデルとは思えない結果に驚き、ここに公開することに決めました。フルバージョンのモデルは現在開発中です。

画像キャプションパイプラインの詳細については、以下にリンクされたDiscordスレッドをご覧ください


質問/フィードバック/アップデートは?

Unstable Diffusion Discordのスレッドをご覧ください


情報

S&D

ベースモデル: Stable Diffusion v1.5

タイプ: 実験的ファインチューニング

Clip: 1

メディア: マルチメディア

キャプションスタイル: 自然言語 + Booruスタイル

データセットサイズ: 25,000枚のうち4,000枚のサブセット + DnDデータセット

トレーニング解像度: 768x768

v1との違い: ファンタジー要素に焦点を当て、DnDデータセットでの追加トレーニングを実施。


V1

ベースモデル: Stable Diffusion v1.5

タイプ: 実験的ファインチューニング

Clip: 1

メディア: マルチメディア

キャプションスタイル: 自然言語 + Booruスタイル

データセットサイズ: 25,000枚のうち1,000枚のサブセット

トレーニング解像度: 768x768


V2

ベースモデル: Stable Diffusion v1.5

タイプ: 実験的ファインチューニング

Clip: 1

メディア: マルチメディア

キャプションスタイル: 自然言語 + Booruスタイル

データセットサイズ: 25,000枚のうち6,500枚のサブセット

トレーニング解像度: 768x768

v1との違い: 多様なSF・ファンタジー世界からのさまざまな種族を追加。


機能

  1. マルチメディア: プロンプトにメディアを含めるだけで、複数のアートメディアから画像を生成可能。

  2. 自然言語 & Booru: 自然言語プロンプトとBooruスタイルプロンプトの両方を受付。

  3. 詳細な理解: SDモデルが見落としがちな細部(シーン内のオブジェクト/被写体の数、背景情報、画像各部分の色情報、雰囲気など)を理解します。(この実現方法の詳細は、上記のDiscordスレッドをご参照ください。)

  4. 統合柔軟性: 他のSD1.5チェックポイントやLoRAと簡単に統合可能。


使用方法

特別なトークン:

  • SciStyle: プロンプトの先頭にクラストークンとして使用できますが、必須ではありません。

  • 各種アートメディアのタグ: 例として、a comic book illustration of90s anime screencap of、またはプロンプトの末尾に単にメディアを追加する:comic book illustrationphotorealisticこれらのタグ配置はあくまで例です。他のメディアでも自由に実験してください。


推奨設定

サンプラー/ソルバー:

  • Euler a

    • ステップ: 20 - 32

    • CFG: 6 - 7.5

  • DPM++ SDE Karras

    • ステップ: 30 - 40

    • CFG: 6 - 8.5

  • DPM++ 2M SDE Karras

    • ステップ: 50+

    • CFG: 7 - 8

これらはあくまで推奨値です。

Hires Fix

すべてのESRGANモデル向け設定:

  • スケール倍率

    • 解像度が > 512x768 の場合: 1.5

    • 2.0を超えないようにしてください(高性能マシンでない限り)

  • デノイズ強度

    • 0.25 - 0.35
  • Hires ステップ

    • サンプリングステップが60を超える場合:

      • hiresステップ = サンプリングステップの半分
    • そうでない場合: 0のままに


拡張機能

ADetailer
こちらからダウンロード

Neutral Prompt

こちらからダウンロード

使用方法ガイドはリポジトリの説明を参照してください


ネガティブ埋め込み

サンプル画像を再現したい場合のみ使用してください。個人的には、ネガティブ埋め込みを使わず、シンプルなネガティブプロンプトに、新しいアイデアごとに+や-のトークンを追加・削除する方法をお勧めします。私はサンプル生成時の推論速度向上のためにのみ使用しています。ただし、EasyNegativeなど他のネガティブ埋め込みもこのモデルと問題なく使用できます。


他のモデルもチェックしてください

SDXL

SD1.5

LoRA

このモデルで生成された画像

画像が見つかりません。