The Essence of Star Trek DS9

詳細

ファイルをダウンロード

モデル説明

このLoRAは、ディープスペースナインの一般的な「雰囲気」を捉え、その出力に核心的なテーマをいくつか追加することを目的としています。特定のキャラクターを完璧に再現することを意図したものではありませんが、主要キャラクターの名前をいくつか学習データとして使用しています

私は、スター・トレック:ディープスペースナインのエピソードからの写真、雑誌画像、スチール、雑誌のスキャン、公式アートワーク、エピソードのスクリーンキャプチャ、アーカイブ映像などを含む、1000枚以上の厳選された、自動および手動でキャプション付けされた画像で学習しました。

ソース画像にはすべて 'star trek ds9' を接頭辞としてキャプションを付けていますので、プロンプトのどこかにそれを追加すると、ほとんどの場合効果的です。

このモデルはSDXLで学習され、SDXL Lightningと非常に良く動作します。

私のテストでは、ベースモデルにLightning Fusion XL v1.4を使用すると特に効果的ですが、パラメータはやや繊細です。変更する際は非常に小さな調整を行ってください。

推論推奨パラメータ

すべての画像生成にはInvokeAIを使用しています。

  • 解像度:1024x1024

  • ベースモデル:Lightning Fusion XL

    • サンプラー:LMS Karras

    • ステップ数:6-8

    • ベースモデルCFG強度:1.5-1.8~

    • LoRA CFG強度:0.6-0.8~

学習データ

  • インターネット上で調査し、約2000枚の画像を収集。これを1500枚に精選し、v1.0用には約700枚に絞りました。

  • ソース画像の多くを、Topaz Photo AI、Pixelmator Pro、およびいくつかの独自スクリプトの組み合わせでアップスケール・ノイズ除去しました。

  • キャプション付け:

    • 最初に、Kohya_SSを用いてWD14 AI分類手法ですべてのソース画像にキャプションを自動付与しました。

    • その後、キャラクター名、場所など、多数の画像に手動で詳細なキャプションを追加するのに膨大な時間を費やしました。

    • モデルは、キャプションの最初の6トークンを保持し、残りをシャッフルして学習されました。


制限事項

一般的にv1.0には満足していますが、以下の弱点があります:

  • パラメータが非常に敏感(例:LoRA CFGを0.75から0.70に変更するだけで、結果に大きな差が出る場合がある)。

  • 2つの既知の被写体を同時に生成する能力がありません。たとえば、「star trek ds9, Miles and Bashir drinking coffee」とプロンプトした場合、Milesが2人、またはBashirが2人生成されることが多く、この問題の解決方法はまだ調査していませんが、次バージョンを学習する際には対応したいと思っています。

  • ときどき目がギリギリした画像が出力されます。さまざまなアングルでの高解像度の近接画像がもう少し必要だと考えられ、またモデルの一部を過学習した可能性もあります。

  • このモデルは個々のキャラクターを直接再現することを意図していませんが、私の好きなキャラクターをいくつか含めています。それらは完璧ではなく、完璧を目的としていませんが、悪くはありません。ただし、ベースモデルにLightningを使用した場合の問題点:

    • Bashirの額がしばしば異常に大きい。

    • Daxの目がしばしば「夢見がち」で、TOS風になる。

    • Milesの目がしばしばギリギリする。

    • Quarkがやや悪役的で、彫刻のように鋭すぎる。

    • Worfの学習画像が十分に不足しているため、プロンプトにWorfが含まれると、より汎用的なクリンゴンの雰囲気になります。

このモデルで生成された画像

画像が見つかりません。