LuminaYume (Lumina Image 2.0)

詳細

ファイルをダウンロード

モデル説明

I. 概要

このモデルは、現実的な人物画像を生成するだけでなく、高品質なアニメスタイルの画像を生成することを目的として学習されました。特定のデータセットで微調整されていますが、ベースモデルの大部分の知識を維持しています。

主な特徴:

  • Danbooruタグを使用したアニメ画像生成をサポート

  • プロンプトの記述に基づいて、画像内でのオブジェクト配置の精度が向上

  • ベースモデルの元の知識の大部分を保持

制限事項:

バージョン0.1の場合:

  • 画像内のテキスト生成はまだ不正確です。

  • 出力の画像品質は現在中程度であり、プロンプトによって変動する可能性があります。

  • Danbooruタグによる特定のキャラクタープロンプトの理解は限定的です。

II. モデル構成要素:

  • テキストエンコーダー:事前学習済みの Gemma-2-2B

  • VAEFlux.1 dev のVAEを使用

  • 画像バックボーンLumina のバックボーンを微調整したバージョン

  • 以下の多様な3000万枚の画像データセットで学習:

    • アニメ画像(Danbooruタグ付き)

    • 現実的な人物写真

    • テキストを含む画像

    • 詳細な空間アノテーションが付与された画像

III. ファイル情報

このすべてを含む1つのファイルには、VAE、テキストエンコーダー、画像バックボーンの重みが含まれています。ComfyUIおよびカスタムパイプラインをサポートする他のシステムと完全互換です。

Hugging Faceのdiffusersライブラリを通じてこのモデルをご使用になりたい場合は、詳細をこちらでご確認ください。

IV. 推奨設定

システムプロンプト

  • アニメ(Danbooruタグ)用:

    • あなたはDanbooruタグを活用して、ユーザーのプロンプトから高品質な画像を正確に生成することを目的とした高度なアシスタントです。

    • あなたはユーザーのプロンプトとDanbooruタグに基づいて高品質な画像を生成することを目的としたアシスタントです。

  • 一般利用用:

    • あなたはテキストプロンプトまたはユーザーのプロンプトに基づき、画像とテキストの整合性を極限まで高めた優れた画像を生成することを目的としたアシスタントです。

    • あなたはテキストプロンプトに基づき、画像とテキストの整合性を最高レベルで実現した高品質な画像を生成することを目的としたアシスタントです。

推奨設定

  • CFG:3–6

  • サンプリングステップ:40–50

  • サンプラー:Euler a

V. 注意点とフィードバック

これは実験的なリリースであり、今後のバージョンで改善を予定しています。
フィードバック、提案、プロンプトのアイデアは常に歓迎です。皆さんのご支援により、このモデルはより良くなります!

このモデルは英語のプロンプトに加え、中国語と日本語のプロンプトもサポートしています。

VI. 謝辞

  • データセットの提供にご協力いただいたnarugo1992さんに心より感謝します。

  • 優れたベースモデルアーキテクチャを提供いただいたAlpha-VLLMさんに謝意を表します。

  • Lumina-Illustriousに関する実験を共有し、本プロジェクトの一部を導いたAngelBottomless氏およびそのチームに感謝します。

私の作業を支援されたい方は、Ko-fiを通じてご支援をお願いします!

このモデルで生成された画像

画像が見つかりません。