GAOGAO-LUMINA

NETA-LUMINA のシンプルなファインチューニング

これは何ですか？

簡単に言えば：NETA-LUMINA のベースモデルを、手動で選別した1万枚の画像で微調整したモデルです。これが最終結果です。

何ができますか？

NETA-lumina と似ていますが、画像品質が少し向上し、より詳細な描写を加えることができます。

なぜ V0.1 ですか？

うーん…説明が難しいですが、このモデルを訓練中にクラウド上で動作させていたマシンがエラーを起こし、失敗してしまいました。再訓練に少し時間がかかると思いますし、より科学的で合理的な方法を用いたいとも考えています。

どうやって使えばいいですか？

一言で言うと：1girl/1boy を使い、その後に自然言語を続けます。ただし、このモデルを単独で使うのはお勧めしません。他のスタイル LoRA と組み合わせることを強く推奨します。タグの使用は一定程度役立ちますが、モデルの潜在能力を最大限に引き出すことはできません。

もしこれが初めて NETA-lumina モデルを使う場合、NETA.ART が作成した公式チュートリアルを確認することをお勧めします。従来の SDXL (ILL/NOOB) や SD1.5 がプロンプトにタグを大量に依存していたのに対し、NETA-lumina ではプロンプトを主に自然言語で構成すべきです。

また、ここに提供しているのはモデル本体ファイルだけです。VAE と gemma2 は別途ダウンロードする必要があります。

今後の計画は？

まずバージョン 1.0 をリリースすることを目指します。

支援してほしいですか？

QQ グループ 1020622167 に参加して、交流しましょう。

以下は雑談です。これらは NETA-LUMINA に関する一般的な知識やヒントであり、ほとんどは他の人との会話、私の観察、および他者の経験に基づいています。誤りがある可能性もあるため、コメント欄にご自身の経験や洞察をぜひお寄せください。

NETA-LUMINA は自然言語モデルであり、タグに対する対応は実際には非常に低く、報告では訓練データの約20%がタグで構成されていたとされていますが、実際の使用ではタグへの対応は「壊滅的」と言えるレベルです。この現象をもっと受け入れやすい形で説明すると：Lumina は Gemma をテキストエンコーダーとして使用しており、Gemma はタグを解析するために特別に設計されていないため、入力されるタグは LLM のトークナイザーによって非常に細かいフレーズに分割されてしまいます。
LoRA を訓練する際、純粋なタグで訓練することは可能です。しかし、収束が非常に遅く、得られる品質が労力に見合いません（あなたが非常に裕福であれば、この点は無視してください）。
システムプロンプトは必須です。これはトリガー単語のような役割を果たします。ベースモデルと LoRA の両方の訓練中にこのプロンプトが含まれていた以上、生成時にそれを削除する理由はありません。
アーティストタグに関して、多くのアーティストタグが反応しない、または逆に悪影響を及ぼす理由は上記に述べた通りです。LLM はこれらのアーティスト名に対応するトークンを持っておらず、訓練中に必ず分解されてしまいます。一部のアーティストタグは 2～3トークン程度で済むため、スタイルの適合性が比較的良好です。なぜなら、トークナイザーによる分解がそれほど激しくないからです。私の実際の観察でも、トークン数の少ないアーティストタグほど適合性が高いことが確認されています。逆に、トークン数が異常に多いアーティストタグは、非常に悪い適合性を示します。
知識の問題に関して、NETA-LUMINA は実際には広範な知識を備えていますが、さまざまな要因によりその知識を引き出すのが困難です。私の観察では、これらの重みが非常に混沌としている可能性があります。この点において、LoRA は助けになるはずです。

モデルタイプ	チェックポイント
ベースモデル	Lumina
公開日	10/7/2025
トレーニングワード	1girl 1boy

GAOGAO-LUMINA

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

GAOGAO-LUMINA

NETA-LUMINA のシンプルなファインチューニング

これは何ですか？

何ができますか？

なぜ V0.1 ですか？

どうやって使えばいいですか？

今後の計画は？

支援してほしいですか？

このモデルで生成された画像