GAOGAO-LUMINA
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
GAOGAO-LUMINA
NETA-LUMINA のシンプルなファインチューニング
これは何ですか?
簡単に言えば:NETA-LUMINA のベースモデルを、手動で選別した1万枚の画像で微調整したモデルです。これが最終結果です。
何ができますか?
NETA-lumina と似ていますが、画像品質が少し向上し、より詳細な描写を加えることができます。
なぜ V0.1 ですか?
うーん…説明が難しいですが、このモデルを訓練中にクラウド上で動作させていたマシンがエラーを起こし、失敗してしまいました。再訓練に少し時間がかかると思いますし、より科学的で合理的な方法を用いたいとも考えています。
どうやって使えばいいですか?
一言で言うと:1girl/1boy を使い、その後に自然言語を続けます。ただし、このモデルを単独で使うのはお勧めしません。他のスタイル LoRA と組み合わせることを強く推奨します。タグの使用は一定程度役立ちますが、モデルの潜在能力を最大限に引き出すことはできません。
もしこれが初めて NETA-lumina モデルを使う場合、NETA.ART が作成した公式チュートリアルを確認することをお勧めします。従来の SDXL (ILL/NOOB) や SD1.5 がプロンプトにタグを大量に依存していたのに対し、NETA-lumina ではプロンプトを主に自然言語で構成すべきです。
また、ここに提供しているのはモデル本体ファイルだけです。VAE と gemma2 は別途ダウンロードする必要があります。
今後の計画は?
まずバージョン 1.0 をリリースすることを目指します。
支援してほしいですか?
QQ グループ 1020622167 に参加して、交流しましょう。
以下は雑談です。これらは NETA-LUMINA に関する一般的な知識やヒントであり、ほとんどは他の人との会話、私の観察、および他者の経験に基づいています。誤りがある可能性もあるため、コメント欄にご自身の経験や洞察をぜひお寄せください。
NETA-LUMINA は自然言語モデルであり、タグに対する対応は実際には非常に低く、報告では訓練データの約20%がタグで構成されていたとされていますが、実際の使用ではタグへの対応は「壊滅的」と言えるレベルです。この現象をもっと受け入れやすい形で説明すると:Lumina は Gemma をテキストエンコーダーとして使用しており、Gemma はタグを解析するために特別に設計されていないため、入力されるタグは LLM のトークナイザーによって非常に細かいフレーズに分割されてしまいます。
LoRA を訓練する際、純粋なタグで訓練することは可能です。しかし、収束が非常に遅く、得られる品質が労力に見合いません(あなたが非常に裕福であれば、この点は無視してください)。
システムプロンプトは必須です。これはトリガー単語のような役割を果たします。ベースモデルと LoRA の両方の訓練中にこのプロンプトが含まれていた以上、生成時にそれを削除する理由はありません。
アーティストタグに関して、多くのアーティストタグが反応しない、または逆に悪影響を及ぼす理由は上記に述べた通りです。LLM はこれらのアーティスト名に対応するトークンを持っておらず、訓練中に必ず分解されてしまいます。一部のアーティストタグは 2~3トークン程度で済むため、スタイルの適合性が比較的良好です。なぜなら、トークナイザーによる分解がそれほど激しくないからです。私の実際の観察でも、トークン数の少ないアーティストタグほど適合性が高いことが確認されています。逆に、トークン数が異常に多いアーティストタグは、非常に悪い適合性を示します。
知識の問題に関して、NETA-LUMINA は実際には広範な知識を備えていますが、さまざまな要因によりその知識を引き出すのが困難です。私の観察では、これらの重みが非常に混沌としている可能性があります。この点において、LoRA は助けになるはずです。




