キラズリ・ラズリ (Noobai V-Pred)

このチェックポイントは、NoobAI-XL (NAI-XL) V-Pred 1.0-Version を完全にファインチューニングした個人プロジェクトであり、4090 GPUでローカルに訓練されました。使用したデータセットは15,069枚の画像で、合計378,550ステップ、ベースモデルから約370 GPU時間（1ステップあたり3.52秒）かけて訓練されました。

このモデルは、ベースモデルのデータカットオフ（2024/10/24）以降の追加知識を強化することに焦点を当てており、アニメ、ビデオゲーム、バーチャルユーチューバーのスタイル、概念、キャラクターを含みます。

使用方法 - 重要

このモデルは、NoobAI-XL (NAI-XL) V-Pred 1.0-Version をベースに訓練されており、v-予測モデル（eps-予測とは異なる）として実装されています。そのため、特定のパラメータ設定が必要です。

このチェックポイントを使用する際は、ベースモデルおよびその使用方法の説明を事前に理解することをお勧めします。

訓練の目的は、ベースモデルの知識を拡張しつつ、既存の知識を大きく変更したり劣化させたりしないことです。

以下は私の個人的な設定です。ベースモデルの好みの設定は、基本的にほぼそのまま転用可能です。

サンプラーについては、生成には Euler、アップスケーリング／インペイントには Euler Ancestral を使用してください。

(⚠️ 他のサンプラーは動作しない可能性があります。CivitAIのデフォルトのKarrasなども含まれます。)

プレビューは、ComfyUI ワークフローを用い、DynamicThresholdingFull、アップスケーリング、およびFaceDetailer で生成されています。

CFG値10で使用したDynamicThresholding（CFG-Fix）の設定：

dynthres_enabled: True, dynthres_mimic_scale: 7, dynthres_threshold_percentile: 1, dynthres_mimic_mode: Half Cosine Down, dynthres_mimic_scale_min: 1, dynthres_cfg_mode: Half Cosine Down, dynthres_cfg_scale_min: 3, dynthres_sched_val: 1, dynthres_separate_feature_channels: enable, dynthres_scaling_startpoint: ZERO, dynthres_variability_measure: STD, dynthres_interpolate_phi: 1

reForge または Forge も、バージョン1.0以降で使用可能です（そのバージョンで問題が発生した場合、お詫びします）。

*Forge/reForgeでv-predモデルとして自動検出されるよう、このスクリプトを使用してモデルのstate dictにznstrおよびv_predキーを追加しました。

推奨されるプロンプト構造：

品質修飾語 masterpiece, best quality, very aesthetic は、プロンプトの末尾に配置してください。

アーティスト名は、トークンのブリーディングを防ぐために artist: を接頭語として付けてください。

ComfyUIでは、comfyui-prompt-control 拡張機能を用いてA1111のスケジュールプロンプト構文を使用し、アーティストスタイルを結合します。例：artist:[artist1|artist2|artist3]

一部のケースでは、Attention Couple を用いたリージョナルプロンプティングを使用しています（例）。

ポジティブプロンプト：

{{characters}}, {{copywrites}}, {{artists}},
{{tags}},
absurdres, masterpiece, best quality, very aesthetic

訓練詳細

使用したkohya-ss/sd-scriptsの訓練設定は、GitHub で公開されています。

v2.1

このバージョンでは、更新された個人的美学ファインチューニングデータセット（masterpieces）と、最近のキャラクター、衣装、スタイルの訓練が追加されています：

データセットカットオフ：2025/07/15
v2.0からの継続訓練
訓練画像：1,004枚
正則化画像：314枚（v2.0より生成）
最適化手法：Adafactor
訓練精度：フルfp32
バッチサイズ：4
U-Net学習率：6e-6
TE学習率：2e-6
エポック数：50
ステップ数：25,950

v2.0

このバージョンは、このチェックポイントで訓練しようとしていたすべてのキャラクター、概念、スタイルを大幅に改善して表現しています。

フルデータセットをベースに、最新のデータを追加して単一の訓練実行：

データセットカットオフ：2025/06/13
訓練画像：14,065枚
正則化画像：7,056枚（NoobAI-XL (NAI-XL) V-Pred 1.0-Versionより生成）
最適化手法：Adafactor
訓練精度：フルfp32
バッチサイズ：4
U-Net学習率：6e-6
TE学習率：2e-6
エポック数：50
ステップ数：352,600（1ステップあたり3.52秒で約344 GPU時間）

v1.1

PixelWave に着想を得た、逐次チェックポイント訓練アプローチ。

約1,200枚の画像をバッチで10回訓練し、最終的に267枚の美学ファインチューニングデータセットで11回目の訓練を行いました。

データセットカットオフ：2025/05/25
最適化手法：Adafactor
訓練精度：フルfp32
バッチサイズと学習率は複数回調整
- バッチサイズ4、学習率6e-6が最も安定
10回目および11回目の訓練では、TEのバッチサイズ4、学習率2e-6で訓練
最終美学訓練では、10回目のチェックポイントから生成した正則化データセットを使用し、以前に学習したキャラクターを保持

新たに訓練されたシリーズ／キャラクター一覧：

訓練された概念のプレビューは バージョン2.0 で公開しています

アニメ：

dandadan
dr. stone
gachiakuta
girumasu
gundam gquuuuuux
kaijuu no.8
kaoru hana wa rin to saku
kusuriya no hitorigoto
solo leveling
sono bisque doll wa koi wo suru
witch watch
yofukashi no uta

ビデオゲーム：

elden ring nightreign
metaphor: refantazio
monster hunter wilds
fate/go (lilith)
genshin impact (citlali, escoffier, lan-yan, varesa, xilonen, yumemizuki mizuki)
honkai star rail (aglaea, castorice, cipher)
wuthering waves (carlotta, cartethyia, chisa, ciaccona, zani)
zenless zone zero (astra-zao, cipher, ju-fufu, luciana de montefio, pulchra fellini, sweety, trigger, vivian-banshee, yi xuan)

hololive：

flow glow (isaki riona, kikirara vivi, koganei niko, mizumiya su, rindo chihaya)
hoshimachi suisei (11th, caramel-pain, kireigoto, spectra-of-nova, supernova)
himemori luna (7th)
houshou marine (ahoy pirates)
natsuiro matsuri (jersey maid)
nekomata okayu (personya respect)
ookami mio (8th)
oozora subaru (police)
roboco san (oriental)
shirakami fubuki (fbkingdom)
usada-pekora (10th)

インディーVチューバー：

amagai ruka
dooby
nimi nightmate
sameko saba
yuuki sakuna

その他：

myaku-myaku (expo2025)

訓練された概念一覧：

衣装：

アンティークギリシャ衣装
chronopattern dress
jirai kei
water dress
holonatsu paradise (衣装)

概念：

fourth wall
star trail
flower field
mechabare
monster girl
year of the snake

推奨されるスタイル制御タグ：

103のアーティストデータセットから意図的にタグ付け・選別されたスタイルトリガー：

blending
flat color
no lineart
impasto
painterly
chiaroscuro
impressionism
ink wash painting
pastel colors
pencil art
neon palette
dark
colorful

伝統的メディアタグも訓練済み：

（データが十分でないため、一部対応していないものあり）

traditional media
acrylic paint \(medium\)
ballpoint pen \(medium\)
brush \(medium\)
calligraphy brush \(medium\)
charcoal \(medium\)
colored pencil \(medium\)
color ink \(medium\)
crayon \(medium\)
gouache \(medium\)
graphite \(medium\)
ink \(medium\)
marker \(medium\)
millipen \(medium\)
nib pen \(medium\)
oil painting \(medium\)
painting \(medium\)
pastel \(medium\)
watercolor \(medium\)

謝辞

ベースモデルNoobAI-XL (NAI-XL) V-Pred 1.0-Version を提供してくださったLaxhar Lab に感謝します。

さまざまなトレーニングセット、画像処理ツール、モデルをオープンソース化してくださったnarugo1992 および deepghs チームに感謝します。

sd-scripts トレーナーを開発してくださったkohya-ss に感謝します。

ライセンス

ベースモデルNoobai License に一切の変更を加えていません。ライセンス内容は以下の通りです：

このモデルのライセンスは、https://huggingface.co/OnomaAIResearch/Illustrious-xl-early-release-v0 のfair-ai-public-license-1.0-sd を継承し、以下の条項を追加しています。このモデルおよびそのバリエーションの利用は、本ライセンスに従います。

I. 使用制限

ハラスメント、脅迫、誤情報の拡散などを含む、有害・悪意・違法な活動への使用を禁止します。
不倫理的または攻撃的なコンテンツの生成を禁止します。
利用者の管轄区域内の法律・規制に違反する行為を禁止します。

II. 商業利用禁止

このモデル、派生モデル、またはモデル生成物の収益化や商業利用を含む、あらゆる形態の商業化を禁止します。

III. オープンソースコミュニティ

活発なオープンソースコミュニティを促進するため、ユーザーは以下の要件を守らなければなりません：

上記モデルに基づく派生モデル、マージモデル、LoRA、およびその製品をオープンソース化してください。
合成式、プロンプト、ワークフローなどの作業内容を共有してください。
fair-ai-public-licenseに従い、派生作品がオープンソースのまま保たれるようにしてください。

IV. 免責事項

生成されたモデルは、予期しないまたは有害な出力を生じる可能性があります。ユーザーは、利用に伴うすべてのリスクと潜在的な結果を自己責任で負うものとします。

Kirazuri Lazuli (Noobai V-Pred)

詳細

ファイルをダウンロード

このバージョンについて

モデル説明