LHC
詳細
ファイルをダウンロード
モデル説明
LHC(Large Heap o' Chuubas)は、あなたのすべてのVTuberニーズに対応するモデルを目指しています。その他の目標としては、美観、背景、解剖学の改善がありますが、主な目的はLoRAなしでVTuberを生成できるオプションを提供することです。
Alpha V0.5
LHC v-pred v0.5は、NoobAI v-pred 1.0のカスタム微調整版です。画像品質が向上し、NoobAIの内在するアーティストの知識をほぼすべて保持しつつ、VTuberに関する知識を大幅に拡張しています。
すべてのVTuberが同等のレベルで認識されているわけではなく、一部のキャラクターは追加のタグが必要だったり、私のテストではうまく動作しないこともあります。タグ付けと使用法に関するキャラクターの完全な一覧は以下で確認できます:https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha_v05/vtubers_valpha05.txt 。また、すべてのVTuber(ComfyUIメタデータを含む)のサンプル画像のアルバムは以下に準備されています:https://catbox.moe/c/pjfwt1 。
データセットの詳細:
すべてのVTuberは分離され、画像数は80〜120枚の範囲で正規化され、可能な限り100枚を目指しました。さらに、複数キャラクターの能力を学習するため、1000枚の複数VTuber画像を追加しました。これにより、約16,000枚の画像からなるデータセットができました。また、すべての画像は最低1MPまでアップスケールされ、ウェブトーンの圧縮アーティファクトを除去するために特化したアップスケーラーでJPEG画像のクリーニングも行いました。
一部のVTuberには、まだ関連タグが付いていない大量のデータが必要でした。その場合、AIタギングモデルを活用して補助しました。すべての画像を手動でタグ付けしたかったのですが、データセットの規模が大きすぎて、現時点ではそれに対応する能力がありません。
学習の詳細
LHC v0.5は、データセットの大規模な再構成後にパラメータの不確実性があったため、様々な学習率とバッチサイズで102エポック学習されました。一般的に、Unetの学習率は1.5e-5〜5e-5、TEの学習率は4e-6〜8e-6でした。Cosineスケジューラと8〜32のバッチサイズを使用しました。TensorBoard用の正確な学習ログはHugging Faceで確認できます。
学習には400時間以上かかり、160万以上のサンプルで学習されました。
Alpha V0.4
以前のバージョンがLoKR方式を使用していたのに対し、v0.4はNoob V-Pred 0.6の完全微調整版です。約34万サンプル(80エポックで4500画像)を学習し、学習時間は約90時間かかりました(複数の実験は含みません)。しかし、アーティストや概念に対する理解はベースモデルとほぼ同等です。
キャラクターの一覧は以下で確認できます:https://huggingface.co/Jyrrata/LHC_XL/blob/main/characters/alpha04.txt 。一部のキャラクターはキャラクタータグだけで十分ですが、他のものは追加の説明タグが必要です。
また、LoRA抽出版は以下にあります:https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v04/lhc_04_extract.safetensors
学習の詳細
データセット:
約3500枚(繰り返しを含めると4500枚)の画像を使用しました。これは、3人のアーティストの約350枚、複数キャラクターの約500枚、および100人のキャラクターの約2650枚から構成されています。
繰り返しは、各キャラクターがエポックあたり30〜50枚の画像を持つように選択しました。可能な限り、解像度が1MPを超える高品質なPNGを選択しました。そのような画像が利用できない場合、JPEGアーティファクト除去に特化したアップスケーリングモデルを使用して画像をアップスケールまたはクリーニングしました。
Alpha V0.3.1
Alpha v0.3の学習中にいくつかのミスが発生したため、このモデルはNoobAIから大きく逸脱しています。しかし、訓練された79人のVTuberのほとんどに対して十分な理解を持ち、残りのキャラクターに対しても十分な性能を発揮します。概要については以下を参照してください:
https://huggingface.co/Jyrrata/LHC_XL/blob/main/characters/alpha03.txt
および、v0.3モデルの基本的なキャラクター理解の視覚的なガイドは以下:https://civitai.com/posts/9579061 。多くのキャラクターはアクティベーションタグのみで動作しますが、一部は追加タグが必要です。
Alpha V0.3とV0.3.1は、NoobAI-XL V-Pred-0.6バージョンで学習されました。
抽出されたLoRA版は以下にあります:https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v03/lhc_v03_1_lora.safetensors
V0.3を使用したい場合は、以下で入手できます:https://huggingface.co/Jyrrata/LHC_XL/blob/main/alpha/v03/LHC_alphav03-vpred.safetensors
さらに、このHugging Faceリポジトリにはeps版と、rouwei-vpredで訓練された中間データセットのバージョンも含まれています。v0.2.5の知識の概要については、キャラクターの.txtファイルを参照してください。
Alpha V0.2
v0.1と同様のアプローチですが、データセットは10人の追加VTuberにより、合計28人に拡張されました。最終の2エポックでは、美的な再調整と向上を目的とした幅広い概念をカバーする1200枚の実験的データセットが含まれています。
今回追加されたVTuberは以下の通りです:
aradia ravencroft
bon \(vtuber\)
coni confetti
dizzy dokuro
dooby \(vtuber\)
haruka karibu
juniper actias
kogenei niko
malpha ravencroft
mamarissa
michi mochievee
rindo chihaya
rin penrose
atlas anarchy
dr.nova\(e\)
eimi isami
isaki riona
jaiden animations
juna unagi
kikirara vivi
mizumiya su
tsukinoki tirol
alias nono
biscotti \(vtuber\)
mono monet
rem kanashibari
yumi the witch
新しいVTuberの追加に加え、既存のいくつかのデータセットも再構築しました。特にjuna unagiとjuniper actiasが対象です。Juniperには、新しいデザインと古いデザインの2つの新しいタグが追加され、モデルを2つの明確な段階に分ける試みを行いました。これは実験的な取り組みであり、今後のバージョンで継続される保証はありません。
ベースキャラクタータグの理解のデモは以下:https://civitai.com/posts/9183473?returnUrl=%2Fmodels%2F940235%2Flhc%3FmodelVersionId%3D1064798 。一部のVTuberはキャラクタータグのみでは動作せず、追加の説明タグが必要です。
Alpha V0.1
このモデルは現在もアルファ版です。現在の状態は将来のすべての機能を示すものではなく、単なる概念実証にすぎません。
シンプルなテストモデルですが、良好な結果を出しています。ベースのNoobAIモデルが十分に学習できていなかった18人のVTuberを中心に、約1000枚の画像で学習されました。このモデルはNoobAIXL v-pred-0.5バージョンをベースとしています。
V-predモデルであるため、すべてのWebUIで動作するわけではなく、vpredサンプリングを実装したUIでのみ動作します。ComfyやReForgeのようなUIには、必要な設定を自動的に設定するためのモデルの状態辞書が設定されています。そうでない場合、vpredサンプリングを有効にする必要があります。さらに、ztsnrの有効化をお勧めします。
新しく追加・強化されたVTuberは(学習タグに基づき)以下の通りです:
Aradia Ravencroft
Malpha Ravencroft
Mamarissa
Koganei Niko
Rindo Chihaya
Mizumiya Su
Isaki Riona
Kikirara Vivi
Coni Confetti
Dizzy Dokuro
Dooby (Vtuber)
Haruka Karibu
Juna Unagi
Juniper Actias
Michi Mochievee
Rin Penrose
Jaiden Animations
さらに、Nerissa RavencroftとVienna(Vtuber)の画像を特に追加し、複数キャラクターが同時に登場する多数の画像も含めました。
ベースキャラクター理解のデモは以下をご覧ください:https://civitai.com/posts/9039071
推奨設定:
Sampler: Euler
CFG: 4-5
Steps: 25+
学習の詳細:
KohakuXL シリーズの手法に基づき、LoKrの完全次元で学習されました。Lycoris設定は以下で確認できます:https://huggingface.co/KBlueLeaf/Kohaku-XL-Delta/blob/main/docs/lyco_config.toml
具体的なパラメータ:
データセット:1035枚の画像
バッチサイズ:2
勾配蓄積:4
学習ステップ:約6400
学習エポック:約50
Unet LR:3e-5(最終12エポックでは2e-5に低下)
TE LR:2e-5(最終12エポックでは1e-5に低下)
最適化アルゴリズム:AdamW 8-bit
定数スケジューラ
特別な感謝:
kblueleaf(Kohaku Blueleaf):LycorisライブラリとLoKrによる微調整のリソースを提供してくださってありがとうございます。
OnomaAI & Laxhar Dream Lab:優れたベースモデルを提供してくださってありがとうございます。
kohya-ss:sd-scriptsを提供してくださってありがとうございます。




















