【Art Style】赤倉 | Akakura

詳細

ファイルをダウンロード

モデル説明

2023.11.03

v3版を更新しました。v1版をベースに汎用性を強化しました。高解像度修復(Hires.fix)の利用を推奨します。サンプル画像にはR-ESRGAN 4x+ Anime6Bアルゴリズムを用い、拡大倍率は1.5、反復回数は0です。

訓練データにはmoat v2でラベル付けを行い、最適化アルゴリズムはLionを使用しました。学習率はデフォルトで1e-5および1e-6、repeat=5、20エポックを訓練しました。今回の訓練ではステップ数を減らし、バッチサイズを増やし、訓練解像度を1024×1024に設定しました。

バッチサイズを増加させる過程で、学習率を増やさない状態で、モデルは4エポック目で最も良い結果を示すことがわかりました(この傾向はanmiモデルの訓練時にも確認されています)。エポック数が7以上になると画風が過学習し始め、16エポック以上になると2番目の最小値に収束し始めました。

したがって、以前のLoRAモデルは重度の過学習を起こしていたと判断し、v1版モデルを削除することにしました。

——————————

2023.09.19

v2版を更新しました。ファイルサイズを大幅に削減するため、Lohaを採用しました。これは一部ユーザーのニーズに対応するためです。

Lohaを含むLycorisモデルの訓練速度は非常に遅く(通常のLoRA訓練の約半分程度)、VRAMの要件が高く、訓練コストが大きくなります。そのため、Lohaモデルを多数訓練することはしません。

表紙画像は、LohaがNAI(訓練元モデル)で生成したサンプルです。LoRAと比較して、このモデルはNAIとAnythingにおいてやや過少適合を示します。その代わり、他のベースモデルにおける安定性と汎用性は向上しています。

実際、Lohaは画風の訓練に適しており、モデル内の畳み込み層が訓練データの画風やより抽象的な情報をよりよく吸収できるため、線形層の学習負荷を効果的に軽減できます。テストの結果、適切な画風訓練パラメータはdim = 32、conv = 4であることがわかりました。alpha値は確定していませんが、dimと同じ値に設定することを推奨します。あまり低く設定すると、奇妙な出力になる可能性があります。

Stable Diffusion WebUIが最新バージョンであることを確認してください。推奨出力解像度は704×1024です。

——————————

2023.09.02

v1.1では瞳孔部分の問題を修正しました。「dot pupils」「eyelashes」などのプロンプトを追加することを推奨します。

すべての画像はNovelAI漏洩モデルで生成されています。「highres」を適用すると画像品質が向上する可能性があります。また、Anythingなどの二次元モデルを選択すると、細部の再現性が向上しますが、NSFWコンテンツの出力性能は劣ります。

損失値が最低だったテスト版(v1.0)を選択したところ、結果はそれほど良くなかったため、遠景や全身が崩れる問題が発生しました。そこで別のバージョン(v1.1)をテスト中です。

v1.0の主な問題は瞳孔が描けないことです。瞳孔に関連するタグ(dot、pupilsなど)を追加することで人物特徴を強化できますが、効果は限定的でした。また、訓練中にモデルが徐々に適合するにつれて損失値は下がる一方で、人物の瞳孔の特徴も次第に消えていくことがわかりました。

個人的には、訓練データにさまざまな種類の瞳孔が存在し、それらを識別するための適切なタグが不足していたため、訓練中に異なる瞳孔の特徴が融合したと考えています。このアーティストが描く瞳孔は一般的に小さいため、損失値を下げるためにAIは瞳孔をノイズと認識し削除してしまった可能性があります。

このモデルで生成された画像

画像が見つかりません。