Anime Illust Diffusion
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
モデル紹介(中国語)
0 序論
伝統的なAIアートのレンダリングでは、変化のない顔、ポーズ、スタイルにうんざりしていました。そのため、ハイブリッドモデルから離れる必要がありました。初期段階ではプロンプトを使用しましたが、望んでいた微妙な線、色、光と影、質感、構図、物語性を実現できませんでした。また、モデルが偶発的に生み出す驚くべきスタイルを再現することもできなかったのです。ほんの一瞬の表現であり、一般的なスタイルとはわずかに異なるだけですが、美学的に魅力的でした。そのため、アートスタイルを完璧に学習でき、一貫して安定した出力を得られるモデルを開発したいと考えました。2022年11月から、デコレーション事務所の素材収集を開始し、わずかな差異のみのある素材を識別するための特別なタグを設定しました。2023年初頭、モデルのスタイルにおいて独自のパーソナリティを確立でき、AIDv1.0モデルが誕生しました。
なぜLoRAではなく微調整なのか? 私は常に微調整の方がLoRAより効果的だと信じています。ベースモデルに依存せず、すべてのトレーニング画像が損失最小値を向かって共同で進むため、追加の重みの最適化に留まらないからです。しかし、特定のスタイルを大規模モデルに完全に取り入れる方法を模索しているため、トレーニングの負担を軽減することが可能になるでしょう。
その後6ヶ月間、自費2万円以上を投入し、画像のカット、タグ付け、スクリプトの改造を自分の手で行いました。トレーニングステップは数千、数万、そして何百万にも達し、トレーニング環境はRTX3060、RTX3090からA100へと進化しました。素材製作からトレーニングまで、AIDは段階的に完全なプロジェクトへと発展しました。
この過程で、モデルが元画像のノイズにわずかに「過学習」したときに、スタイルを最もよく学習できることがわかりました。すべてのスタイルに過学習を行い、負のEmb(負のテキスト埋め込み)で過学習ノイズを学習することで、異なるスタイル間の学習進捗をバランスさせました。この正則化手法により、非常に良い成果を得られました。適切に調整された負のEmbは、ベースモデルのスタイルを損なわず、スタイルの特徴を強調する働きもします。
モデルのリフレッシュとともに、Stable Diffusion 1.5の限界に近づいていると感じました。微調整を行っても、素晴らしいイラストの特徴的な線、色、光と影、構図、物語性などは、シンプルなSD1.5モデルでは十分に学習・模倣できませんでした。アンダーフィットからオーバーフィットまで、完璧なスタイル特徴を得られませんでした。特に、百以上のアートスタイルを同時に最適化しなければならないという点で、その難しさを実感しました。
このため、より複雑なSDXLモデルに新たな突破口が(あり)期待しています。
モデルトレーニング中、大量のプロンプトを書いたり、異なるスタイルを混合することに時間を使いませんでした。一部の友人がLoRAと非常に複雑なプロンプトを組み合わせることで、かなりインパクトのある成果を得ていました。彼らの革新と支援に心より感謝します。
最後に、@BananaCatさんのこの紹介の中国語化に感謝します。私は世界中のSD愛好家と研究成果を共有・交流したいと思っています。AIDモデルのすべては、専門的趣旨に根ざしたものです。さらに素材処理やモデルトレーニングの詳細に興味がある方、あるいは自分のトレーニング手法を共有したい方は、コメント欄に残してください。すぐに返信いたします。
I 概要
AnimeIllustDiffusion (AID) は事前学習済み、非商用、マルチスタイルのアニメグラフィックモデルです。AI顔は生成しません。あらかじめ用意された多数のスタイルがあり、特別なトリガー語(付録A参照)を使用することで、特定のスタイルの画像を生成できます。膨大なコンテンツが内蔵されているため、AIDは強力なネガティブプロンプトが必要です。一般的なネガティブプロンプト(例:低品質、不自然な解剖学等)では効果が限られます。そのため、生成された画像にノイズが生じた場合は、私たちが提供するネガティブテキスト埋め込み [1] を併用してください。ノイズを除去できます。バージョン固有のネガティブエビデンス(本文が番号付き)については、バージョン情報をご覧ください。さらに、色彩が明るくイラスト風に最適な sd-vae-ft-mse-original [5] を推奨します。第II部では、AnimeIllustDiffusion V1.0 の制作プロセスを簡単に紹介します。第III部では、ネガティブテキスト埋め込みについて説明します。付録Aでは、完全なキーワードリストを提供します。
ダウンロード前に、ダウンロードするバージョンのバージョン情報を必ずご確認ください!
AIDモデルには 200以上 の安定したアニメイラストスタイルと 100体のアニメキャラクターが内蔵されています。スタイル生成に必要な特別なプロンプトは付録Aをご覧ください。キャラクター生成は、キャラクター名を直接プロンプトとして入力するだけで完了です。AIDモデルはパレットのように、あらゆる組み合わせのプロンプトで新しいスタイルを創造できます。
1 推奨パラメータ
サンプラー:Euler a
トレーニングステップ:40
解像度:512x768、640x960、768x1152 など
CLIP層スキップ:1
プロンプトフォーマット:best quality、masterpiece、highres、by {xxx}、best lighting and shadow、stunning color、radiant tones、ultra-detailed、amazing illustration、an extremely delicate and beautiful、{他のプロンプト}
ネガティブプロンプトフォーマット:aid210、{他のネガティブプロンプト}
注:ここで、`{xxx}` はスタイル名です。`aid210` はモデル専用のネガティブテキスト埋め込みです。リンク\ [1] からダウンロードして、使い方を学んでください。
2 バージョン比較
AIDの各バージョンにはそれぞれ強みがあり、新しいバージョンが必ずしも良いわけではありません。
初心者向け:v2.8、v2.91 - Weak、v2.10beta1
創造性が非常に高い:v2.6、v2.7、v2.91 - Weak、v2.91 - Strong
相当に安定している:v2.5、v2.6、v2.8、v2.91 - Weak
スタイルが多様:v2.91 - Weak、v2.91 - Strong、v2.10beta1
II モデル
このモデルは3つの異なるモデルの融合であり、2つは私が訓練したモデル、もう1つはGoldSunが融合したPretty 2.5Dモデル [2] です。
1 モデル訓練
私は、4300枚以上の手作業でカット・タグ付けされた512x512サイズの二次元イラスト画像をトレーニングデータセットとして使用し、DreamBoothを使用してNaifu 7G大規模モデルをスタイル方向に微調整しました。各トレーニングデータ画像に対して高い学習率で100エポック訓練しました。正則化画像は使用していません。テキストエンコーダーも訓練しました。関心がある方は、[3]で詳細パラメータ情報を確認できます。
2 モデル融合
Merge Block Weighted拡張機能を使用して、3つのモデルを融合しました。3つのモデルの中で、1つはスタイルおよびテキストエンコーダーを提供(base alphaおよびすべてのOUT層)、もう1つは手の細部を最適化(IN層00~05)、さらに別のモデル(Pretty 2.5D)が構図を提供(IN層06~11およびM層)に使用されました。
III ネガティブテキスト埋め込み
このモデルは、ネガティブプロンプトのテキスト埋め込みファイルである badv3 を推奨しています。このファイルは、プロンプトの執筆を簡略化するだけでなく、モデルの潜在能力を引き出し、生成画像の質を向上させます。通常、badv3の効果は十分であり、さらに品質のプロンプトを追加する必要はありません。しかし、100%の問題を解決するわけではありません。
1 使用方法
ダウンロードしたネガティブテキスト埋め込みファイル(badv3.ptファイル)を、Stable Diffusionのドキュメント内のembeddingsフォルダに配置してください。その後、ネガティブプロンプト入力欄に「badv3」と入力するだけです。
2 製作理念
私の考えは、悪い画像の概念を訓練し、ネガティブプロンプトに組み込んで、こうした不好的な画像の生成を避けようということです。
私は、モデルが生成した数百枚の悪い画像を使って、悪い画像の概念(badv3)を訓練しました。そのプロセスはEasyNegative [4] と似ています。従来のネガティブテキスト埋め込みがモデルのスタイルに与える影響を和らげるために、過学習の訓練を試みましたが、効果が得られました。
EasyNegativeと比較すると、badv3は本モデルではより良い成果を上げています。他のネガティブテキスト埋め込みの比較はまだ行っていません。
badv3は、deformityv6の次に作成したn番目のネガティブテキスト埋め込みです。作成は簡単ですが、結果はかなりランダムです。以前は、別の悪い画像で訓練したモデルの重みを差分を追加することで削除しようとしたが、現状では明るい結果を得られていません。今後は、ネガティブテキスト埋め込みではなく、ネガティブLoRAを訓練して、モデルから重みを直接「削除」する(「避ける」のではなく)方法に切り替えようと考えています。
IV 免責事項
本モデルは、マルチスタイルモデルのトレーニングテスト用に使用され、非営利・非商用目的で作成されており、すべての趣旨に基づいています。著作権侵害が発覚した場合は、即時に削除いたします。
すべてのカバービジュアルはテキストから画像を生成したもので、どのLoRAも使用しませんでした。ネガティブプロンプトには\ [1]のネガティブテキスト埋め込みを使用しています。
ユーザーはこのモデルによる画像生成にのみ限定して使用を許可されており、同意なしの再配布は禁止されています。
本モデルの一切の商業利用は厳禁です!
付録Aに掲載された画像は、本モデルの特別なトリガー語の大分類用プロンプトの参考として用意されており、指定されたプロンプトを使用しなければならないわけではありません。
本モデルを、血なまぐさい、暴力的、性的な違法画像、または権利侵害を行う内容の生成には使用しないでください!そのため、付録Aでは、訓練済みのキーワードの一部しか提供していません。
モデル紹介(英語)
0 序論
従来のAIアートのレンダリングにおける、何らかの単調な顔、ポーズ、スタイルにうんざりしていました。そのため、ハイブリッドモデルから離れる必要があったのです。当初はプロンプトを使用しましたが、望んでいた微妙な線や色、光と影、質感、構図、物語性を得ることはできませんでした。場合によっては、モデルが偶然生み出す驚きをもたらすスタイルさえ再現できませんでした。一瞬の出来事であり、一般スタイルとわずかに異なるだけで、美学的に魅力的でした。それゆえに、アーティスティックスタイルを完璧に学習でき、安定して出力を得られるモデルを作りたかったのです。2022年11月から、素材の収集を開始し、わずかに異なる作品を区別するための特別なラベリングを行いました。2023年初頭に、独自のスタイルが備わったモデルを作ることができました。それがAIDv1.0モデルです。
なぜLoRAではなく微調整なのか? 私は、微調整がLoRAよりも効果的だと信じています。ベースモデルに依存せず、すべてのトレーニング画像が損失最小値に向けて共に進むため、追加の重み最適化に留まらないのです。しかし、特定のスタイルを大規模モデルに円滑に組み込む方法も模索していますが、トレーニング負担を軽くできるでしょう。
その後6ヶ月間、2500ドル以上を個人で投入し、画像のカット、ラベル付、トレーニングスクリプトの改造を行ってきました。トレーニングステップは数千から何百万にも及び、トレーニング環境はRTX3060、3090からA100へ進化しました。素材生成からトレーニングまで、AIDは段階的に完全なプロジェクトへと発展しました。
この過程で、モデルが元画像のノイズにわずかに「過学習」した場合、スタイルを最もよく学習できることがわかりました。すべてのスタイルに過学習を行い、ノイズを学習するためのネガティブエンベッド(負の埋め込み)を用いて、異なるスタイル間の学習進捗をバランスさせました。この正則化法により、良い結果を得られました。適切に調整されたネガティブエンベッドは、ベースモデルのスタイルを損なわず、スタイルの特徴を強化します。
モデルの進化とともに、私はStable Diffusion 1.5の限界に近づいたと感じました。レベル微調整でさえも、高品質なイラストの特徴的な線、色、光と影、構図、物語性をうまく学習・模倣できませんでした。アンダーフィットからオーバーフィットまで、完璧なスタイル特徴を得られず、何百ものアートスタイルを同時に最適化する必要があるという点でも、困難さを感じました。
そのため、より複雑なSDXLモデルが新たな突破口をもたらすことを切望しています。
トレーニング中、複雑なプロンプトの作成や異なるスタイルの混合に時間を使わず、焦点を合わせませんでした。一部の友人はLoRAと非常に複雑なプロンプトを使って、非常にインパクトある成果を得ていました。それらの革新と支援に感謝します。
最後に、@BananaCatさんにこの紹介の翻訳を感謝します。私は、世界中のSD愛好家と研究成果を共有・交流したいと思っています。素材の前処理やモデルトレーニングの詳細に興味がある方、あるいは自分のトレーニング手法を共有したい方は、コメント欄に残してください。すぐに返信いたします。
I 概要
AnimeIllustDiffusionは事前学習済み、非商用、多様なスタイルのアニメイラストモデルです。AI顔は生成しません。一部のトリガー語(付録Aを参照)を使用することで、特定のスタイルの画像を生成できます。多くのコンテンツを内蔵しているため、AIDは強力なネガティブプロンプトが必要です。画像にノイズが出る(大多数の場合)場合には、私の提供するネガティブテキスト埋め込み [1] を併用してください。これは非常に重要です。そうでなければ、悪品質の結果になります。VAEについては、sd-vae-ft-mse-original [5] を推奨します。第II部では、モデル作成過程の概要を説明しています。第III部では、私が提案するネガティブテキスト埋め込みについて紹介します。付録Aでは、キーワードの部分リストを提供しています。
ダウンロード前にバージョン情報を必ずご確認ください!
モデルには100種類以上の安定したアニメイラストスタイルと100種のアニメキャラクターが内蔵されています。スタイルを生成するために必要なトリガー語については付録Aを参照してください。キャラクターを生成する場合は、キャラクタ名をそのままプロンプトとして使用してください。AIDモデルはパレットのようなもので、さまざまなプロンプトを組み合わせて、新しいスタイルを作成できます。
1 推奨設定
サンプラー:Euler a
ステップ数:32
解像度:512x768、640x690、768x1152 など
CLIPスキップ:1
プロンプトフォーマット:best quality、masterpiece、highres、by {xxx}、best lighting and shadow、stunning color、radiant tones、ultra-detailed、amazing illustration、extremely delicate and beautiful、{その他のプロンプト}
, ここで by {xxx} はスタイル名(付録Aのトリガー語)。
ネガティブプロンプトフォーマット:aid210、{その他のネガティブプロンプト}
, ここで aid210 は特別なネガティブ埋め込みであり、\ [1] からダウンロードして使い方を学習できます。
2 バージョン比較
AIDの各バージョンにはそれぞれのメリットがあり、新しいバージョンが絶対に良いというわけではありません。
初心者向け:v2.8、v2.91 - Weak、v2.10beta1
創造性が高い:v2.6、v2.7、v2.91 - Weak、v2.91 - Strong
相当に安定している:v2.5、v2.6、v2.8、v2.91 - Weak
スタイルが豊富:v2.91 - Weak、v2.91 - Strong、v2.10beta1
もしも自分の画像をアップロードまたは共有したい、または将来のAIDモデル用にトレーニング画像を提供したい場合は、次のリンクを参照してください:
anime-illust-diffusion-gallery - a Hugging Face Space by Eugeoter
II モデル
このモデルは3つの異なるモデルの融合であり、2つは私が訓練したモデル、もう1つはGoldSunが融合したPretty 2.5Dモデル [2] です。
1 モデルトレーニング
4300枚以上の人為的にカット・タグづけされた512x512サイズのアニメイラスト画像をトレーニングセットとして使用し、DreamBoothを用いてNaifu 7G大規模モデルをスタイル学習に微調整しました。学習率は高く、各トレーニング画像で100エポック訓練しました。正則化画像は使用していません。テキストエンコーダーも訓練しました。興味がある方は、[3]で詳細パラメータ情報を確認できます。
2 モデル統合
Merge Block Weighted拡張機能を使用して3つのモデルを統合し、AnimeIllustDiffusionモデルを作成しました。3つのモデルの中で、1つはスタイルとテキストエンコーダーを提供(base alphaとすべてのOUT層)、1つは手の部分の詳細を最適化(IN層00~05)、もう1つ(Pretty 2.5D [3])は構図を提供(IN層06~11およびM層)に使用されています。
III ネガティブテキスト埋め込み
モデルでは、ネガティブプロンプト用のテキスト埋め込みファイル「badv3」の使用を推奨しています。これは、プロンプトの記述を簡略化し、モデルの潜在能力を引き出し、生成画像の質を向上させる効果があります。通常、badv3の効果は十分であり、追加の品質プロンプトの入力は不要です。しかし、すべての画質問題を解決するわけではありません。
1 使用方法
ダウンロードしたネガティブテキスト埋め込みファイル(badv3.ptファイル)を、Stable Diffusionのインストールディレクトリのembeddingsフォルダに配置してください。その後、ネガティブプロンプト入力欄に「badv3」と記入するだけで使用できます。
2 製作の理念
私のアイデアは、「悪い画像」という概念をトレーニングし、ネガティブプロンプトに組み込むことで、こうした形状を生成しないようにすることです。私はモデルによって生成された数百枚の悪い画像を用いて、ネガティブテキスト埋め込み「badv3」をトレーニングしました。これはEasyNegative [4] と同様の仕組みです。従来のネガティブテキスト埋め込みがモデルのスタイルに与える影響を軽減するために、過学習訓練を試みました。これが効果的であるように見えます。
EasyNegativeと比較して、badv3はこのモデルに対してより良い結果を生み出しています。他のネガティブテキスト埋め込みと比較はまだ行っていません。badv3は、deformityv6の次に訓練したn番目のネガティブテキスト埋め込みです。作成は簡単ですが、結果は非常にランダムです。前に、別の悪い画像で訓練したモデルの重みを差分を追加することで削除しようとしたが、現時点では明るい結果は得られていません。次に、ネガティブテキスト埋め込みではなく、ネガティブLoRAを訓練して、モデルから重みを直接「削除」する(「避ける」のではなく)方法に切り替える予定です。
IV 免責条項
本モデルは、マルチスタイルモデルのトレーニングテスト用途で使用されており、非営利・非商用了であり、すべての趣旨に基づいています。著作権侵害が発覚した場合には、直ちに削除されます。
すべてのカバーデザインは、LoRAを使用せずにテキストからの画像生成で作られ、ネガティブプロンプトには\ [1]のネガティブテキスト埋め込みを使用しています。
ユーザーは、このモデルによる画像の生成にのみ限って使用を許可されており、同意なしの再配布は禁止されます。
本モデルの一切の商業的利用は厳禁です!
付録Aに掲載された画像は、このモデルの特殊トリガー語の大分類プロンプトの参考として提供されています。指定されたプロンプトを使用しなければならないわけではありません。
本モデルを、血や暴力、性的コンテンツや権利侵害を行う画像の生成には使用しないでください!そのため、付録Aでは、訓練済みキー語の一部しか提供していません。
V 参考リンク / Referenced Pages
[2] Pretty 2.5D | Stable Diffusion Checkpoint | Civitai
[3] 多スタイルモデル - サイクルスタイルSFイラスト - AI加速器コミュニティ (acceleratori.com)
[4] EasyNegative | Stable Diffusion TextualInversion | Civitai
[5] vae-ft-mse-840000-ema-pruned.ckpt · stabilityai/sd-vae-ft-mse-original at main (huggingface.co)
付録 A / Appendix A
AIDV2.5までの対応 / Until AIDV2.5: by 35s00, by agm, by ajimita, by akizero, by ask, by chicken utk, by demizu posuka, by dino, by fadingz, by fuzichico, by hamukukka, by hitomio16, by ichigo ame, by key999, by kooork55, by matcha, by mika pikazo, by modare, by myung yi, by naji yanagida, by nezukonezu32, by nico tine, by nikuzume, by ninev, by oda non, by palow, by qooo003, by rolua, by samip, by serie niai, by shirentutu, by sho, by silver, by sonomura00, by void, by wlop, by xilmo, by yoneyama mai, by yosk6000, by zumizumi
AIDV2.6の追加 / AIDV2.6 adds: by caaaarrot, by hinaki, by homutan, by kazari tayu, by kitada mo, by roitz, by teffish, by ukiatsuya, by yejji, by ziyun
AIDV2.7の追加 / AIDV2.7 adds: by poharo, by jnthed, by 7thknights, by some1else45, by yohan, by yomu, by tsvbvra
AIDV2.9の追加 / AIDV2.9 adds: by kkuni, by starshadowmagic, by star furu, by rella, by tukumi bis, by yumenouchi, by chon, by eku uekura, by tira27, by kuroume, by hachisan, by nounoknown, by kurige horse, by konya karasue, by noyu, by ame929, by muryou tada, by yun216, by nekojira, by nanmo, by wait ar, by akasaai, by momoco, by sushi0831, by taiki, by siki, by kinta, by hata, by anteiru, by lemoneco, by umaiyo puyoman, by freng, by rin7914, by shimanun, by hidulme, by whoisshe, by 5eyo, by cutesexyrobutts, by shiren, by omutatsu, by gesoking, by 3meiji, brushstrokes
AIDV2.9の更新 / AIDV2.9 Update: (i) by demizu posuka; (ii) by fuzichico -> by fuzichoco; (iii) トレーニング画像の解像度を向上; (iv) skip clip = 1 上でのトレーニング。
AIDV2.91の追加 / AIDV2.91 adds: impasto, pseudo-impasto, semi-realistic, concept art, flat color, celluloid
AIDV2.10beta1までの追加 / Until AIDV2.10beta1: by 35s00, by 3meiji, by 5eyo, by 7nu, by 7thknights, by adenim, by agm, by ajimita, by akizero, by ame929, by anmi, by anteiru, by arutera, by ask, by atelier irrlicht, by bunbun, by caaaaarrot, by camu, by canking, by ccroquette, by chi4, by chicken utk, by chon, by cola, by cutesexyrobutts, by darumakarei, by dino, by dora, by dsmile9, by ei maestrl, by ekita kuro, by ekita xuan, by eku uekura, by fadingz, by fajyobore, by foomidori, by freng, by fuzichoco, by gesoking, by gomzi, by hachisan, by hakuhiru oeoe, by hamukukka, by haru, by hata, by hidulme, by hikinito0902, by hinaki, by hitoimim, by hitomio16, by hizumi, by homutan, by hotatenshi, by houk1se1, by hyatsu, by icecenya, by ichigo ame, by inoriac, by iromishiro, by iwzry, by jnthed, by joezunzun, by junsui0906, by karohroka, by kaya7hara, by kazari tayu, by killow, by kin, by kinta, by kishiyo, by kitada mo, by kkuni, by konya karasue, by kooork55, by kot rou020, by krenz, by kurige horse, by kuroume, by lalalalack, by lemoneco, by lm7, by lovelymelm, by lpmya, by mar takagi, by matcha, by matsukenmanga, by melowh, by menou, by midori xu, by mika pikazo, by misumigumi, by miv4t, by mochizukikei, by mogumo, by momoco, by momoku, by morikuraen, by mqkyrie, by muina, by munashichi, by muryou tada, by myaru, by myc0t0xin, by myung yi, by nack, by naji yanagida, by nanmo, by nardack, by narue, by nekojira, by netural, by nezukonezu32, by nico tine, by nikuzume, by nine, by nineo, by ninev, by niwa uxx, by nixeu, by noco, by noodle4cool, by nounoknown, by noyu, by oda non, by omutatsu, by onineko, by palow, by panp, by pikuson, by poharo, by poire, by potg, by pro-p, by qooo003, by rai hito, by rattan, by reiko, by rella, by rhtkd, by rin7914, by roitz, by ryuseilan, by saberiii, by sais, by sakiika, by samip, by sanosomeha, by say hana, by scottie0073, by senryoko, by serie niai, by seuhyo99, by shal-e, by shimanun, by shirabii, by shiraishi kanoya, by shiren, by shirentutu, by sho, by sia, by siki, by silver, by solipsist, by some1else45, by sonomura00, by sooon, by star furu, by starshadowmagic, by starzin07, by sui 0z0, by sul, by sushi0831, by suzukasuraimu, by taiki, by takumi bis, by teffish, by tidsean, by tira27, by tsukiho tsukioka, by tsvbvra, by ttosom, by tukumi bis, by uiiv, by ukiatsuya, by umaiyo puyoman, by void, by wait ar, by walzrj, by wanke, by whoisshe, by wlop, by xilmo, by yejji, by yogisya, by yohan, by yomu, by yoneyama mai, by yosk6000, by yumenouchi, by yun216, by yunikon147, by yunsang, by ziyun, by zumoti4




















