Iris XL

詳細

ファイルをダウンロード

モデル説明

IRIS XL

IRIS XLは、身体の解剖学、ポーズ、スタイルの描画に優れたモデルを作成するために数ヶ月にわたって実験と微調整を重ねた成果です。これは私が完璧に仕上げようとしてきたものです。このモデルは、リアルな画像と合成画像の独自の組み合わせと、革新的なトレーニング手法を組み合わせ、芸術的推論の限界を押し広げています。

作成方法:

  • 21万枚のアーティスト画像: 最初に、モデルを約21万枚のbooruサイトからの画像(主にNSFW)でトレーニングし、身体の解剖学的理解と、ポニー風アートに限定されないアーティスト/キャラクターのレパートリーを拡張しました。booruで一般的に見られるタグの品質を超えるために、データセットの大部分に自然言語のキャプションを追加しました。これにより、モデルはより繊細なコンテンツを解釈・生成する能力が向上しました。

  • 5万枚のポニー vs 5万枚のNovelAI: ベーストレーニング後、5万枚のポニー画像5万枚のNovelAI画像を、同じプロンプトで使用してIRIS XLを微調整しました。目的は、ポニー風(やってはいけないこと)とNovelAI風(やるべきこと)の違いを示すことで、モデルが適切に芸術を推論・生成する方法を学ぶことです。

  • 次元ごとの微調整: 両方の微調整をdim512で抽出し、モデルに適用しましたが、その際に特徴的な工夫を加えました。NovelAIの微調整には重み1、ポニーの微調整には重み**-1**を設定しました。これは、ポニー風の推論が目指すものではないという点をモデルに明確に教え込むために不可欠でした。その結果、ベースとなるポニーの制限をはるかに超えた、非常に優れた解剖学的・ポージング能力を持つモデルが得られました。

なぜ優れているのか:

  • 解剖学とポージングの改善: この手法は、人間の解剖学的理解と自然なキャラクターのポージング能力を大きく向上させました。以前のバージョンでは課題だった点です(私が作成したバニー・モデルがお好きなら、これにきっと感動するでしょう)。

  • タグごとの学習率調整: トレーニング中に、頻度の低いタグの学習率を上げることで、モデルが稀なアーティストやキャラクターの理解を安定化・保持できるようにしました。これにより、あまり見かけないタグを忘れることなく、全体的なパフォーマンスがより堅牢になりました。

開発の経緯:

過去2ヶ月の間、4090 GPUを用いて、IRIS XLの開発を繰り返し行い、テスト・洗練・学習を重ねてきました。多くの労力を要しましたが、完成した結果にはとても満足しています。💪

早期アクセス:

これは大規模なプロジェクトであり、多くのテストを伴ったため、2週間の早期アクセスを開放します。バズを持っていないけれど、ぜひ試してみたい方は、DMを送ってください。喜んでアクセスを許可します。😊

次のステップ?

これは主に試験的な取り組みです。データセットを10倍に拡大して同じ手法を再現したいと思っていますが、残念ながらH100クラスタは手元にありません。そのため、ゆっくりと着実に拡張していきます :)

このモデルで生成された画像

画像が見つかりません。