ThinkDiffusionXL

詳細

ファイルをダウンロード

モデル説明

ThinkDiffusionXL (TDXL)

ThinkDiffusionXLは、写真のようにリアルな画像を生成できるだけでなく、さまざまなスタイルや被写体に対して高品質な画像を生成でき、プロンプトの達人でなくても使える、まさに究極のモデルを構築するという私たちの目標の成果です。

ThinkDiffusion で事前ロード済みでご利用いただけます。

モデルについて詳しく読むにはこちら

ご満足いただけましたら、ぜひレビューをお願いします。これにより、さらに多くの改善と新規開発を進めることができます。

作品の概要

  • データソース: TDXLは、写真的リアリズム、デジタルアート、アニメなど多様な10,000枚以上の画像で学習されています。データセットの最小解像度は1365x2048ですが、多くの画像は最大4622x6753の解像度に及びます。合計でデータセットは42GBの容量を占めます。

  • 学習: 180万ステップの学習を実施しました。比較として、Juggernautは60万ステップ、RealVisXLは34.8万ステップです。

  • 手動でキャプション付けされた画像: 各画像は丁寧に手動でキャプション付けされ、最小限のプロンプトでも正確で高品質な結果を生成する能力を向上させています。

  • NSFW機能: モデルには、1,000枚以上、丁寧に選定されたNSFW画像が含まれています。

私たちの考え

  • 詳細と品質: 実写系のほとんどのXLモデルは、背景や目、歯、肌などの基本的な特徴において、細部の品質が劣る傾向があります。私たちは、TDXLが大規模で高品質なデータセットにより、これらの分野で優れた性能を発揮すると考えています。比較として、Juggernautの画像データ量は約半分、RealVisXLはわずか1,700枚です。結局のところ、TDXLははるかに「知識」を豊富に備えています。

  • バイアスの低減: 私たちは、各スタイルや性別などについて、同等の画像数を使用するよう心がけました。過去数か月でテストした他のモデルは、いずれも何らかのバイアスを持っていたため、たとえばポートレート撮影への偏り、性別バイアス、特定の民族への偏りなどがありました。例えば、Juggernautはクローズアップ領域でバイアスが強く、シネマティックな照明が支配的です。RealVisXLもポートレート撮影に偏っています。一方で、TDXLはあなたが望むものをそのまま提供します:風景、ミッドショット、全身、クローズアップ、ポートレート、サイドビュー、バックビュー、アクションショット、シネマティック… どこか特定の方向に偏ることなく、あなたの意図を忠実に反映します。

  • 汎用的なベース: 大規模でバランスの取れた高品質なデータセットにより、TDXLは今後の学習のための汎用的なベースモデルとして機能します。まったく異なる方向性のファインチューニングを構築したり、抜けている概念を補完するためにLoRAを追加したり、よりバランスの取れた高品質なデータで追加学習したりすることが可能です。

このモデルで生成された画像

画像が見つかりません。