Proteus

詳細

ファイルをダウンロード

モデル説明

Proteus v0.6

Proteus v0.6をご紹介します。これは、私のAI画像生成モデルの完全な再構築版です。これは再設計の最初のバージョンで、フォトリアリスティックな表現の向上に焦点を当てています。最新の水準を目指すものではありませんが、高品質な画像を生成する上で良い一歩になると信じています。このバージョンは予備版であり、最終的な完全機能チェックポイントではありません。今後のアップデートでさらに改善と新機能が追加される予定です。

概要

Proteus v0.6は、基礎から完全に再構築されたモデルです。以前のバージョンでは、異なる訓練手法や学習率を組み合わせた結果、大規模な訓練中にモデルが不安定になる問題が発生していました。これらの経験から学び、今回はProteusデータセットのフォトリアリスティックな要素のみを使用してモデルを再学習しました。

現在、この新しい訓練手法をマルチ・パースペクティブ・フュージョンと呼んでいます。

マルチ・パースペクティブ・フュージョン

この手法では以下のステップを実施しています:

  • 複数のLoRAおよびフルパラメータチェックポイントの訓練:同じデータセットに対して、複数回にわたって複数のローランク適応(LoRA)モジュールとフルパラメータチェックポイントを訓練し、データの異なる「視点」を捉えます。

  • 包括的なフレームワークへの統合:これらの多様なモデルをより大きなフレームワーク内に統合し、全体的な性能を向上させます。

この手法は、高度な訓練技法を探求するデータサイエンティストにとって興味深いものとなることを期待しています。

v0.6の主な改善点

  • 完全な再構築:以前の問題を解決するために、すべてをゼロから構築しました。

  • フォトリアリスムの強化:高品質なフォトリアリスティック画像の生成に集中しました。

  • 安定した訓練プロセス:大規模訓練中のモデルの崩壊を防ぐために訓練手法を洗練しました。

  • 予備版:これは再設計の初回版です。今後のリリースでさらに多くの機能と改善が予定されています。

制限事項

  • イラストやアニメの生成不可:現在、モデルはフォトリアリスティックなデータのみで訓練されているため、イラストやアニメスタイルの画像を生成できません。

  • 最新水準ではない:モデルの性能は良好ですが、最新水準であるとは主張していません。あくまで良い出発点です。

  • 進行中の作業:これは最終版ではなく、完全な機能を備えたチェックポイントではありません。今後のアップデートが予定されています。

使用方法

推奨設定

  • Clip Skip:1

  • CFG Scale:7

  • ステップ数:25 - 50

  • サンプラー:DPM++ 2M SDE

  • スケジューラ:Karras

  • 解像度:1024x1024

v0.6以前のバージョン

Proteusの背景

ProteusはOpenDalleV1.1の高度な強化版であり、そのコア機能を活用してより優れた成果を提供します。主な進歩としては、プロンプトへの応答性の向上と創造力の増強が挙げられます。これを実現するため、著作権フリーのストック画像から約22万枚のGPTVキャプション付き画像(一部アニメを含む)を使用して微調整を行い、それらを正規化しました。さらに、1万組の厳選された高品質AI生成画像ペアを用いてDPO(直接偏好最適化)を適用しました。最適な性能を追求するため、複数のLoRA(ローランク適応)モデルを独立して訓練し、動的適用手法を通じて主要モデルに選択的に組み込みました。これらの手法では、学習中にモデルの特定の部分に対してのみ対象を絞り、他の領域との干渉を回避しています。その結果、Proteusは複雑な顔の特徴や生々しい肌の質感を劇的に改善し、同時にシュルレアリズム、アニメ、カートゥーンスタイルなどの多様な美的領域においても優れた性能を維持しています。

このモデルで生成された画像

画像が見つかりません。