Humans

詳細

ファイルをダウンロード

モデル説明

このモデルは、一般の人々の写真のようにリアルな画像を生成することを目的としています。ほとんどのSDモデルは美しい人物しか生成できませんが、これはそれとは異なります。にきび、ほくろ、ぐしゃぐしゃした髪、歯の不規則さ、しわ、そしてまさに「普通の人々」が得られます。

簡潔版:

数千ものトリガー語句が、https://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d で見つけることができます。頻度順に並べ替えたリストは、https://gist.github.com/jaretburkett/41370fdf69b791d2b406f3fa538d4b32 を参照してください。最も重要な語句は「face」です。データセットの大部分には顔が含まれており、それらはすべて「face」でラベル付けされています。顔のアップショットを得るにはこの語句を使う必要があります。使わないと、遠くからのショット、通常はポートレートだけが生成されます。このモデルは、通常のSDモデルが扱える以上のシンプルなプロンプトから複雑なプロンプトまで、優れた結果を出力します。同じプロンプトでも、シードごとに多様な人物を生成します。[328, 512, 640, 768, 896] のバケットサイズとさまざまなアスペクト比で学習されており、ハイレゾ修正なしでこれらのサイズの画像を生成できます。

詳細版:

データセット: このデータセットの構築は約10年間続けてきました。現在約10万枚(増え続けています)の注意深く選別・バランスよくラベル付けされた画像を収集し、生成AIモデルに存在するバイアスを排除することを目的としています。これまでに私が開発したさまざまな製品のため、長年にわたりデータセットを構築・追加してきました。その結果、Stable Diffusionにこのデータセットを適用してみることにしました。データセットは主に普通の人々を含んでいますが、美しい人物も一部含まれています。可能な限り一般人口とバランスを取ることを心がけており、このモデルが生成する画像からもそれが明らかだと思います。データセットには多くの顔が含まれており、それらは「face」というキーワードでラベル付けされ、顔のアップショットをトリガーするかどうかを制御するのに役立ちます。データセットの約半分は顔のみの画像であり、バージョン2ではより多くのポートレート、顔のアップ、全身ショットを追加してバランスを改善する予定です。

ラベル付け: ラベル付けは長年にわたり一部手動で行いましたが、最近は主にBLIP2を使用しています。標準的なBLIP2のキャプションに加えて、人物写真用に独自のキーワードリストを作成し、タグ付けライブラリで活用しています。このキーワードリストはhttps://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d で確認できます。これは主にGPT-4の助けを借りて作成したもので、バージョン2では手動で精査・改善する予定です。また、近々タグ付けコードを公開する予定ですが、カスタムインタロゲーターに慣れている方なら、すぐに活用できるかもしれません。ラベル付けの主な目的は、人物を徹底的に詳細に記述することです。ほとんどのSDモデルは「年齢」「性別」「髪の色」「人種」程度の簡単な情報しか記述しません。私は鼻の形、頬骨の深さ、肌の色、出自、目の形、ヘアスタイル、そして非常に繊細な特徴まで、より具体的に記述できるようにしました。これまでの結果には非常に満足しています。このモデルは人間の顔の繊細な細部を理解できるようになっています。これは埋め込み(テキストの逆転)の作成を支援します。モデルは顔のユニークな特徴をどのように生成すべきかを知っており、それらを埋め込みによってトリガーするだけでよいのです。

次に何を行うか: これはバージョン1であり、実質的にアルファ版です。まだ開発を続けており、バージョン2は驚異的なものになると確信しています。現在、訓練を継続し、データセットを改善しています。現時点ではいくつかの詳細に不完全さがあり、目や歯が意図せず不自然になることがあります。この問題を修正するためには時間がかかりますが、その改善と、普通の人々の画像タイプの多様性をさらに増やす予定です。

現在のLoRAや埋め込みについて: はい…「美しい人物」専用のLoRAや埋め込みは、美しい人物しか生成できないモデルで訓練されたものなので、ここでは同じようには機能しません。意図した被写体ではなく、その遠い親戚の写真が生成される可能性が高いです。それでも、試してみると面白いですよ。

このモデルで生成された画像

画像が見つかりません。