BohoTI

詳細

ファイルをダウンロード

モデル説明

これは、konyconi氏のBohoAI LORAの雰囲気を再現できるTI埋め込みを構築できるかどうかを検証する実験です。

/model/51966/bohoai

素晴らしいBohoAI LORAを共有してくださった@konyconi氏に感謝します。

/model/52697/tutorial-konyconi-style-lora

このデモでは2つのモデルを使用しています:

revAnimated_v122.safetensors [4199bcdd14] かつ clip skip = 2

avalonTruvision_v2.safetensors [a4df55d292] かつ clip skip = 1

このTIはまあまあ良いBoho風の画像を生成できますが、ときに混乱することも…たとえば「宇宙船」と依頼しても「トラック」が出てくることがあります。おそらくこのようなTIにおいては、より多くの画像と多様な主題を含める必要があるのかもしれません?

---------------------------

更新:2023年5月9日

さらにトレーニングを4000ステップまで、その後5000ステップまで進めた。

kcboho07-4000はより強力なBohoスタイルを生成します。

kcboho07-5000はさらに強力ですが、重複/反復が増加しています。たとえば指が多すぎる、手が多すぎる、空中に浮かぶ複数の都市など。

6000ステップまで試しましたが、状態が更に悪化しており、過剰に焼きすぎたような結果になりました。

この実験ではおそらく最良の結果とされる4000ステップ版をアップロードしました。

また、慎重なオブジェクトプロンプトを使用すれば良い結果が得られるため、5000ステップ版もアップロードしました。

---------------------------

私はどうやってスタイル用TIを作成すべきかについて、ずっと迷っていました…

どのような学習データセットが適しているでしょうか?

automatic1111ではどのようなトレーニング設定を使うべきでしょうか?

どのくらいトレーニングを続けるべきでしょうか?

私の学習データセットは、konyconi氏の76枚の1024x1024画像を、関連するTXTファイルを削除して新しいフォルダにコピーし、すべてを512x512に縮小しました。その後、「01 aeroplane.png」、「02 city.png」、「03 tank.png」などと名前を付け直しました。

なぜそうしたかというと、過去に作成した使用可能なTIと同様の方法を試みたかったためです。下記の設定で使用したのは、この縮小画像データセットフォルダです。

automatic1111のTextual Inversionに関するウィキページはこちらです:

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion

しかし、非常に古くなっています。最終更新は1月5日、私がこの文章を書いているのは5月8日です。

このスレッドの一部は役立ちました。とても長い記事ですが。

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/1528

トレーニングモデル: v1-5-pruned.ckpt [e1441589a6]

ここでは特に他に適したモデルを知らなかったため、これまで有用だったこのモデルを使用しました。トレーニングには別のモデルを使うべきでしょうか?それともベースのSD15が最適でしょうか?わかりません。

埋め込み作成:

名前:kcboho07

初期化テキスト:boho style photo

トークンあたりのベクトル数:4

埋め込みトレーニング:

埋め込み名:kcboho07

埋め込み学習率:0.001:250, 0.0005:500, 0.00075:1000, 0.001

勾配クリッピング:無効

バッチサイズ:1

データセットディレクトリ:コンピュータ上に配置した場所

ログディレクトリ:textual_inversion

プロンプトテンプレート:minimum_style_2.txt

テンプレートは3行です:

<<<

[name] style, [filewords]

[name] style, a photo of [filewords]

[name] style, an illustration of [filewords]

幅 = 高さ = 512

画像のリサイズを無効にする:OFF

最大ステップ数:3000

画像保存ステップ数:25

埋め込み保存ステップ数:25

PNGアルファチャンネルの使用:OFF

埋め込みをPNGチャンクに含めて保存:ON

txt2imgタブのパラメータを読み込む:OFF

タグのシャッフル:OFF

タグをドロップ:0

潜在空間サンプリング方法:決定論的

トレーニング時間:2060/6GBのGPUでは、1000ステップあたり約50分。

3000ステップでのTIはBohoスタイルを生成していますが、BohoAI LORAと比べると、結果がイマイチなときもあると感じます。

もし私が何か間違っていると思われる点があれば、コメントで教えていただけると助かります。あるいは、明らかに馬鹿げたことをしているかもしれませんので、ご指摘ください! :-)

このモデルで生成された画像

画像が見つかりません。