BohoTI
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これは、konyconi氏のBohoAI LORAの雰囲気を再現できるTI埋め込みを構築できるかどうかを検証する実験です。
素晴らしいBohoAI LORAを共有してくださった@konyconi氏に感謝します。
/model/52697/tutorial-konyconi-style-lora
このデモでは2つのモデルを使用しています:
revAnimated_v122.safetensors [4199bcdd14] かつ clip skip = 2
avalonTruvision_v2.safetensors [a4df55d292] かつ clip skip = 1
このTIはまあまあ良いBoho風の画像を生成できますが、ときに混乱することも…たとえば「宇宙船」と依頼しても「トラック」が出てくることがあります。おそらくこのようなTIにおいては、より多くの画像と多様な主題を含める必要があるのかもしれません?
---------------------------
更新:2023年5月9日
さらにトレーニングを4000ステップまで、その後5000ステップまで進めた。
kcboho07-4000はより強力なBohoスタイルを生成します。
kcboho07-5000はさらに強力ですが、重複/反復が増加しています。たとえば指が多すぎる、手が多すぎる、空中に浮かぶ複数の都市など。
6000ステップまで試しましたが、状態が更に悪化しており、過剰に焼きすぎたような結果になりました。
この実験ではおそらく最良の結果とされる4000ステップ版をアップロードしました。
また、慎重なオブジェクトプロンプトを使用すれば良い結果が得られるため、5000ステップ版もアップロードしました。
---------------------------
私はどうやってスタイル用TIを作成すべきかについて、ずっと迷っていました…
どのような学習データセットが適しているでしょうか?
automatic1111ではどのようなトレーニング設定を使うべきでしょうか?
どのくらいトレーニングを続けるべきでしょうか?
私の学習データセットは、konyconi氏の76枚の1024x1024画像を、関連するTXTファイルを削除して新しいフォルダにコピーし、すべてを512x512に縮小しました。その後、「01 aeroplane.png」、「02 city.png」、「03 tank.png」などと名前を付け直しました。
なぜそうしたかというと、過去に作成した使用可能なTIと同様の方法を試みたかったためです。下記の設定で使用したのは、この縮小画像データセットフォルダです。
automatic1111のTextual Inversionに関するウィキページはこちらです:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Textual-Inversion
しかし、非常に古くなっています。最終更新は1月5日、私がこの文章を書いているのは5月8日です。
このスレッドの一部は役立ちました。とても長い記事ですが。
https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/1528
トレーニングモデル: v1-5-pruned.ckpt [e1441589a6]
ここでは特に他に適したモデルを知らなかったため、これまで有用だったこのモデルを使用しました。トレーニングには別のモデルを使うべきでしょうか?それともベースのSD15が最適でしょうか?わかりません。
埋め込み作成:
名前:kcboho07
初期化テキスト:boho style photo
トークンあたりのベクトル数:4
埋め込みトレーニング:
埋め込み名:kcboho07
埋め込み学習率:0.001:250, 0.0005:500, 0.00075:1000, 0.001
勾配クリッピング:無効
バッチサイズ:1
データセットディレクトリ:コンピュータ上に配置した場所
ログディレクトリ:textual_inversion
プロンプトテンプレート:minimum_style_2.txt
テンプレートは3行です:
<<<
[name] style, [filewords]
[name] style, a photo of [filewords]
[name] style, an illustration of [filewords]
幅 = 高さ = 512
画像のリサイズを無効にする:OFF
最大ステップ数:3000
画像保存ステップ数:25
埋め込み保存ステップ数:25
PNGアルファチャンネルの使用:OFF
埋め込みをPNGチャンクに含めて保存:ON
txt2imgタブのパラメータを読み込む:OFF
タグのシャッフル:OFF
タグをドロップ:0
潜在空間サンプリング方法:決定論的
トレーニング時間:2060/6GBのGPUでは、1000ステップあたり約50分。
3000ステップでのTIはBohoスタイルを生成していますが、BohoAI LORAと比べると、結果がイマイチなときもあると感じます。
もし私が何か間違っていると思われる点があれば、コメントで教えていただけると助かります。あるいは、明らかに馬鹿げたことをしているかもしれませんので、ご指摘ください! :-)




















