Classic Negative (SD 2.1 768px)

詳細

モデル説明

2月2日, 2023

クラシックネガティブ(SD 2.1 768px v0.2)

ついに、SD 2.1 768px用のオリジナルのクラシックネガティブモデルの改善版をトレーニングすることができました。

改善の多くは、より良いかつ正確なキャプション、さらには多様性の高いデータセットによるものです。また、オリジナル版で生成した画像もトレーニングに一部使用しました。

デフォルトの2.1モデル、v0.1、v0.2の比較をいくつか添付しました。デフォルトモデルと比較して、照明が大幅に向上し、より心地よい色調、より良い背景ぼかし(被写界深度)と構図が実現されています。v0.1と比較しても、滑らかな背景ぼかしの過渡的表現がさらに改善され、やや現実感のある画像が生成されるようになっています。色調も、当初の意図に近づいています。

1月15日, 2023

- 更新情報 -

何度も失敗を経て、ようやく、1.5版クラシックネガティブモデルで使用した同じデータセットをもとに、動作可能な2.1版をトレーニングすることができました。より多様な画像セットを示したいところですが、忙しくて、次々とかわいらしい動物の画像しか作れません。

  • 2:3 の縦横比の画像の場合は、1152x768px が非常に効果的です

  • 21:9 の縦横比の画像の場合は、1344x576px が非常に効果的です

モデルと同じフォルダにconfigファイルを配置し、ファイル名が完全に一致していることを確認してください。

1月13日, 2023

- 初期投稿 -

まず断っておきますが、自分でも何をやっているのかまったくわかりません。また、これは決して完全あるいは完璧なモデルではありません。しかし、何度も試行錯誤の末、みなさんにいくつかの画像と早期バージョンをお試しいただける状態にまで到達しました。

クラシックネガティブ(SD 1.5)

クラシックネガティブは、DreamBoothを使って、私の写真スタイルをできるだけ正確に再現するモデルをトレーニングしたものです。名前の由来は富士フイルムカメラに内蔵されているカメラプロファイル「クラシックネガティブ」です。私は基本的にすべての写真でこのプロファイルの改良版を使用しています。私のスタイルを再現するためには、以下の特性が求められます:

  • クラシックネガティブの色プロファイルを再現:マットで色調が低めの緑

  • 退色した黒と拡散したハイライトを導入(Tiffen Glimmerglassフィルターのように)

  • 大口径レンズで得られるような自然な背景ぼかし効果を安定して生成

  • デフォルトモデルの構図を改善(前景・背景のオブジェクト、構図、視点)

  • デフォルトモデルの照明を改善

  • グレインを追加し、できればややビネット効果を付加

  • 35mmフィルム写真の古き良き風合いを再現することを試みる

トレーニング

トレーニングには、私の個人的な写真100枚を使用しました。主に環境ポートレート、犬の写真、いくつかのマクロ写真、そして風景写真で構成されています。モデルは森や庭の写真にやや偏っている可能性があります。なぜなら、私が撮影した写真の大部分がそれらのテーマだったからです。生成された画像の一部では、家の中庭の一般的な構造がはっきりと識別できるほど、過学習の兆候があるように見えます。

すべての画像について、手動でキャプションを記述しました。それほど複雑なものではありません。たとえば:https://i.imgur.com/prf8VxS.png

学習率 1e-5 で1800ステップ、テキストエンコーダー350ステップを使用し、TheLastBen氏のFast DreamBooth ipynbを用いてトレーニングしました。

プロンプトとパラメータ

これまで試したプロンプトは非常にシンプルです。活性化トークンは「classicnegative」です。

- classicnegative 花壇の灌木の間で座っているかわいらしいリスの写真、紫のチューリップの花

- classicnegative ジungleの枝に座っている小さな赤いパンダの写真

- classicnegative 神々しいライトで照らされた庭に立つ白いふわふわのウサギの写真、冬、大量の雪、雪flake

パラメータ: Euler A、CFG Scale 7、30ステップ、860x360px

その後、シード探索を行いました。4枚のバッチでは、これまで少なくとも1枚は使用可能な画像が生成されてきました。良い画像が生成された場合は、同じシードを設定して、Hires. fixを有効にして再実行しました(私のGTX 1070では1枚あたり約3.5分かかります)。

Hires. fixパラメータ: ESRGAN_4x、30ステップ、0.3のノイズ除去、2倍アップスケーリング

この設定は偶然発見しましたが、この設定を使用すると、画像の質はまったく変化せず、フィルム写真特有のグレインなどの特徴もアップスケーリング中に失われません。

モデルの効果が強すぎる場合は、プロンプトに「sharp focus」「high contrast」「clarity」などのトークンを追加するか、後処理でコントラストを調整してください。とはいえ、たまにやや強すぎるケースも出てくるので、今後のリビジョンで調整が必要になるかもしれません。

今後の予定

  • より多くのテストが必要(異なるパラメータ、異なる被写体)

  • SD2.1 768px版の作成

  • ファインチューニング

どうぞモデルを使ってみてください。制限を試し、より良いバージョンを作るためのアドバイスがあれば、ぜひ教えてください!

このモデルで生成された画像

画像が見つかりません。