ReDefine-Experimental

詳細

ファイルをダウンロード

モデル説明

注:「実験的」は実験的という意味です。

ver.0.31

ベースモデルは、純粋なNAI2からマージモデルに変更されました。NAI2のプロンプトへの反応挙動は、一般的なSD1.5モデルとは非常に異なります。これによりその差は多少縮まり、以前のモデルでは困難だったプロンプトの処理も可能になりました。ただし、完全に扱いにくいプロンプトも存在するため、万能なモデルではありません。

●サンプラ

Euler aをお勧めしますが、一部のサンプル画像ではRestart.labサンプラを使用しています。当初、Blackwell用のA1111ではKohaku_lonyu_yogが使えなかったため、これを採用しました。これはステップの途中でノイズを追加して再処理するタイプのサンプラで、まずt2iで通常にレンダリングし、その後i2iで途中から生成を繰り返します。これは画像を無条件に改善するものではありませんが、リスタート条件を自由に設定できるため、導入する価値があります。また、Restart.labサンプラでは、Euler aやKohaku_Lonyu_Yogなどのアルゴリズムでリスタートを設定できます。

https://yukitoki.blogspot.com/2023/12/webui-1111restartlabstable-diffusion.html

●出力解像度

今回は、低解像度の512x768ドットのみに戻りました。これは出力が速く、欠陥が見つけやすいからです。そもそもReDefシリーズが目指す高解像度とは、データの定義に関係しており、単に大きな画像を出力することを目的としていたわけではありません。より詳細な情報を含むことを意図していました。大きな画像を選択すると、おそらく大多数を占める512x512ドットの学習内容を活用できず、構図がしばしば著しく制限されます。NAI2シリーズでは1024ドットが出力例として使われていましたが、これは実用的ではないため、今後は廃止します。

●品質プロンプト

代替手段がないため、NAI2のサンプルに基づいてサンプル画像生成に品質プロンプトを使用しています。ただし、これにより画像が破綻することがあります。複数の人々にとってプロンプトが効果的でない場合などは、品質プロンプトを調整してください。画像が著しく破綻する場合は、品質プロンプトを弱めることで問題が解決することがよくあります。

ver.0.3(NAI2ベース)

ReDefシリーズの3番目として、さまざまなプロトタイプを作成してきましたが、リリース直前までバージョンを変更し、方向性を変えて再スタートする状態が続きました。今回はNovelAI ver.2をベースとしています。ckptにはNAI2のみを使用しています。

すべてのサンプルは1024x1536ピクセル(非HiRes.Fix)、Euler aで20ステップ出力、CFGスケールは7です。

ReDefシリーズは当初、高解像度出力を目的としていました。追加データに使用するLoRAは最大約1280ドットのサイズで作成されているため、以前のモデルは最大約640x960まで対応できました。ベースモデルが1024x1536をサポートしていなかったため、はるかに多くのデータを準備する必要がありました。

NAI2が1024ドットをベースとしているため、今回はNAI2のみで試しました。現在の完成度はそれほど高くなく、データ量もまだ不足しています。それでも、ベースモデルとして使用できることは確認できました。

問題点:

  • LCMでは正しく確認できない
  • 品質プロンプトが必須

個人的には好きではありませんが、一般的には多くの人が問題を感じることはないでしょう(NAI2のサンプルを参考にしましたが、詳細はサンプル画像をご覧ください)。

NAI2ではプロンプト忠実度が低かったです。今後は既存モデルとのマージをベースにすることが必要になります。指や体の安定性は永遠の課題です。


ver.0.21SR

これはver.0.2のバージョンで、一般的に使用され(ある程度効果のある)プロンプトといわゆるネガティブ埋め込み(TI)をモデルにマージしたものです(両方とも同じ処理を行います)。

・プロンプトマージ

プロンプトをTIに変換し、モデルにマージします。今回はポジティブプロンプトのみを含んでいますが、ネガティブプロンプトも同様に処理可能です。装飾的な品質プロンプトを多用する人にとってはあまり意味がありませんが、シンプルなプロンプトの表現をより現実的にする効果があります。

・ネガティブ埋め込みマージ

TIの使用は常にプラスの効果をもたらすわけではありませんが、ここでは比較的無害なFastNegativeV2を導入しました。BadHandやUnrealDreamなども試しましたが、個人的にはそれほど効果的ではなかったと感じました。

これらにより体の安定性はわずかに改善され、指の改善は控えめでしたが、ときには明確に美しい手が生成されました。大きな顔は改善されましたが、中距離以降の表情は以前と変わらないか、やや悪化し、プロンプト忠実度はわずかに低下しました。全体的にはより安定した画像が生成されましたが、立ち止まったような退屈な画像が増える傾向がありました。

今回は±1.0でのみマージしましたが、いくつか調整すればより効果的に使用できる可能性があります。プロンプトの焼き込みは、LECOやiLECOによるコンセプト強調よりもはるかに強く感じられます(コンセプト消去は検証されていません)。今後、この方法をコンセプトベースのLoRAグループに置き換えることを検討しています。

前のサンプル画像と同様に、LCM LoRAを使用した7ステップの低解像度出力を利用しています。


ver.0.2SR

これは半現実的なテストモデルです。ver.0.1とは異なり、複数のモデルをマージして構成されています。多くのコンポーネントはver.0.1と同じですが、構造はよりシンプルです。新たに追加された要素のうち、実際に検証されているのは一つだけです。二つの新素材は期待された効果が得られなかったため採用しませんでした。再調整します。

出力は前バージョンと同様、LCM LoRAを用いた7ステップ(または8ステップ)の低解像度です。体構造、指、中距離の顔はver.0.1よりも不安定です。また、不要なNSFW要素がより頻繁に現れることがあります。いくつかの調整ミスがありますが、これは実写の体構造強化素材の増加によるものです。服装用の全身素材が過少です。


ver.0.1

これは最近、私が試行錯誤してきたモデルの例です。

すべてのサンプルはLCMによる7ステップの低解像度出力です。

SD1.5の開発をまだ続けているのかと疑問に思うかもしれませんが、私はまだ新しい発見を続けています。形式には制限がありますが、可能性は引き続き広がっています。

しかし、要素レベルまで進んでも、マージだけでは限界があり、完全なファインチューニングは費用が高く、何より夏です。したがって、今回の実験の目的は、LoRAによる追加学習を通じて、SD1.5の人体構造を再定義することです。

今回のモデルは、私が作成したLoRAのテストプロセスを示したものであり、最終形ではありません。テストはRM01ほかのモデルを基に実施し、新しいLoRAの効果を確認しました。

LoRA以外では、このテストのテーマの一つである「かわいくする」効果を除き、顔や全体の色調にはほとんど調整を加えていません。背景が予想外にずれていたため、少しだけBGEnhaceを追加しました。その他は、RM01の画像をアニメ風に変換するために補助LoRAを使用しただけです。

体構造は時々著しく崩れることがあります。このプロジェクトの主な焦点は指の改善でしたが、困難な角度を積極的に学習したことによる否定的影響もあります。学習素材がまだ十分でないようです。

男性が全く現れないわけではありませんが、期待されるような表示はされません。風景や他のシーンであっても、女性のみが現れます。

今回は約4,000枚の画像を使用しました。完全なファインチューニングと比べれば画像数は少ないですが、多くの表示要素が新たな学習内容です。これは「訓練済みモデル」と呼べるため、そのカテゴリに登録しました。また、EtudeFTなど他のツールで収集した数万枚の画像を分類し、LoRAに変換・調整・ベースモデルに統合する予定です。今回は汎用的なRM01をベースモデルとして使用しましたが、アニメ画や写真など、目的別に適したベースモデルのプロトタイプも作成しています。

多くのLoRAはDoLAs(LyCORIS)として作成されていますが、今回はLyCORISを正確にマージする方法に苦労しました。結局、11回に分けてマージし、似たような結果を得ました。マージが多いため、画像の細部に劣化が生じています。

このモデルで生成された画像

画像が見つかりません。