SD3 - Anime Consistency Experiment - v0.3

詳細

ファイルをダウンロード

モデル説明

V0.4:

事前学習フェーズ:

まずいくつかのステップを完了させる必要がある。

  1. コラボレーション用のJupyterノートブックの設定を完了し、より小さな半SFWトレーニングデータでコラボレーションテストを実行する。

    1. システムが衣類や裸体の状態で正しくポーズを取れるようになるまで、セックスや関連行為を導入するつもりはない。

    2. 全てのポーズタグセットは、ヌードとクラッデッド両方の画像と相互に結びついている。データセットの区別は、このモデル専用の独自タグで行う。今後行うコラボレーションベースのトレーニングは、半SFW(衣類を着た)要素のみに限定する。Googleが私の画像セットに明らかな性的NSFW要素が含まれていることを理由に、コラボレーションシステムを使用して計算設定やシステムをテスト中にアカウントを停止しないようにしたい。

  2. 主要なポーズ画像を選定:約1,215枚の~pose画像

    1. パースペクティブ:各オブジェクトの偏差について70枚

      1. 対象の胴体角度:3 × 5

        1. 前方から

        2. 側面から

        3. 後方から

      2. 原点角度:3 × 5

        1. 前面ビュー

        2. 上方ビュー

        3. 下方ビュー

      3. 対象の頭部角度:3 × 5

        1. 視聴者を向く、前を向く
    2. 人間のフォーム関連

      1. 胴体:

        1. 立位(垂直上部):

          1. 座る:←常に臀部で座っていることを前提とする

          2. プレーン関連:

            1. 表面に座る

            2. テーブルに座る

            3. 椅子に座る

            4. ソファーに座る

            5. 床に座る

            6. ベッドに座る

        2. 横たわる(水平上部):

          1. お腹を下にして横たわる

          2. 背中を下にして横たわる

          3. 横向きに横たわる

          4. プレーン関連:

            1. 床に横たわる

            2. テーブルに横たわる

            3. 椅子に横たわる

            4. ベッドに横たわる

            5. ソファーに横たわる

            6. 草の上に横たわる <<<<<<<<

      2. 腕関連:

        1. 上腕

        2. 下腕

      3. 手の関連:

        1. 振る

        2. Vサイン

      4. 脚関連(太もも、足首、足):

        1. 脚を閉じる(全脚):

          1. 太ももを合わせる

          2. 膝を合わせる

          3. 足を合わせる

        2. 脚を広げる(全脚):

          1. 太ももを広げる

          2. 膝を広げる

          3. 足を広げる

        3. 足を合わせる:

        4. 脚を組む(太ももが部分的に隠れる):

        5. 足首を組む(足首が部分的に隠れる):

        6. 脚を上げる(全脚):

        7. 脚を下げる(全脚):

        8. 脚を大きく広げる(全脚):

      5. フォームポーズ:すべてのポーズに、ユーティリティと必要性に基づいてタグオブジェクト関連を結びつける。

        1. 横たわる

        2. 座る

        3. しゃがむ

        4. 片膝をついて座る

        5. 四つん這い

    3. 成果物は以下のようになること:

      1. ソファーに座り、脚を組んでポテトチップスを食べている、正面から見た背筋の伸びた女性。
    4. この1,000枚の最高品質ポーズ画像が、完全な出力画像の基礎となる。各ポーズは5段階の品質勾配に焼き込まれ、一意な非均一背景に重ね合わせられる。

    5. グラデーション、多色、多形状、個別形状、パネル、およびいくつかのDanbooru画像効果背景。

    6. 各背景には、NAIのディレクターツールによる色変換とデフライ機能によって、影要素と空間形状がランダムに導入される。品質ごとに1つの背景が適用される。

    7. これにより背景が区別され、SD3内にすでに存在する要素をモデルが学習するための「抓住ポイント」が増加する。適切にタグづけすれば、否定プロンプトの一貫性が向上するはず。

  3. 状況とコンテキストのアンカー:約1,000枚の画像を、Eulerサンプラーを使用して直接raw出力推論

    1. 各アンカーは、モデルが知りたい内容と、既に知っている内容をリンクさせることを目的とする。これにより、多数の画像を用意しなくても、「存在するもの」と「存在してほしいもの」を関連付けることができる。ただし、各バージョン生成時にこれらの画像の新たなバッチを生成しなければ、成果は劣化する。

    2. より小さなサブセットの画像を構築する。現時点では必要な枚数は明確ではないが、推論の結果を用いて手動で生成する必要があるため、比較的迅速に生成可能と見込んでいる。

    3. コンテキストあたり約10枚程度で十分。複数コンテキストは少し難しいが、対応可能。100個の単一タグコンテキスト(追加要素なし)があれば、SD3に新しい要素を十分に追加できるはず。

V0.3:

リリース:

TLDR: ステップ:50、サイズ:1024x1024、サンプラー:euler、CFGリスケール:0.4-0.8、構成文字列:9、

LoRA強度:0.5-0.8

導入:

V0.2と比較して、成果ははるかに正確でシャープかつパワフルであった。トレーニングと進歩の成功が、私に行動を迫った。たった150枚程度のアニメ一貫性画像セットでも、私の4090でSuperTunerを使用してトレーニングするのは遅すぎた。より大きなモデルの画像数を私のPCでトレーニングするには指数的に時間がかかるため、昨日Jupyterノートブックをセットアップし、A100やH100を搭載したより強力なクラウドサービス上でSuperTunerを実行し、45,000枚のポーズ画像と1,500枚のコアバーン特性画像を比較的短い時間で完了させることを目指している。真のバージョン1.0のリリース時に、完全な画像データセットとタグ付けを公開する予定である。正確に仕上げるには複数回の再トレーニングが必要になると予想されるため、費用は高額になるだろうが、今回の小規模成果から判断して、その価値は十分にあると考えている。

発見:

  • SD3には明確なセンサー点がある。センサー点はタグの完全な除去ではなく、タグの不安定性として現れる。一貫性を達成するためには、不安定なタグを完全に消去し、再トレーニングする必要がある。大規模モデルのトレーニングでは、これらのタグを破壊せよ。正しく焼き込み、再トレーニングしなければならない。これらの行動を完全に「忘れる」には、その行動に対する完全な再トレーニングが必要である。私は鳥用LoRAを作成する際に使用したのと同様のLoRA重み付けシステムを使用しており、それは画像トレーニングとディテールを全く破壊した。私はすでに皆に警告していたが、その明確な証拠がSD3に現れた!

  • タグ付けは非常に非常に重要である。ポーズ、角度、オフセット、そして特にカメラの位置が極めて重要である。カウボーイショットが他のタグによって破壊され、ポートレートが他のタグと混ざるなど、多くの問題が存在する。しかし、多少の努力を払えば、短期間で完全に解決可能であるはずだ!

  • より多くの画像データ、より多くの画像情報、および低パワーのトレーニングシーケンスが必要である。トレーニングのルート、パターン、そして特定の構成は、コアモデルを破壊せずにこれをトレーニングするために極めて重要である!

  • SD3は裸体を衣類のように扱っているようだ。すべてが皮膚の上に被せる別のレイヤーのように感じられ、皮膚とは何かを学習する必要がある。

  • 手は正に最悪だ。デフォルトでなぜこれほど酷いのか理解できないが、非常に酷い。LoRAファインチューニングは手の問題の大部分を修復する一方で、新たな手の問題を生み出している。ベースモデルとして、これは決して良い状態ではない。誰かがHAGRIDを使わなかったのだろう。

  • SD3では、LoRAの有無に関わらず、否定プロンプトが時々ほとんど効果がない。結果は同じであり、否定プロンプトを完全に無視するか、否定プロンプトが肯定プロンプトと逆に作用し、予期せず深刻な損傷を引き起こす。

  • 重みが正しく重み付けされていない。デフォルトの応答に多数の互換性のない重みがトレーニングされており、画像の重ね合わせ、テクスチャの破壊、重複問題、明らかにセンサーで破壊された形状などを引き起こしている。この問題を解決する方法を特定する必要がある。おそらくモデル全体の重みを再スケールする必要がある。何らかの理由で、コアモデル全体を3~4倍シフトする必要があるようだ。現時点では正確な意味はわかっていないが、このトピックを調査し、論文およびその後続論文に基づいて情報を追跡する。

成功:

  • スタイル適用。正しいポーズトレーニングを施せば、アニメスタイルをあらゆるコンセプトに重ね合わせることが可能であると、80%以上確信している。

  • 低強度は予想以上にダメージが小さい。このLoRAサイズは非常に小さいが、この小さなLoRAサイズで実験が成功したことは、私にとって最も興味深い側面の一つである。より大きなLoRAが一般的なシステムであり、Kohyaはよく大きなLoRAをリリースしていた。大量の画像情報を持つ場合には大きなLoRAが必要かもしれないが、私が使用した110枚のサブセットでは不要である。

  • 一部のNSFW要素が導入されたが、それらは依然として引き出されない。女性フォームの完全なNSFWサブセットを含める価値は十分にあり、その結果、一貫性のコア画像セット要件は約1,800枚以上になる可能性がある。

  • 複数のポーズ要素がタグプールに導入され、画像データのトレーニング量が少なくても、ポーズの単純かつ時として深層的な制御を可能にした。

失敗:

  • 身体の変形。ほぼ何の誘因もなく、身体がねじれ、変形し、不気味になる。変形させることは少し難しくなったが、現状ではフルポーズセットを導入するまで、この傾向は続く。適切に設定すれば、それなりの出力が得られ、設定が間違っていれば、試行錯誤するしかない。

  • 色の不正確さ。白い背景はかなり焼き込まれているが、否定することは可能である。ただし、V0.2でリリースしたComfyUIでは不可能だった。そのComfyUIは実験としては興味深かったが、目標に合っていなかったため、単一プロンプトに変更し、良好な結果を得た。

  • ブロッティングは、より良い下限を確立するまで不可能だろう。NovelAIは新しい色交換システムを導入しており、これはSD3トレーニングデータ作成にこの問題を軽減するのに役立つため、現時点では十分と見なせる。Latentsは現時点ではSD3と完全に互換性がないが、活用することは可能である。

  • 強度が高いほど、モデルはより損傷を受け、おそらくより低いトレーニング強度が必要で、詳細要素のファインチューニングに多くの時間をかけ、より重要なバーンマスキングとレイヤリングにはさらに強いトレーニング強度が必要である。

結論:

  • 80%の目標はまだ達成されていない。

  • この基本システムではいくつかの目標を達成したが、80%の比率を達成するには規模を拡大する必要がある。

  • テストと成果は、多くのタグで一貫性が25%未満で低下しているが、以前システムに存在しなかったいくつかのタグでは100%成功している。

  • 適切なアニメシステムを構築するには、標準的なDanbooru/Gelbooru/Sankaku/e621のカメラ比率タグを使用した、フルポーズシステム、比率システム、スクリーンアンカーロックポイントシステム、深度システム、回転システム、および関連カメラアクセスポイントを適用する必要がある。

明らかに破壊・検閲されたタグ:

これらのタグはすべて、事前に警告したのと同じLoRA検閲システムによって完全に破壊された。彼らは私の意見を無視して実行し、モデルを完全に台無しにした。誰もAIの学位を持たない人の言葉を聞かない。

  • 横たわる

    • 背中を下にして横たわる、横向きに横たわる、ベッドに横たわるなど、すべてトレーニング後に検閲されたように見える。かつて見たこともないほど過酷な方法で。検閲LoRAシステムを使用して、結果を単に押し込んだ。低空の電線が張られた狭い道路を18輪のトレーラーが爆走するように、システム全体を引き裂き、巻き添えになったすべての低空電線を破壊した。
  • しゃがむ

    • 他のタグよりはやや被害が軽いが、明らかに大きな損傷を受けている。このタグに関連するものは非常に当たり外れが多い。
    • 足をコントロールしようとすると、しばしば完全に分離し、不気味な足が現れる。足の位置はポーズと一緒に訓練する必要がある。最もよく見られるのは、余分な足、分離した足、余分な足、そして足がない状態である。

    • 実際の足よりも服を明確に定義する必要があることが多く、そのため「legs」タグを使うと不気味に感じられる。まるでパロディのようだが、本来「legs」タグはすべての足の基点となるべきである。これはきっと適当にやったのだと思われる。

  • 手臂

    • 通常、望む位置に腕が現れるのではなく、余分な腕が生成されてしまう。これは大量のデータが必要である。

    • ガンレットや手袋などを使用することで、より一貫した結果を得られることもある。

    • 彼らは明らかに、ここでの完全な腕制御を防ぐために腕を検閲したか、あるいは腕の訓練を十分に行っていなかった。どちらにせよ、足よりも修正が簡単なので、私はあまり気にしていない。

プレリリースのお知らせ:

初期システムを、はるかに低い学習率で完全に再学習中です。これにより、100エポックでの生成品質が向上する見込みです。数時間後にテスト用に準備が整います。ComfyUIの結果はあまり気に入らなかったので、後でよりシンプルなものを制作します。

V0.2:

このモデルを一晩放置したところ、シェフの選択はそれなりに良くなりました。信頼性は大幅に向上しているように見えますが、まだ完全に学習されていません。明らかに近づいてきています。ここには魔法はなく、ただの選別にすぎません。まだ完全には準備ができていませんが、目標に向けた可能性は十分に見えています。

推奨ステングス:0.5–1.0。0.6を超える場合は、白背景を無効化するためのプロンプトを追加し、キャラクターのシーンをより詳細に指定することを推奨します。

プロンプト:

シーンを記述してください、

女性の特徴を、danbooruタグで(このままではなく、一貫性のある実際のタグを使用してください)。

ネガティブプロンプト:

シンプルな背景、白背景、白なんとか

V0.1:

非常に低めの強度で実行することをお勧めします。

0.1–0.4 が最も効果的でした。

LCM サンプラーはこのモデルに非常に適しています。

Euler、DPM2、HEUNPP2、UniPC などを試してみてください。

EULER A、DPM2A、またはAncestralサンプラーは使用しないでください。

ComfyUIがテスト環境であるため、LoRAローダーを用意しておいてください。

このモデルは、以下のリリースされたトレーニングデータ画像とまったく同じものを使用しています:Consistency v1.1 LOHA SDXL

ただし/// タグをかなり厳しく検証しました。(booru)タグがSD3と関連付けられていない、または非常に緩くしか関連していないことを考慮し、単純なタグのみを使用すると有害になる可能性が高いと予測しました。タグ数を増やしても、単純な文では依然として効果が十分ではなかったため、情報を増やす必要性に対応するため、1500枚のConsistency v2ベース画像に加えて、約45,000枚のポーズベースの正規化画像セットを導入する計画です。

これは私が初めて試みるSD3 LoRAであり、初めてのトレーニングです。午後はSimpleTunerをWindows Docker上で動作させるために多くの時間を費やしました。SimpleTunerのドキュメントが不足しており、システムが複雑だったため簡単な作業ではありませんでしたが、結果として4090でトレーニングできるようになったので文句はありません。また、C++レベルのエラーに耐えられるなら、より柔軟なトレーニング環境を提供します。

発見と結果:

私の発見は…あまり良いものではありませんでした。そもそも動いたこと、しかも一貫した結果を生み出したことに驚いています。確かに遊ぶのは少し楽しいですし、NSFW要素もいくつかありますが、Autismバージョンほど顕著ではありません。中にはベースのSD3より控えめなものさえあり、興味深い結果でした。

LoRAのサイズは非常に小さく、テキストリファイナーは実際にテキストを生成したい場合を除いて必要ありません。

多くの欠陥があります。体が四肢を生成しないことがよくあります。手が表示されないこともしばしばです。特定の角度で足が変形したりねじれたりします。腕も歪んだりねじれたりしますが、通常よりは若干マシです。

多くの体の位置の欠陥を修正していますが、同時に新しい欠陥も生み出しています!明日、成功と失敗の完全なリストを作成します。

成功点:

現在のところ、低い強度のポーズ制御をある程度なら処理できるようです。壊れた四肢や押しつぶされた胴体を修復し、さらに新しい形の壊れた四肢や押しつぶされた胴体を導入しますが、多くの面でその度合いは抑えられています。

失敗点:

私は、このモデルが成功率80%を超えるとは正直信じていません。

一貫性の目標はこのレベルに到達することです。私は、この実験を成功とみなす前に、少なくともSD3の範囲内でこの80%を突破するつもりです。NAIに比べてはるかに劣り、PDXLやConsistency v1.1が出す結果とも比較になりません。さらに多くのステップとトレーニングが必要です。

このモデルで生成された画像

画像が見つかりません。