SDXL Sim UNET Experts [SFW/NSFW]
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
モデルが変化していく様子をご覧ください… ご希望の描写へと。
継続的な評価結果
BeatriXLはVPREDモデルです。非常に直接的で強力なVPREDモデルですが、前任モデルと比較してはるかに狭い視点を持っています。これは非常に強力で文字通りのバリエーションであり、実際の特徴変換からの重大なリファイットにほぼ匹敵します。あなたが望むことを実行しますが、望まない多くの結果も得られる可能性があります。
SimV4 epsilonは、私が実行したVPREDリファイットのほとんどより依然としてはるかに強力です。
SimV5の未リリースのepsilon版は、SimV4 epsilonの強力さに適合するよう、重度のファインチューニングを受ける予定ですが、その前にSD3.5のファインチューニングを終える必要があります。現在のところ、モデルをお楽しみください。SD3はしばらくかかる可能性があります。
12回の完全ファインチューニングモデルを経て、SimV4が他を圧倒していることが明らかになりました。全体として最も強力で実用的な構造を備えていますが、その代わりにやや柔軟性が低下しています。
SimNoobの脆弱性は、単純な英語のプレッシャーに耐えられず崩壊しますが、非常に優れています。間違いなくA評価の学生です。しかし、SimV3を優れたものとしていた多くの要素を失い、その行動は方向性のあるものではなく、より極端になりました。
可能性ではなく、絶対性の交響曲。混乱を無謀に描くのではなく、圧倒的で魅惑的な風景。純粋なノイズや絶対的混沌の可能性ではなく、認識可能な質と忠実性。
VPREDは優れていますが、過度に一つの極端な方向へとシフトするため、単体のモデルとしては評価しづらいです。
変換の過程で、元々それらを独自のモデルたらしめていた多くの要素を失ってしまいました。その意味で、以前と同じモデルではなくなっています。ただし、Epsilonに対するファインチューニングでも同様の結果が得られたでしょう。しかし、Epsilonに対する完全ファインチューニングが、これらのモデルにとって必ずしも良いとは限りません。
PonySim vpred V5 リリース
リアリズムがそれほど良くないという声が頻繁に上がっているため、後でリアリスティックなファインチューニングに集中します。現時点では、私にはそれなりに良さそうに見えます。
手の修正、問題の修正など、進捗中です。
アップロードするための完全な画像リストを用意していますので、お待ちください。すべてをページに掲載します。
現時点では、これらが成功例と失敗例の一部です。
PonySim vpred V5 リリース間近;
Hugging Faceで私をフォローしている方々は、すでにこのsafetensorsにアクセスできます。
まもなくここにテンソアをアップロードし、現在進行中の問題セクターの完全なバイオプシーを添付します。これらの問題は、多くの画像が本来より早くまたは遅く終了してしまう「安全な」および「中間ステップ」の問題に対処するための潜在的解決策を準備中です。
9回繰り返しのコサイン学習でモデルを十分に収束させることができたため、全体ではなく中心部分にフィットさせた場合にどうなるかを試してみます。
PonySim vpred V43 リリース
興味深い新発見:スコアタグは使用しないでください。
すべての品質タグを下部に配置し、そのまま適用してください。SimNoobのように扱ってください。
masterpiece, most aesthetic, very aesthetic, good aesthetic,
high resolution, highres, absurdres, absurd res,
さまざまな品質タグを使用する大きなデータセットがあり、品質が著しく低下したことが確認されました。最高品質の画像を得たい場合は、これらの品質タグすべてを一緒に使用してください。トークン数は多いですが、下部の改行後に配置すれば問題ありません。PonySimは非常に堅牢です。
誤ったリリースについて、心よりお詫び申し上げます。今週は仕事が非常に忙しく、正しいバージョンを試す時間さえ取れませんでした。
動くのでリリースしてしまいました。
タグガイドを丁寧に従ってください。現状ではこれが最も簡単なツールとは言えませんが、適切に制御すれば美しさを生み出すことができます。
見なさい、ゴミではありません。:'| 私はこれらに一生懸命取り組んでおり、その代わりに感謝の一言を求めているだけです。お金はいりません。
現在のHUGGINGFACEトレーニングは、PonySim V43を他のモデルと同等、あるいはNoobSimやSimNoobを超える水準にまで向上させることに集中しています。
https://huggingface.co/AbstractPhil/PONY-SIM-V4/tree/main/VPRED-SOLIDIFIER
PonySimのサポートをより良くするために、タグガイドを更新しました。
PonySim vpred V38 の問題;
またオーブンに戻ります。
現在のところ、ComfyUIまたは標準的なForgeを使用している限り、良好に動作しています。A1111やReForgeで実行しようとすると問題が発生します。特にPonySimとVPREDで75トークンを超えると顕著です。
次回のファインチューニングで、Ponyの深さがVPREDに適切に適合するよう対応します。ただし現時点では、EPREDを使用したい場合は、より長いプロンプトを作成してください。
お楽しみください。
PonySim vpred V38 予定リリース;
予定リリース日:2025年3月21日 午後5時(GMT-8)
半成功のリファイット後、モデルは徐々に適合し始めました。他のモデルよりもはるかに多くの修復が必要ですが、トレーニングに順応しています。
これは明確にVPRED Ponyモデルです。
PonyはV-PREDにリファイットされ、暗いシーン、ライティング、さらなるトレーニングが必要な多数の要素を適切にサポートできるようになりました。
私はライティングと審美的詳細化用の画像パックや方法を、自分のCLIPで特定するための調査を継続しています。どうなるかお楽しみに。
コンテキストは他のモデルほど強力ではありませんが、多くのEPRED Pony LoRAをサポートしています。
皆様、お楽しみください。
サプライズ水曜日リリース!
またオーブンに戻ります!
長く待ち望まれた純粋なEPRED SIMV4がついに安定しました。
シンプルな英語プロンプトの強さの復活。
このモデルを動かす正しい式を得るには、長時間かかりました。
このモデルはSimNoobよりも優れたコンテキスト_可能性_を備えていますが、まだ達成されていません。
未リリースで不安定なSim純粋VPRED v5は、多くの点でライバルをはるかに凌駕していますが、非常に不安定です。SimV4は、EPREDからVPREDへの必要なデータをつなぐ接着剤となるでしょうが、まだ十分な準備ができていません。
SimNoob完全リリース向け
あなたの目は欺いていません。SimNoobはSDXL VPREDモデルです。Noob LoRA、Illustrious LoRA、多数のSDXL LoRAに対応できます。これは普通のモデルではありません。
ポジティブプロンプトに「safe」「censored」を必ず含めてください。現在、censoredタグは、不適切な可能性のあるあらゆるグリッドポイントを識別するために強力にトレーニングされています。
ネガティブプロンプトには「nsfw」「explicit」「questionable」「uncensored」を含めてください
初期段階で空のボディドールモデルをトレーニングした結果、非常に少ないタグでデフォルトでNSFW情報が生成されてしまうという副作用があります。これは次回のファインチューニングで対応が必要です。
これは画像生成にさらなる制御を提供するための継続的な実験です。
Sim V4 - 継続中 - 各イテレーション後にT5機能をトレーニング中。
NoobSim フル V-Pred プライム - リリース済み
-> 440万の特徴量収集。-> 4XXギガバイトの補間データ。
SimNoob フル V-Pred プライム - リリース済み
-> 440万の特徴量収集。-> 4XXギガバイトの補間データ。
PonySim フル V-Pred プライム - 調理中
-> 310万の特徴量収集。-> 2XX~ギガバイトの補間データ。
SimPony Epsilon/V-Pred フュージョン プライム - 次はVPRED準備のためオーブンへ。
NoobPony Epsilon プライム
PonyNoob Epsilon プライム
T5アダプテーション未完了;完全収束には追加の特徴量が必要。
合計特徴量:1190万
V2 シンプルワークフロー
V2 コンテキストワークフロー
V3 シンプルワークフロー
V3 コンテキストワークフロー
V4 シンプルワークフロー
V4 コンテキストワークフロー
これは明確にSDXLベースのモデルセットですが、SD3スタイルのネガティブプロンプトを使用してください。ネガティブプロンプトの初期10%のタイムステップをゼロにすることで、全体的な品質が大幅に向上します。
このモデルをトレーニングするほど、Fluxに近づいています。多くの点で、現在の能力はFluxを上回っていると言えるでしょう。
VPRED Noobsは他のモデルとはワークフローで異なる挙動を示すため、それら用のワークフローも作成します。
現在のコンテキストワークフローは、後世のためにIPADAPTERとCLIP_VISIONを使用していますが、T5版ではこれらは不要になります。
使用している候補ベースモデルは以下の通りです;
SDXL Base -> Sim SDXL
CLIP_L
- CLIP_24_L_OMEGA:Flux、SDXL、再度Flux、最後にSDXLで重ねてファインチューニング。深さの関連、グリッド、ゾーン制御、オフセット、悪手、悪解剖など、複雑で困難な要素に適合するよう再調整されています。Noob、Pony、Noob、Illustrious、SDXL、Noobなどと何度も戦い、1億件以上のサンプルをトレーニングしています。
CLIP_G
- CLIP_24_G_OMEGA:CLIP_Lほど強くファインチューニングされていませんが、CLIP_Lの弟子として長年競い合ってきました。両者はSDXLトレーニング中に長く対峙し、現在ではUNET内で関連的整合性を保っています。
この戦いは伝説的でした。
Illustrious Base -> NoobXL v-Pred V10
CLIP_L -> [NOOB_CLIP_L + CLIP_24_L_OMEGA] 72 / 28
- ComfyUIでSIMPLE MERGEを使用して統合。CLIPの補間トレーニング方法を十分に理解していないため、この方法で十分な結果を得ています。
CLIP_G -> [NOOB_CLIP_G + CLIP_24_G_OMEGA] 72 / 28
- CLIP_Lと同じ方法で統合。
Pony Base -> Ebara
- まだ確定していません。
V5 Sim準備
純粋なEPRED SimV4は、これまで扱ったモデルの中でも最も強力なものの一つですが、まだ完成していません。SDXLに適用された大規模トレーニングの少なくとも80%を維持する形で、慎重にV5に仕上げる必要があります。
NoobSimとSimNoobは興味深い要素を導入しましたが、多くの情報が欠落または破壊されています。SimNoobV5はSim EPREDに近づいていますが、まだ十分ではありません。私は、モデルを最初から最後まで完全に補間蒸留ファインチューニングする必要があります。これはこれまで一度も行ったことのないプロセスです。
この新しいトレーニングプロセスを考案し、姉妹モデルの専門家から特徴量を収集している間、姉妹モデルのトレーニングを続けます。
次期PonySimは調理中で、かなり鋭いですが、NoobSimやSimNoobと比べると年齢を感じさせます。これらは両方とも非常に堅牢で強力なアニメモデルです。
純粋なSimV5は、これまでにない最も強力で堅牢なコンテキストを備えるでしょう。SD3、Flux、または他の明示的に高コンテキストモデルを除けば、これまでのどのモデルにも見られなかったレベルです。
しかし、この先、より深いレベルへ進むほど品質が低下する可能性があります。しかし、トレーニングがVPRED領域へ進むにつれて、この問題は改善されます。これは、Sim Pureを最終形態へと完成させるための継続的なプロセスです。私たちの真正に解き放たれたFlux/SD3ライバルとしてのコンテキストのエキスパートになるためには、より多くのポイントをカバーし、補間された複合体のすべてのエキスパートを統合するマスターでなければなりません。そうでなければ、それは不適格なリーダーになります。
V5 SimNoob リリース
SimNoobは、SDXLイプシロン予測ノイズをベースとし、複数のエポックにわたりVPREDにリファイットし、NoobXLから28%の補間特徴を加えたものです。
これはNoobSimVPREDの反対コンポーネントです。NoobSimはNoobに強く依存しているのに対し、SimNoobはSimV4に強く依存しており、SimV3のやや不適合で頑固な後継者です。
主にSDXLベースですが、Noobからの補完により、人間の描写が飛躍的に向上しました。以前の変形した身体が、信頼性の高い、実用的で合理的な形態へと固定されるようになりました。
構造は依然として素晴らしい方法で機能します。完全な内蔵リミナル構造セット、手の制御、グリッド制御など、SimV3が本来備えるべきすべての機能を有しています。
人間のフォームは大幅に改善され、今や、IPADAPTERやソリダファイアなしで、任意のポーズや他のモデルでは不可能な状況に人間を配置できます。
キャプションに対する制御が優れており、描写、オフセット、角度、回転、ポーズ、スタイル、色調など、多くの定量化できない要素において、テスト済みのSDXLモデルを大幅に上回っています。
シンプルな英語プロンプトへの応答が非常に優れており、NoobSimをはるかに上回る分野が多数存在します。
結果はV5と呼ぶに値すると判断されています。
V3トレーニング中に損なわれたV2からの描写関連とスタイル層化の組合せシステムが一部復元されました。
タイムステップ制御は、V3よりもV2のオリジナルに近い形で適合しています。
V46 NoobSim リリース
V46 NoobSimは、合計6つの1216x1216 VPREDモデルの1つで、最終的に統合される予定です。これは人間のフォーム描写に意図的に設計・統合されたモデルです。私の特定の人体データセットを用いて重度のファインチューニングを施し、風景データセットの多くを除外しています。
V46はメガモデルに必要なすべての基準を満たしているため、次バージョンはSIM SDXL V4になります。これは、SIM SDXL V3 FULLと約30%のNoobXL VPRED強度を統合したVPREDバリエーションです。
V46 NoobSimはさらに多くの新要素をもたらしています;
アニメも、人間のフォームも非常に堅牢です。
2D、アニメ、3D、リアリズムの間で急速に切り替えながら、類似のフォームを維持します。
リアルはさらにリアルに。アニメはさらにアニメに。3Dはさらに3Dに。
より多くのアーティスト、より多くのTV番組、より多くのシネマティック、より多くのビデオクリップ、もっと、もっと、そしてもっと。
角度に対するさらなる制御。
grid_b3、grid_c3、grid_d3を使用してください。これらはすべてのグリッドセクションの中でも最も学習されており、最良の結果を生み出します。
safe/questionable/explicit/nsfwはすべてこのバージョンで動作し、非常に制御しやすいです。
より正確な角度、オフセット、スクリーン位置、奥行きなど。
V4 NoobSim Primeは多くの新要素を導入しています;
データベースは90万以上にのぼる、自動化されタグ付けされた画像で、描写オフセットを目的としています。現在、キャプションは主にnoob mixから除外されています。なぜなら、V3 FULL(マージの基盤)の結果が、あるポイントを過ぎるとキャプションが大幅に悪影響を与えることが示されたためです。
アメリカ発の多様なカートゥーン;Cartoon Network、Comedy Central、Nick、Family Guy、Rick and Morty、その他のチャンネルの多数のシリーズ。正直、すべてを収集しました。
アクション映画;アクション映画からのシネマティックがいくつか含まれていますが、限られています。ベースのSDXLはそれらを必要としませんでしたが、Noobは非常に少なく、補完するために必要です。
女優、俳優、コメディアンなどは含まれていません、またはSimの強度が低いために顕著に現れません(これらはすべてベースのSDXLに存在し、私の丁寧な学習により多くの要素が残りました)。より強力なLAION学習と有名人は、それなりにアニメ風に表現されますが、これはちょっと面白いです。テストではいくつかの顔パックやぼやけた顔のボディが現れるため、一部は通りますが、ほとんどは誰が誰かを識別するのは非常に困難です。
ウォーターマークが時々現れます。顔は一般的に見られるウォーターマークに従いませんが、現実的な画像では他のものよりも頻繁に現れます。
アニメはNoobに多くのシリーズが組み込まれており、ほぼ何でもそのまま生成できます。
3Dには多くのゲーム、多くの番組、多くの映画、多くのシリーズが学習されています。
Noobの導入に伴い、E621データセットも導入されました。これは私が英語を壊さないよう努めたことを示しています。このタグセットは私にとって異文化だからです。
V3は私が期待していたほどうまく機能しませんでした。これは私にとって大きな落胆でした。しかし、失敗から新たな進展の道が生まれます。
V3 - FULLは群を抜いて最も強力であり、他のバージョンよりも大幅に可能性が広がっています。
NSFWに注意してください。なぜなら、それがすべてに浸透しているように見えます。
V3は必要な情報に従っていませんでしたが、それでも非常に強力なモデルを生成しました。そのため、私はV-PREDではなくE-PREDノイズに基づいて、さまざまなバリエーションのトレーニングを開始しました。その結果は初期段階でははるかに一貫性があり、それらに注目してください。
アップスケールされバケット化された画像は必要な結果に正しく適合しませんでした。そのため、何を入力しても結果は良し悪しになります。V2-FULLは現時点では優れたモデルですが、両方とも非常に強力で、適切なキーワードでプロンプトを提示すれば非常に役立ちます。
まだ期待に応えられていません。
英語は全く定着しませんでした。 私は複数のバリエーションを試しましたが、シンプルな英語は選択したどの方法でも要素を破壊してしまいます。
このリリースは英語ではなくタグ付けに基づいています。これはおそらく私がこれまでに経験した最大の落胆です。
それ以外にも、Sim V3は高解像度画像に対して非常にうまく機能し、複雑なシングルキャラクターや複雑なシーン制御能力を備えています。多数のキャプション、階層的なシングルキャラクターコントローラーをサポートし、元のモデルよりも高度なポーズ制御を実現し、LAIONの大量データにアクセス可能で、新しい情報と経路が効果的に学習され、必要なプロンプトに適合するように調整されています。
V4 Sim SDXLとして私は望んでいた場所に到達できましたか?いいえ。
でも良いですか?はい。非常に非常に良いです。私はそれに伴いプロトタイプのNoobSimもリリースしました。これは今後登場するメガモデルに必要な詳細を補完するためにトレーニングされています。
V4の推奨:
サイズ 1216x1216、1472x1472、1600x1600、2048x2048、バリエーションなど
ステップ → 20-50;
* Noobには20、Simのタイムステップ学習を活かすには30-50。
CFG → 3.5 - 7;
* 単純なアニメと3Dには3.5
* リアルまたはリアリズムには5-6
* 高精細で複雑な風景やマルチキャラクターの相互作用には7
DPM 2M SDE →
* BETA:Sim関連要素を処理するのに優れ、Noobには劣る
* SIMPLE:Noobに適している
EULER A →
* BETA:非常に高速だが、コンテキストがやや劣る
* NORMAL:非常に高速、適切なコンテキスト、アニメに適する
* SIMPLE:Noob関連要素を処理するのに非常に優れる
DPM 2S →
* BETA:高精細なリアリズム
* 両方のSIMとNOOBを併用するのに優れるが、アニメ使用には制限あり。
IMG2IMG:
>>> テスト未実施。
グリッドヘルパーロラを使用すると、エポックが低い段階でスクリーンと描写制御が強化され、さまざまなグリッドやスプライトシート機能を有効化します。エポックが高い段階では、質とコンテキストを犠牲にしてより強力なスクリーン制御が可能になります。
Pony、SDXL、さらにIllustriousのロラなど、多数のモデルからロラを使用できます。このモデルはFelldudeのすべてのSDXL simv4ベースモデルと直接マージされます。
残念ながらVPRED NOOBXLロラは良し悪しがはっきりしていますが、それらを含める方法を考えたので、その領域での完全なv3リリースにご期待ください。
SDXL-Simulacrum V3 βγE リリース 2025年2月26日
αバージョンはほぼFull V2全体をベースとしています。
βバージョンは約90万枚の画像で、1000万〜1180万サンプルを学習しました。
これは「タグ付け側」です → キャプション側は現在進行中であるため、このバージョンはV2と比べてシンプルな英語にはそれほど適していません。
タイムステップ 32-920 → 絶対エキスパート級のimg2img。
γバージョンはガンマ正則化とタイムステップ500-1000を使用しています。
このバージョンはβエポックごとにガンマエポックを実行します。
実験では、複雑な関連性の把握と元の英語の再構築能力が示されています。
フルエポックが、この道を継続するかどうかを決定します。
サイズ1216x1216、バケット範囲512〜2048でトレーニングしました。
次回のバージョンはタグ付けではなく、シンプルな英語を使用します。
V3 B推奨設定:
txt2img:
サイズ 1216x1216、1472x1472、1600x1600、2048x2048、バリエーションなど
ステップ 50
CFG 4-7 → 高精細な高複雑な風景や20人以上のキャラクター状況では15-25
DPM 2M SDE →
* BETA:高速で高コンテキスト
* UNIFORM:高速で適切なコンテキスト
* SGM UNIFORM:低速だがフォームが優れている
* EXPONENTIAL:高速で適度なコンテキスト
* NORMAL:高速で良好なマルチキャラクタースタイルコンテキスト
EULER A →
* BETA:非常に高速だが、コンテキストがやや劣る
* NORMAL:非常に高速で、適度なコンテキスト、アニメに適する
DPM 2S →
* BETA:高精細なリアリズム
* NORMAL:歪みや変形あり
IMG2IMG:
サイズは任意。
ステップ 50
ノイズ除去 0.7 > 1.0(実際にフォームを引き継ぎます)
DPM 2M SDE →
* DDIM UNIFORM:img2imgで絶対に最強
* SIMPLE:悪くない、だが最良ではない
* BETA:要素の追加、削除、カラーリングに最適
DDIM →
* DDIM UNIFORM:画質はやや劣るが、コンテキストを破壊しない。
Eulerは意外とあまり良くありません。通常はかなり良いのですが。
ネガティブプロンプトは0.05以上から開始してください。それより前は0にしないでください。
ポジティブプロンプトではCLIP_Gを0.08以上から始めるとよいでしょう。それ以下だと、高複雑な相互作用で変形が発生する可能性があります。
要望により、すべてのバージョンをリリースし、レッド対ブルーの比較を行います。
クリップはほぼ同じです。学習率は非常に低かったため、抽出したければご自由にどうぞ。このバージョンは主にUNetトレーニングであり、CLIPはすでに非常に高度です。
SDXL-Simulacrum Full V2 αβγδ リリース 2025年1月31日 17:00
このモデルを「低IQ SDXL FLUX」と名付けます。
αバージョンは約5万枚の画像で、0〜200万サンプルを学習しました。
βバージョンは約7万5千枚の画像で、200万〜500万サンプルを学習しました。
γバージョンは約15万枚の画像で、500万〜750万サンプルを学習しました。
δバージョンは約30万枚の画像で、750万〜1000万サンプルを学習しました。
以下に、使用したトレーニングのより正確なリストを示します。
結果は低解像度より高解像度を強く支持しているため、解像度を惜しまないでください。
Full V2バージョンは非常に複雑で、その動作を簡単に説明するのは困難です。しかし、このモデルを非常に簡単な説明でまとめます。
意味のある構造で、シンプルな英語を使用してください。
このモデルは、文章の並びと半論理的なbooruフローチャートに基づいて、あなたが望むものを構築します。
シンプルな英語キャプションは sentencepiece**。** に基づいています。T5を含むほとんどのLLMは、sentencepieceを用いた非監視学習でトレーニングされています。キャプションの基礎と方法論のインスピレーションは、完全にLLMとその構造に基づいています。これらの構造は、ビジョンベースの分類器、bbox識別子、深度分析を用いたさまざまな識別子間の補間と結びついています。キャプションがsentencepieceモデルによって生成されなかった場合でも、その概念の結果を念頭に置いて生成されました。
バージョン3では、データセットを200万枚以上に拡大し、すべての画像にシンプルな英語キャプションと描写オフセットタグの両方を付与します。
これらは一緒にトレーニングされません。代わりに、2つの独立した複製されたデータセットとしてトレーニングされます。一つは「タグファイル」、もう一つは「キャプションファイル」と名付けられます。
一つはBooruベースのタグと30文字以下の短いキャプション、もう一つはシンプルな英語と10個以下のBooruタグで、相互に鏡像のように構成され、交互のタイムステップでトレーニングされます。
Booruタグはシャッフルされ、英語キャプションは順序立てられます。
画像生成
ComfyUI だけが、IMG2IMGおよびTXT2IMGに必要な細かいタイムステップ制御を備えています。
面白いことに、タイムステップは完璧ではありませんが、かなり近いです。
CLIP_LとCLIP_Gに最適化された、2つのスタートタイムステップコンテキストモバー用COMFYUIワークフローをリリースしました。
これは単なるSDXLではありません。同じ結果は得られず、タイムステップガイドラインから逸脱すると、特に歪んだ内容を要求した場合、不快でときには不気味な出力が生じます。
このモデルのフル体験を得るには、必ずComfyUIを使用し、タイムステップを調整してください。
- 以下に、トレーニングされたタイムステップに基づいた半正確なトレーニングリストを示します。これらのタイムステップを決定する私の計算は、FLUXトレーニング時にCLIP_Lが元々微調整されたFluxシフトと類似していますが、完全には一致しません。しかし、緊急時には十分です。
Forge は動作しますが、それほど優れていません。
Forgeでも見た目が良くなるよう配慮しましたので、Forgeを使用できます。ただし、コンテキストが損なわれます。なぜなら、CLIP_LとCLIP_Gは意図的に異なる動作をします。
TLDR 生成設定:
DPM++SDE 2M → Beta / Karras
CFG 6.5 - 7.5 → 6.5が私の好み
ステップ → 12-100 → ほとんどの場合50を使用、低ステップでも動作します。
サイズ → 非常に多数。
このモデルの基本原則は「3の法則」です。 すべてのキャプションはこの概念に基づいています。したがって、3の法則はFluxと同様に機能します。3の法則に従えば問題ありません。逸脱すると、大変なことになります。グリッド、ゾーン、描写、サイズ、およびそれに関連する識別子を追加して強化できます。
あなたが見たいものをシンプルな英語で記述し、スタイル、アーティスト、キャラクター、衣装を指定してマシンに送信してください。出力は組み合わせられたスタイル、芸術的スタイルが重ねられ、キャラクターがその環境に配置された画像になります。グリッド、オフセット、角度などを指定できます。おそらくあなたの意図を理解するでしょう。
見たくないものを、最も重要なものから最も重要でないものまで順番にネガティブプロンプトで記述してください。
タグドキュメントを参照して、トレーニング済みで重要な注意点のシフトタグをご確認ください。
このツールに入力する内容には、非常に注意を払ってください。
これは本質的に「バカなFlux」です。あなたが望むものを与えますが、時には「サルの手」の報酬もついてくるかもしれません。
これは順序立てて構築します。
プロンプトの上部に記述したすべての内容は、後に記述した内容より優先権を持ちます。一部のタグは負の影響を伴い、一部のタグは伴いません。
シンプルな英語は、アクセスの容易性を意図して設計された強力な効果を持ちます。
これはまだ必ずしも機能するわけではありません。これは3バージョンのガイドラインの一つで達成できなかったものですが、確かに非常に強力な効果があります。
タイムステップ4〜8の間だけごくわずかにシャッフルトレーニングが行われ、それ以外はすべてシーケンシャルアクセスに基づいています。次回バージョンでは、より多くの画像を使ってシャッフルトレーニングで注意点を移動するための、より多くのタイムステップトレーニングを追加します。
以下のタイムステップを特定しました。
12-16
22-24
30-36
41-50
これらのタイムステップは、次回バージョン用に、注意点の移動、コンテキストの微調整、および順次補足的詳細の高精細含み込みのために特別に割り当てられています。つまり、シャッフルトレーニングと品質向上トレーニングステップです。重複した要素は無関係です。データは相互に補完されます。
これは、タイムステップ制御を使用するComfyUIで非常に高い効果を発揮します。特にCLIP_LとCLIP_Gのプロンプトを使用する場合です。
このケーキのレシピは簡単なものではありません。実際、私がこれまで作ってきた中最も繊細で丁寧に設計されたモデルだと言えます。これは、成功した実験やコミュニティへの新たな証明という偉大な成果を描いている一方で、私のこれまでに見た中で最も大きな失敗、最も痛い誤った仮定、そして最も苦痛な画像も描き出しています。
このバージョンについて;
0-1000 フルファインチューニングベースライン → フルファインチューニング、LoCoNフル、LOHAフル、Dreambooth、LORA使用。
CLIP_Lは訓練済み、CLIP_Gは凍結。
5,000,000 サンプル、
57k 枚の画像;1/3アニメ、1/3現実的、1/33D
grid → 使用せず
hagrid → 使用せず
ポーズ → 非常に良く学習
人間の姿形 → 非常に良く学習
AI生成 → 非常に良く学習
1-999 最初のimg2imgトレーニングフェーズ → アテンション訓練半分、Dreambooth半分
CLIP_Gの訓練を有効化。
200,000 サンプル、
51k 枚の画像;最初のパックをプリューニング、多くのフェチ画像と不良画像を削除
手のぼやけのため多くのhagrid画像を削除
- 多くの分類を完全に削除し、再キャプションが必要
AI生成画像のうち「非常に不快」とラベル付けされた画像をすべて削除
10-20 最初のシャッフルフェーズ → アテンション訓練のみ → LOKR訓練のみ、異なる設定で5バージョン
CLIP_LとCLIP_Gの学習率を増加
1,000,000 サンプル(英語キャプションなし)
75k 枚の画像 →
セーフ/クエスチョナブル/エクスプリシットな3Dデータセットを追加
- 完全なポーズ角度セット、完全なアーティスト配列、完全なフェチセット
AI生成画像を完全に削除
10-990 二回目のシャッフルフェーズ → フルファインチューニング、LOHA、LoCoN使用
CLIP_LとCLIP_Gの学習率を減少
150,000 サンプル(英語キャプションなし)
115k 枚の画像
セーフ/クエスチョナブル/エクスプリシット/NSFWアニメデータセットを追加
hagridはバージョン3用に再計画のため完全に削除
2-8 二回目の英語整合性フェーズ → アテンション訓練のみ、目標への大幅なシフト
CLIP_LとCLIP_Gの学習率を高めに設定
800,000 サンプル
8k 枚の画像(英語説明およびgrid/offset/depth専用に調整)
バケットリングとクロッピングを無効化;1024x1024、768x768、1216x1216、832x1216、1216x832、512x512
gridトレーニングは結合剤として機能させるために設計
8-992 三回目の英語整合性フェーズ(低学習率)→ フルファインチューニング
CLIP_LとCLIP_Gの学習率を通常値に戻す → すでに正規化済み
800,000 サンプル
140k 枚の画像(英語説明および文脈専用に調整)
バケットリングを再有効化
1-999 最終フェーズバーン → フルファインチューニング、学習率は元の1/10
CLIP_LとCLIP_Gが互いに協力するようになり、対立しなくなった
200万サンプル、非常に低い学習率、すべてのキャプションとタグ
除外された画像を含め、すべての画像を使用(hagridを除く)
カリキュラムではなく、エポック単位でデータセット全体を訓練
約30万枚の画像を使用したと思われます
セーフプロンプトを使用してもNSFW要素が表示される可能性があります
クエスチョナブル/エクスプリシット/NSFWのネガティブプロンプトを使用しても、現状では比較的まれです。それらが見られても、次バージョンに悪影響を与えると心配する必要はありません。次バージョンでは、100万枚のセーフ画像を準備して、ユーザーが意図的にそうしない限り、このような現象が発生しないようにします。
多くの女性のフォームは裸の状態で特別に訓練され、セクエンシャルな学習パターンとタイムステッピングに基づいて後に服を被せています。そのため、プレビューサンプラーでは、画像が整う前に裸体、歪み、変形などが表示されることがあります。
画像が完全に整わない可能性があることに注意してください。しかし、ComfyUIのシングルパス使用時、生成は非常に高速です。何かうまくいかない場合は、次のシードを試してみてください。正しいシードに当たれば、うまくいく可能性があります。
画像生成を見ているとスライドショーのように見えます
これは意図的です。これらの画像の中には、不快なものが含まれており、スライドショーで不快なものを目にする場合はお詫びします。最終フェーズで一部のダメージは修復されましたが、完全に溶け合うほどではありませんので、NSFW要素をプロンプトする際は非常に注意してください。
次バージョンでは、セーフタグ用にフルファインチューニングを実施し、これらの要素がプロンプトされない限り重ね合わされないようにする予定です。しかし、現時点ではネガティブプロンプトを活用してください。
NSFWプロンプトの注意深い選別
生殖器、歪み、物体、余剰な四肢などが頻繁に現れます。これらが固まって見えるようになった場合、ポジティブプロンプトに「censored」を追加することで対処できます。「censored」はこの目的のために設計された明示的なオフセットタグです。
生殖器と乳首を確かに塗りつぶします。それでも表示される場合は、どこを塗りつぶしたいかを正確に指定できます。
grid_a3 censored nipple— これを使うと、サイズタグと併用しなければ概念が画像に浸透します。これをポジティブプロンプトに記述してください。ネガティブプロンプトには
nipple, nudity, nudeと記述。確実に消えます。
SDXLには多くのホラー映画の要素がトレーニングに組み込まれています。IMDBデータセットが与えられていたことが明らかで、多くの画像に悪影響を及ぼしたり、恐ろしい要素を導入したりしています。私が最も面倒だと感じるのは、年齢の除去です。彼らが使用したタグの種類はわかりませんが、まだ私には対処できていません。
ホラーまたは年齢関連の要素が見られた場合は、ネガティブプロンプトに「futanari, femboy, loli, shota, horror, monster, gross, blood, gore, saw, ghost, paranormal」を追加してください。IMDBのホラー要素やSDXLに組み込まれたトレーニングからの多くのアーティファクトが消えます。
このバージョンでは、これについて何の対処もできません。すでにいくつかの方法で除去を試みましたが、逆にすべての要素に悪影響が出たため、別の解決策が必要です。
これらのタグに偽の画像を含ませてみましたが、それによって私が訓練したすべての要素がホラー領域に関連付けられ、非常に恐ろしいバージョンができあがりました。これは決してリリースしません。
- しかし、今ならクールなハロウィンLoRAの作り方がわかりました。それはそれなりに面白いです。
このような事態について深くお詫びします。通常はこのような反応の管理を非常に慎重に行っていますが、今回はSDXLのすべての要素を制御できていません。さらに研究とテストが必要です。
生殖器が表示されたらネガティブプロンプトで除去してください。主に陰茎が表示されやすく、単純にネガティブプロンプトに記述すれば消えます。モデルはそれが何であるかを認識しています。コンドームや性玩具などについても同様に認識しているため、ネガティブプロンプトで「questionable, explicit, nsfw」が効かない場合は、これらすべてをネガティブに記述して除去できます。
penis, vagina, penetration, sex toy, dildoなどをネガティブプロンプトに追加すれば、ほぼ表示されなくなります。ただし、ポジティブプロンプトで明示的に呼び出すと表示され、これらに関連するアーティストやスタイルの画像も多いため、注意が必要です。
NSFW要素は恐ろしいことがあります。
このバージョンのNSFWプロンプトは、まだ複雑なシンプル英語シーンには対応が良くありませんが、機能はします。
シンプルな英語のプロンプトは短く保ち、BooruやSimタグに徹してください。目標がNSFWの文脈を生成することなら、普通の結果は得られますが、現状では一貫性や忠実度はまだ十分ではありません。
スタイルやアーティストをいくつか追加することで、望む結果に近づけられます。アーティストが含まれていれば、たいていうまくいきます。含まれていなければ、リスト内のより強力なアーティストを試してみてください。
シンプルなポルノ生成器として使いたいなら、シンプルなプロンプトで幾分の成功はありますが、複雑にしたり、より多くのシンプル英語を加えるほど、結果は奇妙な怪物のようなものになります。
ベアボーン:
ComfyUIガイドラインとワークフロー
タグ一覧とカウント
過剰に調理された部分
不十分に調理された部分
キャッシュの破損による時間消費
意図せず早期公開されました。手に入れた方は、共有しないでください。ただし、どうしても必要であれば、ご自由にどうぞ。
公式リリースは17時です。→ 予定時刻:11時間後
このバージョンはV3のマーカーに到達しなかったため、これを「フルバージョン2」と銘打つことにしました。このデータセットでは、これ以上多くのマーカーを達成することは不可能です。必要な欠落情報を埋めるには、データセットをほぼ3~4倍に拡大する必要があります。つまり、150万~300万枚の画像が必要です。これは大きなBooruの約3分の1に相当します。
このような画像を、識別可能でセグメンテーション可能なセクションごとに取得するには、ファッション、IMDB、私が入手できるすべてのデータセットを含め、あらゆるデータベースをサンプリングする必要がありそうです。このモデルを「スマート」にするには、すべてのものを知り、その位置を把握させる必要があります。まだ大量のデータが必要だからです。
今後、これらの完全にタグ付けされた準備済みデータセットをHuggingFace上でtar/parquet形式でホスティングし、私のカスタムツール「cheesechaser」がユーザーのために取得できるようにします。
私がいつも行っている「汚れた顔」の処理を、本物の人々に対して本気で行うつもりです。だから一部の人物がアニメキャラに変わってしまうのです。SDXLにはすでに多くの要素が組み込まれており、明らかにIMDBデータセットを学習させられているため、私がネガティブに教えるべきことを把握しています。
SDXL-SimulacrumV25β
現在エポック65 →
約750万サンプル。
ティーザーは意図的なスタイルとシリーズの浸透を示しており、まさに意図通りです。
「何かが他のものを圧倒し、それが邪魔をしてファインチューニングが困難だった」モデルはいくつありましたか?このモデルは違います。設計上、すべての要素が非常に簡単にファインチューニングできます。
現在、85/100のマーカーを達成しました。明日か明後日までに完了する見込みです。
生成推奨:
DPM-2M-SDE
-> BETA / KARRAS
-> ステップ 14-50 → 50
-> CFG 4.5-8.5 → 6.5
DPM-2S-Ancestral
-> BETA / KARRAS
-> ステップ 32
-> CFG 5 - 8 → 6
DPM-2M
-> BETA / KARRAS
-> ステップ 20-40 → 40
-> CFG 7 → 7
Eulerはあまりうまく働きません。
ここにプロンプトの基本形:
<CAPTIONS HERE>
good aesthetic, very aesthetic, most aesthetic, masterpiece,
anime,
<CHARACTERS HERE>
<ACTION CAPTIONS HERE>
<OFFSETS AND GRID GO HERE>
<CHARACTER TRAITS HERE>
highres, absurdres, newest, 2010s
このバージョンでは75トークンを超えないようにしてください。CLIP_Lは225まで訓練されていますが、まだ十分に賢くありません。
これにより、ほとんどの画像の品質が向上します。
good aesthetic, very aesthetic, most aesthetic, masterpiece,
TLDR:開始にはこのネガティブプロンプトをご使用ください。
lowres,
nsfw, explicit, questionable,
displeasing, very displeasing, disgusting,
text, size_f text, size_h text, size_q text,
censored, censor bar,
monochrome, greyscale,
bad anatomy, ai-generated, ai generated, jewelry,
watermark,
hand,
blurry hand,
bad hands, missing digit, extra digit,
extra arm, missing arm,
convenient arm, convenient leg,
arm over shoulder,
synthetic_woman,
ベアボーンネガティブ:自己責任で使用してください。
lowres,
displeasing, very displeasing, disgusting,
text,
monochrome, greyscale, comic,
synthetic_woman,
クレジットとリンク:
DeepGHSの皆様に、ツール、AIの整理・準備、データセットの整頓と管理に費やしたご多大なご尽力に心より感謝します。
Flux1D / Flux1S リンク
SDXL 1.0 リンク
OpenClipトレーナー リンク
Kohya SS GUI /// SD-Scripts
イメージの出典または作成:
スコープ外で使用したデータセット
部分的にリリース用にキャプション準備に使用したソフトウェア:
ImgUtils リンク
このパッケージに含まれるすべてのAIおよびその他を総動員
バウンディングボックス
BooruS11
BooruPP
People
Faces
Eyes
Heads
HalfBody
手
ヌード
テキスト
TextOCR
Hagrid
センサー済み
DepthMidas
SegmentAnything YoloV8
分類
美的評価
AI検出
NSFW検出器
モノクロチェック
グレースケールチェック
実写またはアニメ
アニメスタイルまたは年齢 → 年ベース
トリミング済み
Hagrid リンク
MiDaS リンク
Wd14 リンク
Wd14 Large リンク
MLBooru リンク
キャプション生成

