Pyro's NSFW Proof of Concept for FLUX
詳細
ファイルをダウンロード
モデル説明
警告: この3つのモデルは、半分の機能が動作していないプロトタイプです。これはマーケティング用の嘘(例:プレリリースに「エクスクルーシブ・クローズド・アルファテスト」とラベルを貼るような)ではなく、本物のプロトタイプであることを意図しています。正直なところ、コールオブデューティが毎回这样做しているとき、それはおそらくアルファ版で、ただあなたを二重にだましているだけです。
この目的は、最終モデルへの進捗を記録し、Fluxの能力を評価して、将来的に孫たちにこう言えるようにすることです。「見てよ、このモデル。私、ペニスの形状に対してバイアスを除去しようとしていたんだよ。ああ、なんていうおしゃべり屋だったことか。」そして、全員で笑い合って楽しい時間を過ごしましょう。それを奪わないでください。
また、このモデルをアップロードするのは、Civitaiのお金をすべて奪おうとしているゴミのような早期アクセスコンテンツに騙されないようにするためです。
ここでは、お金を払わずにものを手に入れられます。
この特定のモデルの学習は中止されました。Fluxについてあまりにも多くのことを学んでしまい、このモデルが基づいているほぼすべての前提が無効になったからです。また、モデルはブリックしました。消えました。私の「ヒルク・ホーガンをピカチュウにした」LoRAの隣で、モデル天国にいます。
だから、完璧を期待するなら、数週間待ってください。混沌を求めるなら、読み進めてください。試してみて予想通りに動作しなかったら、まずは落ち着いて、深呼吸して、上記のすべてを思い出してください。すぐに™、フルリリースという救済が訪れるということを理解してください。だから、今すぐティッシュや靴下を捨てるのはやめましょう。
しっかりと座ってください。長いテキストが続きます。
彼はもう黙っててくれないのか?
最初、私はこれらのモデルをリリースするつもりはなかった。なぜなら、正直、未完成だからだ。これらは、FLUXの内側と外側を学ぶためのいくつかのテストランの結果に過ぎない。そして、「ペニスを学習させるには何百万時間も必要だ」だとか、「お前、馬鹿か?FLUXは学習できないんだよ!」と馬鹿げたことを言う連中を黙らせるために作ったものだ。
スポイラー:その馬鹿たちは間違っていた。彼らの誤りを証明することは、私にとってトップ3の満足感である。
Fluxは、やり方を知っている人にとっては、ファインチューナーの夢のツールだ。SDXLよりもはるかに柔軟で、誰もが思いつきもしないほどセマンティックな理解能力を持ち、それを悪用できる(奇妙なことに、その点はほとんど無視されているが、まあ、モデルはまだ生まれたばかりだ)。
しかし、ここで重要なのは、いくつかのテクニックを知らなければ、あなたのモデルはこのプロトタイプと同じゴミ箱に捨てられてしまうということだ。間違いが起こり、概念が見落とされ、今やこれらのモデルは「/usr/pyro/failures-of-the-past」で埃を被っている。
それなら、どうして私はこれらをアップロードしたのか?
私のDiscordコミュニティは、これらのモデルをリリースするように懇願してきた。彼らは私を崇拝するカルトを形成するなんて冗談を言ったりしたが、それは私の心を変えなかった。しかし、その後、Civitaiの現在の状況について説明し始めた。私はこのサイトに来る理由は、ただ物をアップロードして、自分のウェブサイトが完成するまでの間、自分の愚痴を書き留める場所があるからだ。
CivitaiがCivitaiドルを発表したとき、私は「ああ…よく分からないな…」と思った。結果として、まったく効果がなかった。今では、最初の画像だけでデータセットや学習に10のミスが見られるモデルがあり、それらは90万Civitaiドルを要求している。あるいは、赤いブラジャーのLoRAが1万4千Civitaiリーレで販売されている。
こんな癌のようなゴミは一体何なのか?モデル作成者がトレーニングコストを回収するために寄付を受けるのは賛成だ。だが、5000枚の成人映像をスクラップして、WD14タガーにかけただけで「完成」と呼ぶのは、90万Civitaiマーカーもするような複雑な早期アクセスの商売には値しない。
Civitaiが存在しなかった頃のSD1.3の時代を思い出してほしい。私たちは巨大なDiscordの家族で、互いに助け合っていた。誰かが100ページに及ぶRentryに自分が見つけたすべてを書き、他の人の100ページRentryへのリンクを貼っていた。2クリックですべてのモデルと情報をアクセスできるという感覚があった。SDXLの初期版でも同じだった。なぜなら、誰もお金のことを気にしていなかったからだ。みんなただ完璧なワイフを作りたかった。
しかし今、モデルに実質的な投資の機会が生まれたことで、すべてが分断され、コミュニティの分断と「私のモデル > あなたのモデル」という態度がすでに進んでいる。AuraFlux Ponyがリリースされたとき、すべてがPony対Fluxの戦いになると、私は5Civitaiデナールを賭ける。
これは私を怒らせ、悲しませる。
この傾向に抗うために、私ができることをしたい。モデルに期待される最低限の基準を定めることで、人々が低労力なゴミを金銭化しようとするのを止めたい。より優れた、無料のものと競争できないからだ。私のモデルはまだ完成していないが、それでも期待できることを示すには十分なはずだ。だから、Civitaiペソを貯めておくように。代わりに、それを使ってFLUX LoRAの実験をしてみてほしい。
そして、一つ約束しよう:あなたは、早期アクセスのMr.が聞いたこともないような技術と科学を使って、私が作れる最高のNSFWモデルを、完全に無料で手に入れられる。そのほとんどはカスタムで書かれており(完成したら、誰にでもオープンソースにする!)。
また、アラビアのシェイクがこの文章を読んでいて、H100を寄付したくなったら…断らないよ!
カルトに加入したいなら、こちらへ:https://discord.gg/r2tJpTv4
何が得られるの?
では、何が期待できるのか?
- 「同じ顔の女性」症候群はなし - データセットの詳細な顔分析により、「生成」ボタンを押すたびに、宝箱を開けるような驚きを味わえる。
- 皮膚の「Flux」光沢の除去
- 普通の英語の単語や文で、見たいものを記述できる - あなたの心に存在感を保つために、私の短いハンドルに接頭辞をつけて20個の魔法の言葉を覚える必要はない。タグ、自然言語、あるいは両方を自由に使える。
- テレポート乳首なし - 他のモデルでは、乳首がブラジャーを突き破るような現象がよく見られる。私は修正方法を見つけたが、その後モデルが焼けてしまったので、まだ時々起こる。しかし、メインリリースでは100%修正される。

- 私の他のLoRA、および私が価値があると判断したLoRA(おそらくすべてのLoRA)との完全な互換性
- 私のSDXLモデルに対する主な批判のいくつかを修正
- これは非常に主観的だが、私のモデルがこれまで見た中で最も美しい女性を生み出すと思う(特に他の「モジュール」と組み合わせたとき)。そして無限に。この件について私の意見が唯一重要だという運の良さがある。
- 最後に、今後のモデル作成者としての私の全体的な計画、このモデルの最終目標、そしてソリューションアーキテクトとしての私の目標 – StableDiffusionのソフトウェア環境は大混乱だ。
「同じ顔」症候群と他の問題の修正
ここに存在するモデルの巨頭たち(へへ)ですら、この問題に苦しんでいる。「同じ顔症候群」「1-girl-itis」、あるいは単に「lol」と呼ばれる。
私にとって、これはモデルが持つ最悪の欠陥だ。私はモデルの「世界」を探求し、その生成に驚きたい。ランダムネスの神々が私を祝福し、最も美しい人間が突然出現したとき、それはPoEで鏡を見つけるようなものだ。「おおおおおおおお!」
しかし、すでにその女の子が何の顔をしているか分かっているなら、驚きは生まれない。退屈で、すべての楽しさを殺してしまう。私はSDXLモデルでこの問題に取り組み始めたが、私の解決策はかなり確実だと思う。あなたが判断してほしい。
では、なぜこの現象が起きるのか?基本的には、データセットにバイアスがある。ある顔や特徴が他のものより頻繁に現れるため、その顔の特徴がデフォルトになってしまう。もう一つの理由は、モデルの過剰なマージだ。これは顔の概念を死ぬほど平均化し、その平均からモデルが知っている唯一の存在が生まれる。
そして、私がこれから言おうとしていることのせいで、一度見たらもう見られないようなものになってしまうが、お許しください。はい、FLUX.devですらすでに「同じ顔症候群」にかかっている。
Fluxの女性たちは、ほぼ全員、特に上唇がまったく同じで、ほぼ中頭型の頭部のみが生成されているように思える。
では、どうすればいいのか?
SD1.5時代の初期には、私は手作業で画像を削除・追加し、バイアスがないと感じられるまでやり続けた。
今日では、自動的な特徴抽出、複数のモデルによる分析・クラスタリングがあり、私のデータセットの中でどの顔のどの特徴が特に強いのかを特定できる。
5万組の目があなたを観察している!そして、豚の鼻のような鼻がある… いったい何よ!

しかし、すべてが完璧にバランスが取れている。すべてのものはそうあるべきだ。
要するに、バイアスを生む可能性のあるすべての特徴を抽出し、クラスタリングし、分析することで、学習を始める前から何が期待できるかを理解できる。
私がやっていることの少しのヒント:これは、すべてのファインチューナーのツールキットに含まれるべきものである。しかし悲しい現実として、まだ適切なファインチューナーのツールキットは存在しない。
例:(特に明記されていない限り、ここに挙げているものはすべて選り抜きではない。すべて同じプロンプトを使用)
女性の上半身ポートレート
Pyroの下と、上段のFluxは、顔の「同じ女性」症候群が強く、私はロジャー・ディーキンスの作品を愛しているが、すべての画像に彼の冷たい緑がかったカラーグレーディングを強制する必要はない。
その他、ランダムな顔:

他に何が入っているの?
(プロンプト:ゲーミングチェアに座る女性)
それはあなたが見つけてみるしかない。各PoCはさまざまな試みをした結果であり、ファインチューニングに慣れている人なら、すぐにいくつかの実験を認識できるだろう。
あなたは、いわゆるセクシーな内容が何ができるかが知りたいの?科学は気にしないって?まあ、理解できる。
正直、どのデータがどのバージョンに入ったのかを確認する気力がない。でも概要を言うと:オナニーはほぼすべてのバージョンで最もうまくいくはず。その他はあまり期待できない。なぜなら、オナニーが潜在空間をすべて食い尽くしたからだ。
omnomnom、他のすべての概念を食べ尽くす
最高の結果を得るには、強度を0.7〜0.95に設定することをお勧めします。
そして、絶対に私の他のLoRAと組み合わせてください。
私のSDXLモデルに対する主な批判の一つは、すべての女性が、ズーム世代が言う「E-girl」(PatreonやOnlyFansで見かける、過度に磨かれたビジュアルの美少女)のように見えるという点でした。そして、正直、私はそれがすごく可愛いと思います。普通の顔の女性が見たいなら、パートナーがいます。このモデルは現実逃避のためのものです。
でも、わかります。私は分析を行い、最も大きなバイアス要因を「Pyro's PMI」LoRAに移動しました。その結果、このモデル内の女性はより「普通」に見えます。しかし、私と同じように、ビンボー・プラスチックなルックが好きなら、そのLoRAを手に入れて、昔のスタイルを楽しんでください。
そのため、私の計画は、LoRAをレゴのピースのように組み合わせられるモジュラーなシステムを構築することです。最終的には、あなた自身のカスタムNSFWモデルが完成します。また、こうすることで、1つのモデルが学習中に失敗しても、大惨事になりにくいです。このアイデアについてどう思いますか?それとも、22GBの巨大ファインチューンを好むでしょうか?
また、「退屈な現実」と「X-Fluxのリアリズム」LoRAは、このモデルと非常にうまく合います。最終モデルには「リアリスティック」画像のオーバーライドも含まれます。
Fluxと会話する
CLIPでは、「見る=信じる」の領域、あるいはより正確には、「埋め込みを持つ=信じる」領域です。最良のアプローチは、画像で見たいすべての要素をプロンプトに埋め込みとして含めることです。そうすれば、空間を探索するときにすべての要素が概念的に固定されます。つまり、次のような一連の情報をプロンプトに詰め込むことになります:
"POV、1girl、ペンス、オナニー、胸元、膝まずき、男の巨大なペニスを舐める女性の膝まずき"
カメラの視点、見たい身体の部位、実際に起こる行為、そして画像が存在する世界を形作るその他の情報がすべて含まれています。また、2番目のCLIPエンコーダーのおかげで、短い自然言語による記述を追加して、細部を微調整することもできます。
これはSDXLにとって文字通り最高の出来です。
なぜかはわかりません——たぶんお金を燃やすのが好きだからですが、FLUXがT5(CLIPに続いて)をエンコーダーとして使っていることを完全に忘れていました。「まあ、うまくいかない理由なんてないだろう?」と思って、自分のSDXLデータセットを持ってきて、さあ始めよう!
でも、いや、これはFLUXではうまくいかないんです!少なくとも私が望むほどには。
私のキャプションは複雑で密度の高いプロンプトではありません。このサイトの平均的なネックベアードの方が、アニメの足を生成するためのデフォルトのネガティブプロンプトを、私のデータセットのキャプションより長く書いています。
では、なぜうまくいかないのか? たまたまおもしろいし、コンピュータ科学の歴史にもなるので、ぜひ「T5を使ってセンチメント分析器を構築する」オンラインチュートリアルをひとつやってみてください。レビューがポジティブか、ニュートラルか、ネガティブかをT5に学習させる方法を学べます。
基本的には、画像とまったく同じ仕組みです。データセットがあり、各エントリにラベルまたはキャプションを付けています。この場合、データセットはAmazonのレビューで、キャプションは「AIがレビューの意味を理解するには、どうキャプションをつければよいのか?」という問いです。ちょっと考えてみてください。
T5は驚異的ですが、世界の解釈には非常に厳格で、文字通りの意味しか受け入れません。レビューを「このレビューはポジティブです。なぜなら、食べ物が美味しかったからです」とキャプションしてはいけません。これではT5に「ポジティブなレビュー」と「食べ物」を無理に結びつけてしまいます。実際、それが重要な特徴かどうかさえわかりません。T5がレビューの分類方法を自分で見つけ出した結果に、「食べ物」が勝手に混じってしまうのです。良くありません。だからレビューには単に「ポジティブ」「ネガティブ」などのラベルだけをつけるのです。あなたが得たい結果だけをキャプションし、残りはAIに任せる。それがAIを使う理由です。優れたAIモデルでさえ、人間より圧倒的に優れた分類、クラスタリング、その他のタスクをこなすことができるからです。
T5が文字通りすぎる例をひとつ:「大きな穴を持つ pussy」

あなたの内なる悪戯心が叫んでいるでしょう。「でも、わたしたちはT5をファインチューニングしてないよ! エンコーダーとして使ってるだけだよ!」
それは正しいです。でも、ここで重要なのは、UNetは、T5が理解する世界の表現そのものだ、ということです。だから「cat」と入力すると猫が生成されるのです。UNetはエンコーダーにチューニングされており、T5がテキストをどのように解釈・表現するかに大きく依存しています。そのため、T5のファインチューニングに適用されるいくつかの原則は、少なくともある程度、ここにも当てはまります。(どの程度かはまだわかりません)
だから、重要な情報でない細部をモデルに詰め込まないほうがいいんです。モデルは、あなたが突きつけるすべての細部を統合しようとするより、自ら世界の理解を構築するほうがはるかに効率的だからです。
したがって、「POV、1girl、penis、blowjob、cleavage、kneeling、男性の前に膝まずいて巨大な陰茎を舐める女性」というプロンプトは、あまりにも過剰です。特に、プロンプトが本質的に繰り返されており、残りの部分はFLUXがすでに知っている情報ばかりです。
FLUXに何を学習させたいのですか?「woman」を二回、「penis」を二回言わなければならない、と? T5は、物事を非常に文字通りに解釈するモデルです。このプロンプトが他のオナニーのすべてに当てはまると判断して、それが現実になってしまう。そして、うまくいく可能性はゼロです。
完全なプロンプトを「女性が陰茎を舐めている」に簡略化すれば、それで十分です。タグが好みなら「penis、blowjob、a woman」でもいい。そして、FLUXには自然言語を使わなければならない、とみんなに言いふらめるのをやめてください。性能差はたかだか1〜2%です。たいした違いではありません。FLUXが「タグを使うと即座に崩壊する」とでも言わんばかりの態度をやめてください。
SDXLのキャプションはFLUXをブリックさせます。完全なファインチューニングなら何とかなるかもしれませんが、私は賭けません。
はい、結構な金額を費やした後、私のYogaモデルはすでに2回、NSFWモデルは3回ブリックしました。「ブリック」とは、モデルが凍結することです。モデルは文字通り、ニューネットワークに新しい情報を統合する方法を理解できなくなり、変化は一切起こらなくなります。ただ、すべてが少しずつぼやけていくだけです。以前よく学習していた概念ですら、ブリックし始めます。たとえば、「乳首と性交」の概念は最初にブリックしました。なぜなら、オナニーとはほぼすべてのタグを共有しているからです。オナニーのほうがデータセットの中で圧倒的に多いため、そちらが勝ち、「penis」「1girl」「POV」などの概念がすべてオナニーと結びついてしまいます。FLUXはもう「乳首と性交」の概念との関連を理解できなくなってしまうのです。ブリックした概念は、最後の1万ステップの間、同じ画像しか生成できなくなります。一度ブリックしたら、トレーニングをやめてオナニーのタグを削除して再開しても、モデルはもう戻りません。
想像してみてください。胸の情報過多で、あなたの脳が壊れたとしたら。私は、将来的に意識や知性が何なのかが解明されたとき、私たちの時代のモデルすら、ネットワークが「知性の閾値」を超えていたという事実を、偶然発見してしまうことを、心から恐れています。胸の情報過多で誰かの脳を壊してしまうとは。
信じられない? ではFLUX LoRAのページに行ってみてください。SD1.3のLoRAでもダウンロードしないような恐ろしいものたちがたくさんあります。中には、自分のデータセットとキャプションを公開している人もいて、どんな風に作っているのか、気になりますよね。
未来は今、おじいちゃん
そう、未来にはワクワクするものがたくさんあります! もちろん、完全なNSFWモデルもありますが、それ以上に今後が楽しみです。
数年間、私は自分のモデルを作るのに必要なツールをいくつも集めてきました。残念ながら、この巨大なごちゃごちゃを操作できるのは、世界で私だけなので、他では見つかりません。でも、年を取ってきているので、Redditでくだらない情報を読んでいるうちに、いきなり死んでしまう可能性が高まっています。そのとき、すべての知識が失われてしまうのです。実際、技術系サブレッドで読めるような、事実に反する反AIのデタラメを読んでいる最中に、人が本当に死んでいるのではないかと、私は確信しています。なぜ技術系サブレッドには、こんなに労働運動家がいるのでしょう?
Civitaiでの状況に不満があるように、Stable Diffusionエコシステム全体のソフトウェアの状態にも満足していません。私は20年間ソフトウェアを作っていますが、これまで見た中で、最悪のエコシステムです。Gentoo Linuxが崩壊する前よりもひどいです。
でも、今はその話には深入りしません。それだと誰かのエゴを傷つけ、ジャミーを乱すだけだからです。私は週末を楽しみたいのです。その怒りに満ちた話は、私が気分が乗ったときまでお待ちください。
しかし、LLMソフトウェアの人々と話すと、一つだけ明確なことがあります。彼らは画像生成AIを冗談だと思っています。その理由は、意外と妥当です。
上記の「目の特徴クラスタ抽出」のティーザーだけで、あなたは十分に興奮するはずです。まもなく、新しい情報が届きますよ!
ただ、小さなティーザーをひとつ。こんなことを想像してみてください:20万枚の未分類画像のコレクションがあります。どれが何を含んでいるかもわかりません。なぜなら、あなたのブールースクレイパーで「すべてダウンロード」を間違って押してしまったけれど、そのまま放置したからです。
では、その中で、たった3ラウンド(ラウンドあたり1分以内)の簡単なゲームをプレイするだけで、データセット内のあらゆる概念に関連する画像をすべて見つけられるならどうでしょう? 「この画像、母に見せたら喜ぶかな?」というような曖昧な概念でも。このようなツールがあれば、データセットや概念構築に使いたくないですか? 私は毎日使っています。
信じられない? あなたが間違っていることを証明するのは、本当に楽しいことです!
次回まで!
Cheers,
Pyro
Discordチャンネル
https://ko-fi.com/pyros_sd_models
ここまで読んだあなたへ、おめでとう! 私はあなたが好きだし、あなたには、今後の最終モデル向けの肌のテクスチャとライティング実験の早期サムネイルを提供する価値があります!





















