Old Consistency V32 Lora [FLUX1.D/PDXL]
詳細
ファイルをダウンロード
このバージョンについて
モデル説明

PDXL + ILLUSTRIOUS TRAIN V3.34:
Illustrious は PDXL の派生モデルではなく、全く別物で非常に優れています。機会があればぜひお試しください。
私は、これ専用に Simulacrum のバージョンを訓練しました。
V3-2 ではなく V3.22:
v3.22 の目標は途中で変化し、フラックスのテストや新しいメカニズムの探求に迷い込んでしまいました。十分な知識を身につけ、固定化の方法、タグ付けの方法、そしてフラックス自身がタグをどのように理解しているかを把握した後、ようやく真正なバージョン3を構築できるようになりました。
私の学習と実験のサイクルに付き合ってくださった皆様、ありがとうございます。これは本当に過酷なテスト、失敗、そしていくつかの真の成功の過酷なローラーコースターでした。私は何が可能で、どのように実現できるかを理解し、学んだことを基にした方法論を持っており、これから望むものを生み出すための反復開発を進める自信があります。このプロセスは完璧ではありませんが、進めるうちに改善されていくでしょう。どのようなものを構築するにせよ、理解と反復開発が鍵になります。私はすでに最初の大きなダンニング・クルーガーの崖を越えたと確信しており、実験を経て、基本的なユーザーから上級ユーザーまでに有用な情報を学び、教えることができるようになると信じています。
最初に V4 へ向かうアプローチは有効であると判断しましたが、私が使用していたプロセスは、当初考えていたほど妥当ではありませんでした。より多くの学習と失敗を経験し、今後の成功のための土台を整えています。
ディレクティブベースのバージョニング
各バージョンで3つのコアディレクティブ訓練と、1つのバニラ nd バージョンを導入する予定です。
コアシステムだけでなく、特定のテーマに沿った画像そのものにも、非常に汎用的なディレクティブベースの訓練を使用し、意図したテーマの要素をシステム全体に浸透させます。
タグ付けの技術的側面は、私がシステムに対して何をしているのか、その背後にある理由を理解していないと非常に難解になります。そのため、詳細なタグ付け内容を知りたい場合、画像とタグは混乱を招く可能性があります。
シンプルなタグ付けシステムはそのまま残し、必要な結果を生み出す能力を維持します。
各リリースに「nd」(ノーディレクティブ)バージョンを用意することで、テスト結果の差異と成果を一貫性をもって比較できるようにします。これは「鉱山の鳥」のように、鳥が鳴きやんだら出るときです。これらの兄弟モデルは、使用されたディレクティブによって成功・失敗した概念を統合・正規化して再利用できるようになるでしょう。
このモデルにおける最大の目標は、個々のキャラクターの固定化です。1つの固定されたキャラクターのみを対象とし、その解像度は、正しい FLUX 訓練フォーマットのパラメータに従って上下にスケーリングされます。
V3.2 の問題は、私が考えていたほど顕著ではなかった:
問題の大部分は、私が今後徐々に補完しようとしている、欠落していた情報に基づいていました。単なる反復開発の問題です。
その一方で、v3.21 の訓練済みバージョンは現在テスト中であり、まもなく公開されます。ポーズ制御能力が向上し、比較的長いカメラベースのディレクティブを使用する方向に焦点が移っています。
このバージョンは、テストしたほとんどの LoRA と良好な互換性を示しており、v32 では動かせなかった非常に硬直した LoRA でも動作します。
Flux Unchained、多数のキャラクターモデル、顔ベースのモデル、人間モデルなどとも良好な互換性を示しています。これまでのところ、システムの大部分は他のシステムと重複せず、破損もしていません。これは良いことです。
V3.2 で対処すべき問題:
一部のポーズや角度に一貫性の問題があります。また、from side、from behind、from above、from below のタグを使っている他の LoRA との間で、交叉汚染(クロスコンタミネーション)が発生しています。今後は、新しいタグを検証ユニットとして使用し、カメラ制御の忠実性を保証するための別個の LoRA を訓練します。
アニメスタイルでは基本的に問題なく動作しますが、LoRA が関与すると問題が発生します。
v3.21 の組み合わせタグ:
カメラの位置に基づいて正しく動作するかを確認するために、以下のタグをテストします:
被写体を上から前方ビューで
被写体を上から前方ビューの横角度で
被写体を前方から後方ビューの上角度で
被写体を後方から側面ビューの上角度で
これらと同様のタグを base flux_dev に追加することで、カメラが正しい位置に配置され、画像の忠実性が損なわれていないことを保証します。
私の理解では、このような汎用的なオプションを使用すると、システムは非常に深い深度を学習します。確実な確認のため、さらにテストが必要です。
"from behind"、"sex from behind" などのタグは、"behind" タグとはうまく連携しない可能性があるため、代わりに "rear" タグを使用します。
"from side"、"from behind"、"straight-on"、"facing the viewer"、およびキャラクター固有の Safebooru、Danbooru、Gelbooru の配置・回転に関連するタグは一切訓練しません。これらは「キャラクターとのインタラクション」ではなく、「キャラクターの視点」に基づいて設定します。
また、POV アームが頻繁に出現しないようにするため、タグ付けが意図せずして腕、脚、躯幹を生成しないよう、多数のテストが必要です。
いくつかのポーズは正直うまくいきませんでした:
ここで使われている組み合わせタグシステムは、その目的を十分に果たさなかったため、キャラクター制御を正しく行うための新規タグ組み合わせが必要です。
脚が変形しているか、存在しない。
手臂が変形していたり、不自然な位置に配置されている。
足が欠落している。
上半身が頻繁に過剰に強調されている。<<< 過学習
下半身の衣装が正しく表示されていない。
首の部分がスカーフ、タオル、チョーカー、カラーやその他の装飾品を正しく表示していない。
乳首と性器は大変に混乱している。この場合、適切な NSFW コントローラーを構築するために、それらのバリエーションを正しくフォルダ化する必要がある。
NAI はスタイルとして明確に、スタイルに特化して微調整されるべきである。
衣装のオプションが、本来より多く身体タイプを生成している。
明示的なレーティングが、ときにはまったくアクセスできず、ときには貨物列車のように突き抜けてくる。
クエスチョンブルーな画像が十分に不足しており、明示的なタグ付けシステムにもクエスチョンブルーを追加して、その情報も正しく取得できるようにする必要がある。
一部のアニメキャラクターが悪意のある透視図で生成される。これは、目指すべき「適切な関連透視図」の目標に反する。
四つ足ポーズは比較的安定しているが、明らかに透視図の問題がある。アニメキャラクターを3Dとして扱う頻度が低すぎるため、画像周辺の環境の忠実性をもう少し高める必要がある。
四つ足ポーズは、調整を多く行わないとラインアップで動作しない。
膝まずきポーズは、調整を多く行わないとラインアップで動作しない。
ラインアップやグループは、フラックスのための独特なフォーマットで構成されているようで、さらに調査が必要である。まるで各ループに内部のイネーブルが存在するかのようだ。
いくつかの成功例:
多数の画像で基本忠実度は損なわれませんでした。
数多くの新しいポーズが問題なく動作しています(たまに不自然な場合もあります)。
アニメスタイルは、独自の NAI 方式で変更され、リアリズムがわずかに追加されました。
複数のキャラクターをポーズ付け可能ですが、ときには奇妙な形で。
あらゆる角度からの立ち姿は、NAI のスタイルで非常に優れた忠実度と画像品質を実現しています。
V3.3 はもう少し待つ必要があります。
V3.3 ロードマップ:
このドキュメントの下部にあるリソースを更新し、古いドキュメントをアーカイブ目的で別記事に分離しました。
現在の成果は私のビジョンをよりよく反映しているため、次の目標である「オーバーレイ」に注力できます。
V3.3 では、私が「高アルファ焼却オフセットタグ」と呼ぶ仕組みを導入し、漫画やゲームUI、オーバーレイ、ヒートバー、ディスプレイなどを作成するプロセスを簡素化します。
理論的には、私が正しい焼き込みでオーバーレイを構築すれば、一貫性のある仮想ゲームを自分で作ることも可能になります。
これは、シーンのあらゆる深さから任意の位置にキャラクターを配置する基盤を築きますが、それはその後の段階です。
すでに十分なレベルでスプライトシートを作成できるため、今後数日間、内部のタグシステムをテストし、いくつかのプロンプティングの努力と計算リソースを使って、これらのさまざまなサブシステムを検証します。この機能はすでに存在しており、単に解明するだけかもしれません。
V4 の目標:
これらのすべてがうまくいけば、このシステムは画像修正、動画編集、3D編集、およびそれ以上に広範な機能を含む本格的な製品レベルの能力を備えることになります。ただし、まだ私はそれを完全に理解できていません。
v33 オーバーレイ:
この呼び名は少し誤解を招きます。実際には、次の構造のためのシーン定義フレームワークです。
これは、最も短く、かつ最も長く時間がかかるタスクの両方になるでしょう。アルファを用いたいくつかの実験が必要ですが、オーバーレイはメッセージの表示だけでなく、深度の仕組みによってシーン制御にも使える選択肢になると確信しています。
v34 キャラクターの配置、回転値の計画、慎重なビューpointオフセット:
特定のキャラクターが存在し、ディレクティブに従っていることを保証することが主な目標です。しかし、時々存在しないことがあります。
ピッチ/ヨー/ロールを度単位で使用した完全な数値ベースの回転値を実装します。数学的スキル、画像セット、3Dソフトウェアスキルが不足しているため完璧にはなりませんが、良い出発点となり、FLUX がすでに持っている仕組みと連携できるはずです。
v35 シーンコントローラー:
シーン内の複雑な相互作用ポイント、カメラ制御、焦点、深度などを可能にし、配置したキャラクターと共に完全なシーン構築を実現します。
これを、オーバーレイコントローラーの3D版で、さらに強化されたバージョンだと考えてください。
v36 ライティングコントローラー:
シーンごとに分離された、シーン制御による照明変化。これにより、シーン内に含まれるすべてのキャラクター、オブジェクト、創造物に影響を与えます。
各光源は、Unreal で定義された複数の照明タイプ、ソース、色などのルールに基づいて配置・生成されます。
理論的には、FLUX がそのギャップを埋めてくれるはずです。
v37 ボディタイプとボディカスタマイズ:
基本的なボディタイプの導入に伴い、以下を含むより複雑なボディタイプの作成を導入します:
正しく動作しないポーズの修正
数多くの追加ポーズの追加
より複雑な髪:
- 髪とオブジェクトの相互作用、カットヘア、損傷した髪、色褪せた髪、複色髪、結んだ髪、ウィッグなど
より複雑な目:
- 異なるタイプの目、開いている、閉じている、まぶたを細めているなど
多様な顔の表情:
- 喜び、悲しみ、:o、目がない、シンプルな顔、無顔など
耳のタイプ:
- 尖った、丸い、耳なしなど
多様な肌の色:
薄い、赤、青、緑、白、灰色、シルバー、黒、真っ黒、薄茶、茶、濃茶など
人々が肌の色に敏感であるため、ここでは気をつけていますが、単に衣装のように色のバリエーションをたくさん用意したいだけです。
腕、脚、上半身、腰、ヒップ、首、頭のサイズコントローラー:
二頭筋、肩、肘、手首、手、指など、長さ、幅、太さの調整機能を備える
鎖骨、およびその他の躯幹タグ
腰部、およびその他の腰タグ
ボディサイズの一般化は、既存のbooruが使っていたような固定システムではなく、1から10までの勾配ベースで行う
v38 衣装と衣装カスタマイズ:
- 大体200種類の衣装を用意し、それぞれに独自のカスタムパラメータを設定します。
v39 ハイファイデータから抽出した500種類のビデオゲーム、アニメ、マンガキャラクター:
500人のキャラクター(…えっと、タバコではなく…)は、たくさんいます。はい。明らかにキャラクターデザインやアーキタイプと無関係な、大量のミームキャラクターではありません。
それ以降は、どんなキャラクターでも構築・訓練できます。
大幅な忠実度と品質の向上:
- 多様な高品質のアニメ、3Dモデル、写実的セミリアリズムの画像を数万枚導入し、この特別に微調整されたFLUXバージョンを、指定されたパラメータ内に収まるスタイルに訓練します。
各画像は、ポニーと同様の方法でスコア_1からスコア_10の比率でフィデリティスコアとタグが付けられますが、システムには私の独自のアプローチを加えます。実績次第で調整します。
V3.2 リリース - 4k ステップ:
これは子供向けではありません。絶対にそうではありません。これはSFW/クエスチョンアブル/NSFWベースモデルであり、何にでもトレーニング可能です。
また、これをエロコンテンツ生成用に構築したわけではありません。必要な際にはエロを生成できます。AIに特定の行動を教えると、その分の「荷物」がついてくるのです。これはパッケージの一部です。現在の画像はおよそ33%ずつ、SFW、クエスチョンアブル、NSFWに分かれています。NAIと同様に、安全側に重量が傾いています。
私は、情報を有効化し、教える立場を取り、個々人がそれをどう使うかを選ぶ権利を擁護しています。比較的制御され、慎重な方法で無修正AIに無修正の内容を教えることは、AIの完全なフィデリティ理解への進化と成長に健康であり、AIから画像を生成する人々が毎日ネクロフィリアのような恐ろしい画像を見なくても済むようにするのに健康です。
このモデルは、これまで私が見たどのモデルよりもはるかに有望です。
私のComfyUIワークロードをご使用ください。下記のすべての画像に添付されています。
デフォルトでセーフ有効:
questionable < より多くのクエスチョンアブルなランダムな特徴をアンロック
explicit < ランダムに表示される楽しい要素をアンロック
パース活性化タグ:組み合わせて試してください;前から、横からなど
from front, front view,
from side, side view,
from behind, rear view,
from above, above view,
from below, below view,
主要追加・強化ポーズ:
四つん這い
片膝をついて
しゃがんで
立って
前にかがんで
体を傾けて
横になって
逆さまに
うつ伏せで
仰向けで
腕の配置
脚の配置
頭の傾き
頭の方向
目の方向
目の配置
目の色の濃度
髪の色の濃度
胸のサイズ
お尻のサイズ
腰のサイズ
多数の衣装オプション
多数のキャラクターオプション
多数の表情オプション
セックスポーズはまだまだ作業中です。正しく洗練されるまでは、試行を強く避けてください。それらは私の範囲を超えていますし、現時点ではどの道を進むべきかを判断する脳力がありません。
ポーズメーカー、アングルメーカー、状況セットアップ、コンセプトインポーザー、補間構造は整備されています。さらにバージョンをトレーニングします。
お楽しみください。
V3.2 ロードマップ:
2024年8月25日 5:16 - プロセスが成功し、システムは期待をはるかに超えて高機能であると確認しました。AIは予想を超える指数的に強力な方法でキャラクターをポーズ化する新興行動を発展させました。テストを開始し、結果は絶対的に素晴らしいです。
- 最終解像度:512、640、768、832、1024、1216
2024年8月25日 15時 - すべてのタグが正しく付けられ、ポーズも準備完了です。本格的なトレーニングが今始まり、複数の次元テスト、学習率カウントテスト、ステップ確認、そしてv3.2リリース用の最適な候補を評価するためのさらに多くの作業が続きます。
2024年8月25日 4時 - v3.2の最初のバージョンはステップ1400付近でわずかな変形、ステップ2200付近で高レベルの変形を示しました。これはlazy WD14タグ付けが機能しなかったことを意味します。手動タグ付けに入ります。楽しい朝になりそうです。
2024年8月24日 夕方 - 今は調理中です。
これはうまくいかないと思います。すべてをオートタグ付けし、現在はポーズ角度を切り出しました。WD14が独自に何ができるか見てみます。トレーニングが成功または失敗した後、元のポーズ角度とタグ順序を復元します。すべての意図的なデータがまとまり、使用ケースが密集した状態で、どうなるか見てみましょう。4000枚の画像では、ラテンのキャッシュに時間がかかると予想されますが、特定の「使用ケース」の人形や体に注力したため、少なくともうまくいくはずです。
2024年8月24日 正午 -
頑張っています。
すべての画像は、影のインプリケーション背景を持つようにフォーマットされています。これにより、表面や場所に基づいたフラックスの画像生成が助けられます。フラックスが対応できない欠落したポーズに基づいてすべて構築されています。あらゆる場所で複数重ね合わせ可能な被写体に焦点を当てています。正しい腕の配置に集中し、重なり合うタグされた腕から点Aから点Bへの腕を構築するようにしています。
2024年8月24日 朝 - どうやら腕にも問題があるようです。しかし、大丈夫です。リストに追加します。指摘してくれてありがとう。ここには明らかに交差汚染があり、対処が必要です。私はウェブサイトのシステムには存在しない特定のComfyUIループバックシステムを使用しているため、このバージョンではサイト内生成を無効にする必要があるかもしれません。
2024年8月23日 - 近く均一なポーズ、ピッチ/ヨー/ロール識別子を持つ約340枚の高精細アニメ画像を準備しました。胸、髪、お尻のサイズ差別化、色調変化を確保しています。あと554枚が必要です。v3.2はアニメに重点を置きます。その後、ポニーから素材を取得して、必要なリアリズム要素を十分に合成する予定です。もしフラックスがトレーニング後に許可するなら、フラックスだけを使います!
これらはポーズごとにフィデリティと評価の分離を確実にするはずです。特に、新たに導入した「from」および「view」キーワードの方法論により、理論的には、私が完了したとき、NovelAIのポーズ制御とほぼ同様に機能するはずです。これが私の目標です。キャラクターとその差別化は、もちろん別のお話です。すべてが完璧に整列し、順序正しくなければ、必要なレベルで十分な文脈を提供できず、ベースモデルに十分な影響を与えることはできません。
デザイン上、セーフがデフォルトになるため、全体のシステムはセーフ側に重量をかけ、NSFWを有効化できるように構築されます。
この特定のLoRAを複数回トレーニングし、両者の差別化を厳密に保ちながら、NSFWユーザーにNSFW版で楽しんでもらえるようにします。
このトレーニングが完了したとき、50,000枚の選択されたデータセットをシステムに投入すれば、何か魔法のようなものが生成されると信じています。心の望みに応じて、ポニーと同等の力を発揮する可能性があります。そうすれば、この宇宙が感謝していると安心できます。その後、皆さんは何でも投入でき、フラックスの堅牢性という骨格のおかげで、望むものに自由に変換できるでしょう。
完全な一貫性を備えたv3.2の初期画像セットのトレーニングデータを、整理・トレーニング・テストが完了した時点で公開する予定です。今週末、時間があればv3データも公開します。
横になった状態と角度キーワードの組み合わせで、ポーズの一貫性にいくつかの問題を特定しました。各組み合わせをテストし、次のフェーズに進む前に、それらの基本的な一貫性を強化します。そこでは、基本的な衣装の選択、衣装の変更、そして有効・無効なポーズに基づいた派生形を含みます。さらに、クエスチョンアブルおよびNSFW要素について、後でより詳細な情報を追加する必要があります。次バージョンの後、それらが何であるか推測できるでしょう。
その間、ポーズが指示通りに機能するように、新たな意図的な組み合わせキーワードを作成し、各ポーズ、各角度、各状況ごとの画像数を増やし、各状況における角度も増やす必要があります。また、より複雑な状況や画像を生成するためのプレースホルダーのようなデータセットも作成しますが、フラックスはそれほど必要としないため、進めながら作成します。さらに、失敗ポイントに達したときに他のものにデフォルト設定を切り替える「ベース」タグのセットも導入します。これにより一貫性が多少改善されるはずです。
V3 ドキュメント:
主にFLUX.1 Dev e4m3fn(fp8)でテスト済みです。準備されたチェックポイントマージはアップロード完了時にこの値を反映します。/model/670244/consistency-v3-flux1d-fp8t5vae
これはベースのFLUX.1 Devモデル上で動作しますが、他のモデル、マージ、または他のLoRAでも動作します。結果は混合されます。ロード順序を試してみてください。モデル値は異なる程度で順序的に変化します。
これはFLUXの骨格そのものです。danbooruと同様に有用なタグを強化し、カメラ制御と支援を提供することで、FLUXが本来可能であるがデフォルトでは非常に多くの労力が必要な状況で、非常にカスタマイズ可能なキャラクターを簡単に構築できます。
画像のフィデリティを確保するために、複数のループバックシステムの実行を強く推奨します。一貫性は複数のイテレーションで品質とフィデリティを向上させます。
これは非常に個々人の指向性です。ただし、解像度の構造により、多くの人が似た状況に対応できます。文脈なしで画面上で即座に変化をもたらすLoRAは、一般に文脈に何の貢献もしないため、ほとんど無意味です。人物に特徴を追加したり、人物間の文脈的相互作用を作成するLoRAは、うまく機能します。衣装、髪型、性別制御は機能します。テストしたLoRAのほとんどは機能しますが、一部はまったく効果がありません。
これはマージではありません。複数のLoRAの組み合わせでもありません。このLoRAは、NAIとAutismPDXLから1年間にわたり生成された合成データを使用して作成されました。画像セットは非常に複雑で、これを構成するために選ばれた画像の選定は簡単ではありませんでした。試行錯誤が大量に必要でした。本当に大量に。
このLoRAには一連のコアタグが導入されています。これはFLUXがデフォルトで持っていない完全な骨格を追加します。活性化パターンは複雑ですが、キャラクターをNAIと同様に構築すれば、NAIがキャラクターを生成するように見えます。
このモデルの可能性とパワーは過小評価できません。これは絶対的なパワーハウスのLoRAであり、その可能性は私の範囲を超えています。
注意しないと、依然としていくつかの怪物を生み出す可能性があります。標準的なプロンプティングと論理的な順序を守れば、すぐに美しいアートを構築できるはずです。
解像度:512、768、816、1024、1216
推奨ステップ:16
FLUXガイド:4、または頑固な場合は3-5、非常に頑固な場合は15以上
CFG:1
2つのループバックで実行しました。最初は1.05倍のアップスケールと0.72–0.88のディノイズ、2つ目は0.8のディノイズで、導入または除去したい特徴の数に応じてほとんど変化しませんでした。
コアタグプール:
anime - ポーズ、キャラクター、衣装、顔などのスタイルをアニメに変換
realistic - スタイルをリアリスティックに変換
from front - 前方からの視点。肩が前向きに整列し、体の中心部分が観察者に向いている状態
from side - 横からの視点。肩が垂直に観察者を向いている状態。つまりキャラクターが横を向いている
from behind - キャラクターの真後ろからの視点
straight-on - 垂直正面からの視点。水平な平面角度に適している
from above - 個体に対して45~90度下向きに傾いた視点
from below - 個体に対して45~90度上向きに傾いた視点
face - 顔の詳細に焦点を当てた画像。顔の詳細が頑固な場合に有効
full body - 個体の全身ビュー。より複雑なポーズに適している
cowboy shot - 標準的なカウボーイショットタグ。アニメにはやや効果的だが、リアリズムにはそれほど効果的ではない
looking at viewer, looking to the side, looking ahead
facing to the side, facing the viewer, facing away
looking back, looking forward
混合タグは意図した混合結果を生み出しますが、その結果はさまざまです
横から、正面 - 個人または複数の横側を対象とした水平面のカメラ
前から、上から - 前方上方から下方へ45度傾いたカメラ
横から、上から - 横上方から下方へ45度傾いたカメラ
後ろから、上から - 後方上方から下方へ45度傾いたカメラ
前から、下から
前から、上から
前から、正面
前から、横から、上から
前から、横から、下から
前から、横から、正面
後ろから、横から、上から
後ろから、横から、下から
後ろから、横から、正面
横から、後ろから、上から
横から、後ろから、下から
横から、後ろから、正面
これらのタグは似ているように見えるが、順序によって非常に異なる結果を生むことが多い。たとえば「後ろから」タグを「横から」タグより前に置くと、システムは後方を優先的に重みづけるが、上半身がねじれ、体が45度いずれかの方向に傾くことがよく見られる。
結果は曖昧だが、確かに実用可能である。
特徴、色合い、衣装なども機能する。
赤髪、青髪、緑髪、白髪、黒髪、金髪、銀髪、金髪、茶髪、紫髪、ピンク髪、水色髪
赤目、青目、緑目、白目、黒目、金目、銀目、黄目、茶目、紫目、ピンク目、水色目
赤ラテックスボディスーツ、青ラテックスボディスーツ、緑ラテックスボディスーツ、黒ラテックスボディスーツ、白ラテックスボディスーツ、金ラテックスボディスーツ、銀ラテックスボディスーツ、黄ラテックスボディスーツ、茶ラテックスボディスーツ、紫ラテックスボディスーツ
赤ビキニ、青ビキニ、緑ビキニ、黒ビキニ、白ビキニ、黄ビキニ、茶ビキニ、紫ビキニ、ピンクビキニ
赤ドレス、青ドレス、緑ドレス、黒ドレス、白ドレス、黄ドレス、茶ドレス、ピンクドレス、紫ドレス
スカート、シャツ、ドレス、ネックレス、フルアウトフィット
複数の素材;ラテックス、メタリック、デニム、コットンなど
ポーズはカメラと組み合わせて機能する場合もあれば、調整が必要な場合もある。
四つん這い
片膝をつく
横たわる
横たわる、仰向け
横たわる、横向き
横たわる、逆さま
片膝をつく、後ろから
片膝をつく、前から
片膝をつく、横から
しゃがむ
しゃがむ、後ろから
しゃがむ、前から
しゃがむ、横から
足や脚の制御は非常に繊細なので、少し試してみてください。
脚
脚を並べる
脚を開く
脚を広げる
足を並べる
足を開く
その他の数多くのタグが使用・含まれており、無数の組み合わせが可能
人間の特徴を指定する前にこれらのタグを前置きで使用し、FLUX自体のプロンプトの後には使用しないこと。
プロンプティング:
単にやってみよう。何でも入力して、何が起こるか見てみよう。FLUXはすでに膨大な情報を備えているため、ポーズなどを活用して画像を補強してください。
例:
台所の椅子に座る女性、横から、上から、カウボーイショット、1girl、座っている、横から、青髪、緑目

空を飛びながら岩を投げるスーパーヒーロー女性、彼女の周りには強力で光り輝き脅威的なオーラが漂っている、リアリスティック、1girl、下から、青ラテックスボディスーツ、黒チョーカー、黒ネイル、黒く塗った唇、黒目、紫髪

レストランで食事をする女性、上から、後ろから、四つん這い、お尻、タンガ
はい、うまくいきました。たいていは这样です。
正直、このシステムはほとんどの異常な要求に対応できますが、私の網羅的な範囲を超えているのは間違いありません。混乱を軽減し、機能させるために十分なポーズタグを含めるよう努力しましたので、より核心的で有用なタグにとどめてください。
このシステムの開発には430回以上の失敗を経て、ようやく成功した理論の系列にたどり着きました。必要な情報を完全にまとめ、利用したトレーニングデータを今週末にも公開する予定です。長く困難なプロセスでしたが、皆さんが楽しんでくれることを願っています。
V2 ドキュメント:
昨夜、とても疲れていたため、完全なまとめと発見を終えることができませんでした。できるだけ早く公開する予定です。おそらく仕事中、テストを実行しながら値を記録するでしょう。
FLUXトレーニング導入:
かつてPDXLは、Danbooruタグが付いたわずかな画像だけでNAIと同等の微調整結果を生成できました。その場合、画像数が少ないことは強みでした。しかし、今回は画像数が少ないのはうまく機能しませんでした。何か、もっと必要でした。力強い何か。
モデルには多くの情報が含まれていますが、学習されたデータ間の差異は当初予想していたよりもはるかに大きい分散性を持っています。より大きな分散はより多くの可能性を意味し、なぜこの高分散でうまく機能するのか、私は当初理解できませんでした。
いくつかの調査の後、このモデルがその高分散性ゆえに非常に強力であることがわかりました。これは、画像を深度に基づいて「指示」し、他の画像のノイズを利用して画像をセグメント化・重ね合わせる仕組みです。まるでオーバーレイのガイドポストのように。それ以来、モデルのコアの詳細を破壊せずに、どのようにしてこれをトレーニングできるかを考え始めました。最初はリサイズで行おうとしていましたが、その後バケットリングを思い出しました。これが最初のポイントです。
私はこのプロセスをまったく無計画に始め、推奨設定に基づいて実行し、結果を見て判断しました。これはゆっくりとしたプロセスなので、傍で論文を調べて進捗を早めています。もし精神的な余裕があれば、すべてを同時に進めたいですが、私は一人の人間であり、仕事もしなければなりません。とにかくあらゆる手段を投じました。もし余裕があれば、50個のプロセスを同時に動かしていたでしょうが、実際にそのような設定に時間を割けません。有料で行うことは可能ですが、自分でセットアップできません。
SD1.5、SDXL、PDXL LoRAのトレーニング経験に基づき、最適なフォーマットを採用しました。結果はまあまあでしたが、これらには明らかに何か間違っている点があり、後で詳しく説明します。
トレーニング形式:
数つのテストを実行しました。
テスト1 - Danbooruサンプルから750枚のランダム画像:
UNET LR - 4e-4
- 他の要素はほとんど影響がなく、デフォルトのままでも問題ありませんでしたが、解像度バケットリングへの注目のみ重要でした。
1024x1024のみ、中央切り抜き
2k〜12kステップ
Danbooruタグプールから750枚のランダム画像を選び、タグの均一性を確保しました。
それらにmoatタガーを適用し、タグファイルにタグを追加して、タグの上書きを防ぎました。
結果は明るくありませんでした。混沌は予想通りです。生殖器のような新しい人体要素の導入は、たまに成功するか、ほぼ存在しませんでした。これは他の研究者の発見とほぼ一致しています。
しかし、モデル全体が劣化するとは予想していませんでした。タグが重複していないと信じていたからです。
このテストを2回実行し、それぞれ約12kステップの2つ無駄なLoRAが出来上がりました。1k〜8kステップのテストでは、タグプールのピークや曲線に注意を払っても、ほとんど有益な変化は見られませんでした。
何か他にもあるはずです。見落としている何か。人間的要素やCLIP説明ではない。もう少し、何か…。
この失敗ポイント付近、私は発見しました。この深度システムは、2つのまったく異なる、そして逸脱したプロンプトに基づいて補間されています。これら2つのプロンプトは補間的で協調的です。この仕組みの決定方法は私には不明ですが、今日論文を読んで数学的背景を理解しようとしています。
テスト2 - 10枚:
UNET LR - 0.001 <<< 非常に強力なLR
256x256、512x512、768x768、1024x1024
初期ステップでは多少の逸脱が見られ、SD3テストで見られたようなバーンの程度と似ていました。しかし、それはまともではありませんでした。約500ステップあたりから「染み」が始まり、1000ステップではほぼ無意味になりました。繰り返し使用していることは分かっていますが、失敗するための良い実験でした。
逸脱はここで非常に有害です。新しいコンテキスト要素を導入し、それをスナックマシンのように変えてしまいます。人の要素をほぼ無意味なもの、または悪く設定されたインペイントで生じるような完全に焼けたアーティファクトに置き換えます。FLUXがどれだけのダメージを受けても機能し続けるのか、驚異的でした。このテストはFLUXの耐久性を示す非常に強力なものでしたし、私の試みに対して驚異的に抵抗しました。
これは失敗でした。異なる設定で追加のテストが必要です。
テスト3 - 500枚のポーズ画像:
UNET LR - 4e-4 <<< これは4分の1に減らし、ステップ数を2倍にする必要があります。
フルバケットリング - 256x256、256x316など。さまざまなサイズの画像を大量に与え、あらゆるものをバケットリングさせました。予想外の結果でした。
結果は文字通りこの一貫性モデルのコアです。その強さのため、思ったよりはるかに多くのダメージを与えたかもしれません。しかし、これは実際とても価値のあるものでした。
注意点:アニメは一般的に被写界深度を使用しません。このモデルは被写界深度とぼかしを使って深度を区別することで非常に優れています。深度の差異を確実にするために、これらの画像に深度コントロールネットを適用する必要があるでしょう。しかし、その方法は現在のところ不明です。深度マップとノーマルマップを同時にトレーニングすればうまくいくかもしれませんが、モデルが否定的プロンプティングを備えていないため、完全に破壊する可能性もあります。
更なるテストが必要です。追加のトレーニングデータと情報が必要です。
テスト4 - 5000枚の整合性バンドル:
UNET LR - 4e-4 <<< これは40分の1に減らし、ステップ数を20倍にする必要があります。このようなものをモデルのコアに学習させるのは簡単ではなく、迅速に実行できるものではありません。現在のプロセスでは、コアモデルを破壊せずに数学的にうまく処理できません。そこで私はこのテストを実行し、初期の発見を公開しました。
ここに完全なセクションとその後のセクションを書いていましたが、マウスボタンをクリックした瞬間にすべて消えてしまいました。後で書き直す必要があります。
大きな失敗:
初期の12kステップLoRAの学習率は、あまりにも高すぎました。このシステムは勾配学習に基づいていますが、私が教えた速度は高すぎて、モデルを破壊せずに情報を保持できませんでした。単に「燃やした」のではなく、モデルを私が望むように再トレーニングしてしまったのです。問題は、私が何を望んでいるのか分からなかったことです。したがって、このシステムは方向性がなく、勾配深度もなかったため、失敗する運命でした。ステップを増やしても無駄でした。
FLUXの「スタイル」は、PDXLやSD1.5に基づいて人々が考える「スタイル」とは異なります。勾配システムは確かにスタイル化しますが、あまりにも多くの情報を急いで押し込むと、全体構造が深刻に損なわれます。これは非常に破壊的です。PDXL LoRAは、既存のものを増強するセットでした。しかし、FLUXでは、まったく新しい情報を学習させるため、その違いが顕著です。
重要な発見:
アルファ、アルファ、そしてもっとアルファ<<<< このシステムはアルファ勾配に強く依存しており、笑えません。すべての要素は、写真的な詳細に基づいてアルファ勾配を適切に処理する必要があります。距離、深度、比率、回転、オフセットなどが、このモデルの構成に不可欠な要素です。適切な構成スタイルを構築するには、単一のプロンプトだけでなく、これらの詳細が複数必要です。
すべてを正しく記述する必要があります。シンプルなDanbooruタグは本質的にスタイルです。あなたが実装したいシステムのスタイルを強制的に認識させているにすぎません。そのため、必要なコンセプト割り当てタグを含めずに新しいコンセプトを強制しても、スタイルとコンセプトのリンクが失敗し、完全にゴミのような出力になります。ゴミを入力すれば、ゴミが出力されます。
大量のポーズ情報を使用した場合、ポーズトレーニングは非常に強力です。システムはすでにほとんどのタグを認識していますが、何を認識しているのかは私たちにはまだ不明です。特定のタグを使って、存在するものを望むものにリンクするポーズトレーニングは、タグの整理と微調整において非常に強力です。
ステップドキュメント;
v2 - 5572枚の画像 -> 92ポーズ -> 4000ステップ FLUX
NAIをSDXLに導入するという元の目標は、今やFLUXにも適用されています。今後のバージョンにご期待ください。
安定性テストが必要です。これまでのところ、PDXLが処理できる範囲を超えた明確な能力を示しています。追加のトレーニングが必要ですが、このような低いステップ数で予想をはるかに上回る性能を発揮しています。
私は、ポーズトレーニングの最初の層は約500枚の画像程度であると考えています。そのため、主にこれが効いているはずです。完全なトレーニングデータは、整頓された画像セットを用意して数をカウントした時点でHuggingFaceに公開します。誤った画像や私が選んだゴミを混ぜて公開したくありません。
続きはここで読めます:
https://civitai.com/articles/6983/consistency-v1-2-pdxl-references-and-documentation-archive
重要なリファレンス:
私は喫煙しませんが、FLUXは時々必要です。
- ワークフローおよび画像生成アシスタント。私は主にComfyUIのコアノードを使用しましたが、実験と保存のために他のノードも頻繁に利用しています。
- 非常に強力で理解しづらいAIモデルで、膨大な可能性を秘めています。
- 彼らがいなければ、私はこのプロジェクトを作ろうとも思わなかったでしょう。NAIのスタッフ全員に、彼らのハードワークと強力な画像生成器、そして圧倒的なライティングアシスタントに対して称賛を送ります。彼らに金を投じてください。
- 他们是FLUXの開発者であり、そのモデルの柔軟性の大部分、あるいはほとんどすべての功績を有しています。私は単に、まるでリヴィアサンのようなものを目的地へと微調整し、導いているに過ぎません。
- 非常に強力なタグアシスタントです。自分自身で作成しようとしていましたが、この強力なツールに出会うまででした。
- 私が自分のFluxバージョンをトレーニングするために使用したツールです。やや神経質で繊細ですが、多様なシステムで非常に良く動作し、目的を達成します。
- 戦場のライバルを忘れてはいけません。この強力なモデルは、広範な勾配フィールドの画像生成において圧倒的な性能を発揮し、貴重な研究・理解のツールであり、今回の方向性と進歩への大きなインスピレーションの源です。




















