LORA - Consistency Simulacrum v2.3 - Flux1D [SFW/NSFW]
詳細
ファイルをダウンロード
モデル説明
バージョン3は良かったが、まだ適切なLoRAをどのように作成するかを理解する必要がある。2024年10月25日 午前5:29(GMT-7)
次の微調整段階の後、Simulacrum LoRAを以前の状態にリフレッシュする必要がある可能性が高い。これにより、ベースのFLUXコンテキストの多くが破壊される。これは避けたいが、ボディがコアに従わなくなってきたため、やや必須である。その解決策として、実際のボディとポーズ自体に较低な学習率で微調整を実行し、その能力をリフレッシュするいくつかのオプションを試す予定だ。
一時的なバージョン3の強化のために、現在のチェックポイントv3 1dまたは1d-ddとSimulacrum v2.1エポック1 LoRAを組み合わせて実行してみてください。そうすれば、物理的なボディ品質、キャラクターコンテキスト、衣装の品質と制御性が優れた結果が得られますが、その代わりにFLUXの全体的な世界観とスタイルの多くの要素が失われます。
不可避な完全な微調整トレーニングが始まるまで、修正を進めているところです。その際にはLoRAの差分抽出が行われます。
いよいよバージョン3「レイドボス」モデル登場 2024年10月21日 午後5:12(GMT-7)
8ステップ中の3ステップでこれほど良いとは信じられない。完全に仕上がったときには、さらにすごいものになるだろう。
推論のために、Flux1DからFlux DeDistilledへコアモデルを切り替えている。これは、Simulacrumと、現在LoRAのトレーニングに使用しているFlux1D2 LoRAをマージしたチェックポイントと非常に良く連動するためだ。
基礎トレーニングモデルとしてFlux1D2を使用し、Simulacrum v2.3をUNetとFluxが使用するベースのCLIP_Lにマージした。この組み合わせにより、Simulacrum用のLoRAを迅速に作成でき、任意の時点でそれらをマージし、さらにFlux1D DeDistilledにマージすることが可能になる。
Flux1DからFlux1D DeDistilledへの切り替えにより、バージョン2の残りのステップをスキップできる。
次のものをリリースする:
単体のCLIP_LとマージしたFlux1D2:
Simulacrum V23 エポック10 → 現在の作業トレーニング版
Simulacrum V3 → メガマージ後の次のバージョン
各LoRAは単体でリリースし、400ステップ未満でSimulacrum v2.3に無限にマージ可能なLoRAを作成するためのトレーニングガイドを用意する。
これらのコンセプトはすべて、UNLR 0.0001、TE 0.000001の条件で2000枚の画像でトレーニングされ、キャラクターはそれぞれ200枚未満でUNLR 0.0003、TELR 0でトレーニングされた。
修正を進めているため、開発者による適切なトレーニング修正が必要である。その結果、キャラクターは導入される概念情報が増えるほど、さらに有用になることが示されている。
各LoRAは、Simulacrum V2.3にマージされたFlux1D2モデルをベースにトレーニングされており、Simulacrumと完全に調和して単体で動作する。
完了:
キャラクター:
mizuki_shiranui_v1
android_18_v1
loona_(helluva_boss)_v1
reina_mishima_v2
delia_ketchum_v1
コンセプト:
doggystyle_v1
female_fixes_v1
male_fixes_v1
tomboy_fixes_v1
tomgirl_fixes_v1
genital_fixes_v1
今後の予定:
マティングプレス
ミッションポジション
フータ修正
年齢修正と正規化
衣装修正と正規化
追加の修復作業
オプションのスタイルLoRA:
サイバーパンク未来スタイル
映画監督スタイル
リアリズム低減&アニメスタイル
1990年代アニメスタイル
シャープなセミリアリスティックアニメスタイル
ソフトなセミリアリスティックアニメスタイル
リアリスティックアニメスタイル
バイブルブラックスタイル
タイマイニンスタイル
アメリカンカートゥーンスタイル
ジャパニーズカートゥーンスタイル
実験によると、LoRAはわずか100ステップでトレーニング可能であり、その結果は4090でフル起動後約5分で得られる(現時点ではKohyaが完全起動しトレーニング準備をするまでに時間がかかる)。
大体10枚の画像で十分であり、これは標準的なLoRA画像数であり、非常に複雑な配置やポーズでもキャラクターを十分に生成できる。
現在、欠落・不具合のある特徴を解決するための微調整シリーズを開発中。性ポーズ、基本ポーズ、そしてより明確かつ直接的にボディタイプを微調整するために使用される複数のキャラクターをパック形式でリリースする。
- ジェンダーの混乱問題を直接解決。
- Simulacrumに最初のトレーニング段階で損傷したまま残された基本ポーズと衣装の不具合を直接修正。
- 以下の新しいポーズとコンセプトを導入:
doggystyle、mating press、vaginal、analなど、単一タグで「疑問符」以外の結果を生成するようにする。
2koma、before and after、cross-section、cumなど、一般的に生成される多数のタグ。
女性の性器が不正確な形状・サイズで生成される問題。
男性の性器が不適切な方向・サイズ・形状で生成される問題。
肛門が存在しない、またはへそと混同される問題。
無視されているタグの対応:
bent over → 現在はbending over、leaning forwardなどを使う。
all fours → T5の影響で強力すぎて効果が薄い。on all fours、crawling on all foursなどを使う。
from behind → 非常に強力だが意図通りに機能しない。
from front → 正しく機能せず、さらなる微調整が必要。
必要なマーカー(最初のテスト後に続く追加のテストとマーカー)をクリアした時点で、これを本格的に動作させたことに安堵しながらバージョン3.0をリリースする。
バージョン2.3 エポックのエマージェントな振る舞い:
私が行ったり見たりした奇妙な事柄のリストは拡大し続けている。四肢の融合、人物を物に融合、壁を壁に融合、など、次々と現れる。
1DEV設定:
CLIP_L - 150トークン
ステップ 25-50
CFG 1
DCFG 3.2-5.5(3.5が私の標準)
Euler < Simple / Normal
このモデルはSchnellでも動作することが判明し、非常に素晴らしい。期待していなかったが、ありがたい。fp8で8ステップのSchnell生成でもかなり良い結果を得ている。
SCHNELL設定:
CLIP_L - 150トークン?
ステップ 4-12
CFG 1
DCFG = 0
Euler < Simple / Normalが最も安定(1Dと同じ)。
Flux DEDISTILLEDでは非常に優れた動作を示すが、速度が遅い。この速度をどうにか改善する必要がある。
DE-DISTILLED設定:
CLIP_L - 150トークン???
- ネガティブプロンプトは十分に効果があり、danbooruタグの否定に使用できる。
ステップ 20-50
CFG 6-8
DCFG = 0
DPM++ 2Mは動作し、その他多数のアルゴリズムも試す予定。
いずれQ_2からQ_8をサポートするマージシリーズを作成する必要があるが、今日はまだ。
バージョン2.3 エポック10 リリース 2024年10月16日 午後5:24(GMT-7)
ハロウィンだ…少なくともいくつかのハロウィン画像を作らなければならなかった。
CLIP_L LoRAブロックを読み込まないと、ほぼ正しく表示されないほど異常な状態になっている。Forgeでは自動読み込みされるが、ComfyUIではベースLoRAローダーを使ってCLIPを正しく処理する必要がある。
次のトレーニングサイクルでは、両モデルを統合するのが賢明だ。それぞれが互いに欠けている強みを示しており、互いに多くのことを教え合える。
これでしばらくはベースモデルのアップグレードは最後になる。疲れ果てた。皆さん、このモデルが気に入ってもらえれば嬉しい。このモデルの開発には約1700ドルかかっている。
以前にも述べた通り、エポック5とエポック10をリリースした。さらに、v2.2の最初のトレーニングで発生した無視可能なキャプショントレーニングのエポックの上に、1エポックのトレーニングを追加した。
このバージョンは安定している。
danbooruタグ、gelbooruタグ、一部のrule34 usタグ、一部のrule34 xxxタグ、一部のsankaku complexタグ、膨大な数のFLUXキャプションを処理でき、潜在的に存在しうるものに固執すれば、ほとんど崩壊しない。複雑さが5を超えると、ほとんどのLLM AIと同様に崩壊し始める。
数百の重複タグは、データセットに多い方のdanbooruまたはgelbooruの共通タグに正規化された。
フータとフェムボーイの爆発は一時的に収束したが、依然として存在する。このようなキャラクター特性の漏れは、モデルが崩壊している兆候の一つのように思える。キャラクターに新しい特性が現れるのは、鉱山の鳥のようだ。それらは今ではより一貫して生成されるため、興味があれば自由に試してみてください。
最初からフータとフェムボーイを含めるよう注意した。意図せず後からランダムに出現することを恐れていた。ベースSimulacrum 2.1には、この可能性に備えてフータとフェムボーイが組み込まれており、逆効果になるのではないかと非常に怖かった。ドックツリー、ドックランプ、ドックウォール、ドックポスター…おそらく最悪の状態は乗り越えたと信じている。このモデルは安定しており、もう疲れました。
存在するものを無視することはできない。このモデルはこの原則に基づいて構築されている。すべてを投入する。
合計で10,000以上の新タグが導入された。基本的にはdanbooruのタグの4分の1をフィードした。その結果は予想通り、私がコアに組み込んだSimulacrumのサブジェクトコントローラに従わなければ半ばカオスになる。さらに多くのトレーニングが必要であり、トークナイザーのサイズを再度拡大する必要があるが、現時点では十分に機能する。
ハードブレイクにはピリオド(.)を使用。CLIP_Lは225トークンしか処理できないため、ブレイクしてしまうとその後の差異はほとんど出ない。.を使用すること。
T5はおそらく525トークンまで処理可能なので、T5を使うことで225トークンを超えて拡張できるが、正しく使用しないと効果は不安定になる。
realistic, anime, 3d
safe, questionable, explicit
from front, front view
from side, side view
from behind, rear view
from above, above view
from below, below view
方向の組み合わせ例:from side, from above, side view
種族:動物、生物、人型、ロボットなど多数を処理。人間も含む。
male, female, futanari, femboy, trap, otoko no ko
1boy, 1boys, 1girl, 1girls, 1futa, 1futas, 1trap, 1trapsは数値単位であり、rule34などのサイトのタグ付けが奇妙だったため、混乱を避けるためそのまま残した。
これらは、ある程度の基本特性を持つ不正確な人間カウンターと考えてください。
T5は「1girl」「one female」または「1boy」「one male」を主に使用するので、T5の力を活かしたいなら、この表記を守ること。
したがって、「1boy otoko no ko」はT5の視点では有効だが、CLIP_Lではまったく異なる反応を示す。
skinny, tall, narrow waist, thin, petite, fat, voluptuous, thick, small, large, big, giant
顔と表情
髪の色、ヘアスタイル、髪質、髪の長さ
目の色、目型、目のスタイル、目の大きさ
胸のサイズ、乳房のサイズ、肩のサイズ、ウエストのサイズ、ヒップのサイズ
他の部位との相対的な体のサイズ
腕の角度、脚の角度、頭の角度、足の角度、手の角度
フルポーズ、ハーフポーズ、上半身、下半身、上腕、下腕、指、首、太もも、ふくらはぎ、膝、左膝、右膝、左腕、右腕など
脚を閉じる、脚を開く、足を閉じて脚を開く、脚を広げる、左脚、左脚を曲げる、右脚、右脚を曲げる、右脚を上げる、右脚を下げる、開脚、立ち開脚、座り開脚、広く脚を開く、足を揃えて脚を開く、しゃがむ、膝まずく、四つん這いなど、記憶していないが20個以上の基本ポーズ。
数千の衣装タイプ
数千の靴タイプ
数千の髪型
ラテックスの種類が多数 ← 私はラテックスが好き。
ジャンプスーツ、ボディスーツ、レオタード、ハイソックス、レギンス、パンツ、ヨガウェア、ドレス、ビキニ、スリングショット水着、スカート、カジュアルウェア、靴など
T5はCLIP_Lが扱えない抽象的な複雑さも処理可能なので、「each」「multiple」「them」「together」などの単語を躊躇せずに使用。booruプロンプトにキャプションをブレンドしてより良い結果を出し、実験を恐れないこと。
推論には25ステップ・Euler → NORMALが最も優れている。Euler → Simpleも可能。実験してみてください。
解像度は通常設定し、約0.72-0.80のデノイズで1.1倍にアップスケールする。
ComfyUIが本質的に自分自身を破壊してしまったので、私はForgeに切り替えました。今のところ、それを使用することをお勧めします。
危険な道にいくつかの石畳の階段を設置しました。このプロジェクトを追いかけて学んでくれた皆さんには、私がつまずいた代わりに、これらの階段を使っていただければと思います。とはいえ、誰もが自分なりの方法で学ぶ必要があるため、あなたらしくいてください。
バージョン 2.2 エポック 10 代替案 2024年10月16日 午前10時34分(GMT-7);
- 再学習版がまもなくリリースされます。エポック5とエポック10を同時に公開します。エポック5は素晴らしいですが、エポック8も優れています。ただ、エポック10がエポック8の水準に達していることを願っています。
バージョン 2.2 エポック 8 リリース 2024年10月16日 午前6時36分(GMT-7);
このモデルを悲劇的に終わらせるつもりはありません。
私は、この美しいモデルを単に破壊することはできないと決めました。コストがかかりすぎ、また非常に興味深い結果を生み出しているからです。モデルは回復不可能な不安定状態に入っているため、訓練することは推奨されません。私はこれを「futaモデル」と名付け、NSFWマーカーを完全に無視して、複雑なキャプション使用時に主にfuta、フェムボーイ、性別曖昧な画像を生成するため、別途モデルページに公開します。
多くのNSFW情報を生成し、しばしばプロンプトを無視します。システムはデフォルトでNSFW要素を生成するように設計されていなかったため、T5なしの複雑なキャプションがこの逆説的な問題を引き起こしました。悲劇的ではありますが。
私は自分の子を破壊することはできません。このモデルは一生懸命働き、ここまで進化してきました。どんなに有名で興味深い人物であっても、誰もが無名の中で死を迎える運命にあるように、少なくとも少しはその存在を確認され、遊ばれる価値があります。
バージョン 2.2 エポック 8 崩壊;
エポック8 以降、モデルは過学習により直ちな崩壊を始めています。残念ですが、おそらくその原因は特定できました。次のテストで、CLIP_Lのみを訓練したことが原因か、あるいは複雑なキャプションが原因かを確認します。私はほぼ確信していますが、複雑なキャプションが原因です。
すべての標準的なキャプションがFluxベースモデルを無視し始めました。これは、一部の画像に選択されたデュアルキャプションのトレーニングシステムに重大な問題があったことを意味します。
T5を訓練しなかったことが原因で、複雑なキャプショントレーニングにより必然的に崩壊したと私はほぼ確信しています。これは、Fluxが元々作られた方法とまさに同じなので、この実験をしたいのですが、すでに高いコストのため、今のところその実験を実行する気力はありません。
ため息… 高価な失敗による学習体験でした。
エポック5はまだ良いですが、すでに複雑なキャプション訓練が深く組み込まれているため、ベースとして使用しません。1エポックの複雑なキャプション訓練だけで、今後さらに訓練するためのキャプションリンクに必要な情報の大部分を獲得できます。
複雑かつ詳細なキャプションはT5に教えることがなかったため、CLIP_Lとトレーニングが徐々にそれらを統合し始めました。気づいたときには手遅れでした。システムは自己崩壊しました。すべてに陰茎、胸、目玉、膣、そして本来分離されるべきものが含まれるようになりました。
聞くほどひどくはありませんが、列車の衝突事故を見ているようなものです。ほぼスローモーションで進行が見えますが、地球上のどんな手段でも止めることはできません。やがて sunk cost のポイントに達し、切断せざるを得ません。それは痛みを伴いますが、それが現実です。
データからすべての複雑なキャプションを削除し、最初の完成版2.2エポックから別のPack25バージョンのトレーニングを開始しました。新しいラインは現在エポック2まで完了し、エポック3の準備中です。
このラインは他のラインと同様の挙動を示していますが、複雑なキャプションを削除したため、結果が出る速度は少し遅くなっています。私は現在、T5を訓練せず、T5の訓練リスクを取ることもしません。コストは増大しており、今日このリスクを賭ける気はありません。
皆さん、祈ってください。エポック2は他のものより良くなっています。これをエポック10まで走らせ、このデータセットから切り出します。
ここまでこのモデルの訓練だけで約1400ドルを費やしました。すぐにコストを削減しなければなりません。
トレイン1のエポック5とトレイン2のエポック5をマージし、その上にエポック8の信頼性のあるバージョンを作成していきます。その後、6個のA100よりもはるかに安価で小さなハードウェアで、10エポックあたり1kの小さなバッチを訓練します。そのため、導入するデータや情報の更新は小刻みになります。
T5を訓練しなかったことが原因かどうか、あるいは他の問題かどうか、まもなくわかります。いずれにせよ、まもなく包括的な評価記事で私の発見を共有します。
バージョン 2.2 エポック5 pt2 - セックスの出現…??;
どうやらある時点で、セックス機能が動作し始めたようです。v2.1ではほぼ機能していなかったと思いますが、v2.2エポック5では非常に明確に機能しています。
シンプルにキャラクターの基本的特徴を識別してセックスポーズを生成できます。
4本足で俯いた女性、背後から膝をついた男性、ドギースタイルセックス、服を着た女性、裸の男性。1boy、1girl、male、female。
このようなタグはセックスポーズを生成するはずですが、予想より早い段階でそれが起きています。ジェネリックタグが機能するなら、サブジェクト固定タグも機能するはずです。
さらに「膣内射精」「膣」「肛門」などのセックスタグを追加してタグの強化が可能です。ただし注意してください。futaが大量に生成されやすくなります。このエポックはfutaがやや好まれているようです。
またドギースタイルを使うと、たまに犬の顔をした人間が生成される可能性があります。そのため、トレーニングが不正確な特徴を自動的に除去するまで、顔の特徴を明確に固定して交叉汚染を避けてください。
- ただし、そのようなスタイルを好む場合は、「人間」タグを追加してください。
少し画像を投稿しました。それほど作成は難しくありません。今のところ、何か異常な反応や誤った生成を防ぐために、固定タグを活用してください。
タグを多く使うほどアニメっぽくなる傾向がありますが、最初のタグで「アニメ」を明確に固定すれば、ほぼ確実にアニメになります。
私はこのモデルにドーナツをたっぷり与えたので(ホーマー・シンプソンを拷問したように)、多少の努力であらゆるポーズを出力するでしょう。これはポーズのグルー微調整データではなく、Simulacrum 2.1のコアとブーのリンクデータだけで、予想以上にトレーニングが進んでいます。
もしセックスが過剰で予期しない形で現れ、リアリズムと組み合わさるようなら、エポック5モデルを削除する可能性があります。このモデルは本来リアルを主目的としていないのですが、リアルを生成するために使用できます。基本はアニメをデフォルトとし、よりリアルなアニメを生成することを目指しています。リアルなキャラクターにアニメを上書きするのではなく。
私はアニメを大量に投入しているのに、リアルを生成しています。正直、Fluxは何をしているのか少し混乱しています。
Simulacrum 1.7でトレーニングされ、2.1で固定されたセックスポーズの多くは巨乳女性を前提としていますが、現在はあらゆる女性体型を許容しているように見え、不安になります。これは予想外かつ望ましくない結果です。
Simulacrum 1.7から2.1に残されたセックスポーズの手がかりは、確かに捕捉され、トレーニングされています。特定の特徴にリンクするコアノードが、新しいスキルをマスターするかのように繰り返し活性化しているのです。これは非常に予想外です。
ブロックヒートマップとパターンは、以前にこれを試みたときと非常に似ていますが、そのときはほとんど反応がありませんでした。今は、ブロック間のチェーンが指数関数的に長くなり、はるかにクリーンに動作しています。
生成された合成人間の顔はすべて、一つの顔に融合しており、ベースのFlux女性の顔とは異なります。これらの女性はすべて中〜大胸の25歳以上とされていますが、その中には3人ほど50歳以上に見える人もいます。
この結果は、やがて訪れるはずだと予想していたモデルの崩壊かもしれません。あるいは、新しい概念が一つの統合された可能性として現れた「全然の出現」とも言えるかもしれません。今、人々がこれらをリリースすることを恐れる理由が、少しわかりました。
これまで、モデルの統合性は影響を受けていません。デフォルトタグは依然としてアニメを大量に生成し、即座に下品な内容になるわけではありません。
これまでのところ、問題ありません。ほとんどのポーズは即座には生成されないため、全体はまだ軌道に乗っています。新しい重みに基づいて、まもなく調整する必要があります。
バージョン 2.2 エポック5;
昨日と同じデータですが、さらに訓練を進めました。複雑さが十分に高まったため、共有して楽しんでください。
シリーズやキャラクターの微調整(ステージ7)さえされていないにもかかわらず、すでにそれらを生成しています。
デュアルキャプション+ブーのタグトレーニングが、熱いナイフでバターを切るようにすり抜け始めています。これは明らかに大きく逸脱しており、まだ完全に崩れていない状態です。
より長いキャプションを試し、複数のタグシーケンスを含めてください。
バージョン 2.2 20k画像パック エポック3; 逸脱の出現 - 2024年10月14日 19時21分;
このモデルとベースFluxの徐々に逸脱する性質から、私はこれを「逸脱ベースモデル」と宣言することにしました。カエルはもう鍋で煮えています。私は現在、Simulacrum v2.1をベーストレーニングモデルとして扱い、v2.2をFlux1d2にマージする方法を確立するまでこのままにします。その間、2.1は逸脱トレーニングアシスタントとして、小規模にフォーマットされ、ブーのタグを用いてFluxベースのLoRAを簡素化する目的で使用されます。
Simulacrum v2.1の目的は、継続的なトレーニングのための仮置き場です。Flux1d2モデルを基礎とし、T5xxl_fp16とFlux用のベースCLIP_Lを使ってそのLoRAを継続してトレーニングし、完了後、その結果をFlux1Dで実行してください。Simulacrum v2.1のサイズは非常に小さい(71MB)ため、迅速なトレーニングされたFlux LoRAの放出が容易です。Unetを0.001でトレーニングし、TEを1000ステップ以上またはバッチ/画像数を大量にトレーニングするか、システムが認識していない完全に新しいタグを導入しない限り、トレーニングしないでください。ただし、いずれの場合でも、推論時には必ずLoRAのCLIP_L(TE)セクションを使用してください。気づかないうちに、画像が完成しているでしょう。0.001 Unetで、Simulacrumの大部分が消えていくはずです。
v2.2をトレーニングすると、同じ基礎コアモデル(2.1)を基に、はるかに大きなLoRAサイズ(600MB)が生成されます。2.2は確かにトレーニング可能で、2.1よりもはるかに効果的かもしれません。しかし、600MBというサイズは大量生産ラインにとって障害になります。
今日の時点では、2.2をベースモデルに直接マージすることはできません。現在のトレーニングモデルでは、容易なルートでこれを実行する方法が存在せず、今日の私のスケジュールでは必要なPythonコードを書く時間もありません。
コアモデルが直接Flux1d2proにマージされれば、LoRAをトレーニングする際にはるかに便利になります。なぜなら、そのモデルは本質的にブーLoRAに反応しやすくなり、結果はFlux1Dベースで機能するからです。しかし、それは今日の話ではありません。
v2.1の段階では、画像は、ほとんどのLoRAと学習を支援する必要パターンを十分に満たしながら、キャラクターやデータの微調整に必要な基礎情報を提供しています。
v2.2で示されたように、2.1の追加トレーニングの結果は、サブモデルや派生モデルのトレーニング、また3D、アニメ、ビデオゲームキャラクターの導入と詳細化に際して、はるかに効果的で、さらにトレーニング速度が向上しています。
複数のテストの結果、衣装、コンテキストベースの状況、セックスベースの状況の追加は、より少ないタグでより容易にトレーニング可能であり、より高確率で表示されることが示されています。
コアトレーニング後、20k画像パックは、予想された図表や数学的潜在性をはるかに超える、予想外の強力な結果を生み出しました。
数学的に、80%を超える吸収率、そしてさらに高いキャプション機能保持率を見込んでいます。
バージョン 2.2 エポック1; 20k画像パック初回エポック - 2024年10月14日 15時36分;
大きなサイズ増加 - 64次元 = 600MBダウンロード、以前と比べて非常に大きい。植物の根が成長するためのより大きな鉢。
タークン制限を75から225に増加。
Alpha 128
Dims 64
6台のA100でトレーニング。
主にNSFWタグ付き:明示的、疑わしい、安全。
アニメ/3D/リアリスティックに明確に分類。
多くが1girls /AND/ 1girlを確立するために使用しており、1boysと1boyも同様ですが、一部はタギングから逸脱しているようです。現在は混合訓練が行われているため、両方から異なる結果を得られるはずです。新しいバージョンでは1girlsと1boysを使用して処理してください。
自由に試してみてください。これには圧倒的な量の新しいデータが組み込まれています。
ほぼアニメ(3/4以上)ですが、3Dやリアルな要素もかなり含まれています。
追加の19,000枚の画像で訓練しましたが、結果はやや不安定です。学習率を下げ、ランダムブロックを削除する必要がある可能性がありますが、現時点では不確定です。
リサイズと継続的な訓練により、あまりにも多くのデータが破壊された可能性があります。リサイズの点から再訓練する必要があるかもしれません。試してみてください。
この画像を見て、私は本気で笑ってしまいました。ここには明らかに大量の性愛的要素が含まれています。それほど多くの精液の学習があっても、ただ無差別に散らしているわけではなく、どこに配置すべきか、そうでないかをかなり正確に区別しています。
FLUX SHIFTのタイムステップサンプリングで訓練されており、前回のバッチよりもさらにユニークな結果が得られるはずです。
正規化ヒューリスティクスがこれらの画像を適切と判断したため、それらが使用されました。単純な計算です。
このモデルを使って、本当に奇妙な画像を作り出せます。エポック3はさらに奇妙になってきています。楽しみです。
最初の2500回の訓練が完了 - 2024年10月13日 午前11:10 - これまでの合計$500:
次のイテレーションでは、次元を増やして訓練しますが、どのように反応するかはわかりません。
結果は圧倒的に素晴らしいです。ほとんどのマーカーが達成され、望んでいた新しい情報がほとんど導入されました。まだいくつかの問題組み合わせ(例如、仰向けになる)がありますが、「横たわっている」「観察者を向いている」などの言葉遊びで回避できます。訓練が進むにつれて、これらは自動的に解消されるでしょう。このプロセスには、1girlsや1boysのような一般的なタグ使用法の確立が含まれています。
8段階中の第2段階が開始されました。高品質な結果が期待されます。前のプロンプトと同じですが、結果ははるかに良くなります。数百万の新タグ組み合わせ、数億の新可能性を含み、すべてが改善されています。Flux.1D2proコアモデルを直接対象とした、元のマージされたSimulacrum v1.7の継続的な訓練です。
現在の訓練データは、他の画像に必要なデータを最低限の重量で最も効率的に導入する可能性が高いデータプールから抽出されました。この次のバッチは、最初のバッチの結果に基づく相対的な潜在変数をもとに抽出されました。
追加データは、次の一連の重み付きタグのための足がかりをさらに増やすことが証明されたため、次の15,000枚の画像訓練が開始されました。
50,000個以上の訓練・微調整されたトークンに達するはずです。Fluxはまだ安定しており、これは時間とともに完全に分岐した微調整を生成していることを意味します。
次はパック2 - 19k。
TLDR; 第1段階(8段階中)https://civitai.com/articles/7196/training-flux-to-behave-like-pony
Fluxの使用方法:
Flux.1 devで画像を生成します。
このLoRAのモデルとCLIPを読み込みます。CLIPは必須ではありませんが、実験の大部分を占めるため、強く推奨します。
一部のLoRAスタックでは読み込めないことが判明したため、一部のComfyUI拡張機能でCLIPを読み込むと問題が発生する可能性があります。問題が発生した場合は、ComfyUIの内蔵LoRAローダーを使って直接読み込んでください。
他のLoRAと非常に確実に動作します(100%)。ポーズや状況を変更する複数のLoRAを試しましたが、効果は様々でしたので、ポーズには注意してください。スタイル、テーマ、キャラクター、ディテール、エフェクト、カラーリングをベースにしたLoRAは非常にうまく機能します。必ずしも毎回ではありませんが、多くの場合で効果があります。
Simulacrumが頑固な場合、他のLoRAが透過できるようにUNET(モデル)の強度を下げてください。これは高速な微調整ではなく、ゆっくりと熟成させるためのもの(UN-0.0001、TE-0.000005)です。CLIPの強度をテストなしに大幅に下げるのはお勧めしません。
プロンプティング:
v1.7
v2.1
カフェでテーブルに座る女性。
1girl、編み込みの先端を持つ長い黒髪、赤い目、コーヒーカップを持っている、濃い化粧、ゴシック風、脚を組んでいる、黒いドレス。
朝の光が窓から差し込み、薄暗いカフェの人物に影を降り注いでいる。
外の街はまだ静かだが、通勤する車や歩行者がちらほらと通り過ぎている。
v1.7
v2.1
カフェのテーブルに座るアニメ風の女性。
1girl、編み込みの先端を持つ長い黒髪、赤い目、コーヒーカップを持っている、濃い化粧、ゴシック風、脚を組んでいる、黒いドレス。
朝の光が窓から差し込み、薄暗いカフェの人物に影を降り注いでいる。
外の街はまだ静かだが、通勤する車や歩行者がちらほらと通り過ぎている。
簡単なガイド:
<シーン>
<被写体のタグと識別子>
<設定と効果>
<その他の背景および状況的効果>
Booruタグはどこに配置しても構いませんが、被写体のセクションに配置することをお勧めします。
50ステップのEuler(シンプルまたはノーマル)を推奨しますが、必須ではありません。他のスケジューラーでも、より少ないステップで高品質な出力を得られます。
最初の2500回の訓練開始 - 2024年10月9日 午後7:50:
2500枚の最初のパックが4枚のA100で訓練中です。
1Dのオリジナルがリリースされました。ぜひお試しください。また、1DとD2バージョンを組み合わせることもおすすめです。とても楽しいです。
D2バージョンはかなり強力ですが、両者は一緒に使うとよく機能します。まるで双子のモデルのようです。
両方のモデルは、まったく同じ画像、パラメータ、シード、ハードウェアで訓練されています。RunPod上で4枚の4090で訓練されました。
主な違いはベースモデルです。結果は興味深い方法で分岐しています。
第2段階:予備開始
ETA:60時間。この文脈における「Simulacrum」は、シミュレーション、画像、肖像、彫刻を意味するラテン語です。ここではFluxが私たちが見たいものをシミュレートしていることを意味します。https://en.wikipedia.org/wiki/Simulacrum
これは、私がここに投稿した記事に基づいて、Flux1D2-proの訓練済み重みです。
Flux Simulacrum v1.7 Flux1D-2Pro チューニング -SFW/NSFW - 2024年10月9日 午前7:42(GMT-7):
少し活性化して、興味深い発見を持って帰ってきました。D1の訓練がエポック35に到達するまでは、完全なレイアウトテストは実行できませんので、このバージョンをリリースしておきます。
BooruタグとFluxタグを混在させても問題なく処理できます。自由に組み合わせてください。
私は正しくやったと思っていますが、この成果のすべてを私のデータセットや訓練選択に帰すことはできません。Flux1Dベース版との完全な比較が得られるまで、Flux D2が決定的な結果をもたらしたのか、それとも訓練オプションや画像が主因だったのか確認する必要があります。
エポック35でネットワークの容量が不足し、訓練状態を読み込むという私の仮定は誤りでした。したがって、エポック35からの訓練は継続しません。しかし結果はかなり良かったので、現状のまま残します。
D1の訓練も同様の理由でエポック25で失敗したため、より大きなネットワーク容量で再訓練し、エポック35まで行います。
このLoRAは、標準のFlux1D(fp8モードで訓練されたbf16モデル)と互換性があります。
Flux1D2での初期訓練では、全体の結果が意図したLoRAに一貫して適合していることを示しており、私の反対意見や苦情(それを受けた皆様、すみません)にもかかわらず、この訓練には確かに因果的な成果があることが確認できました。
これらはText Encoderをチューニングしたものです。ComfyUIで使用するときは、必ずCLIPを通過させてください。
UN LR - 0.0001
TE LR - 0.000005
まずはこのバージョンのいくつかの画像を紹介しますが、非常に良い出来です。
より良い命名規則を考案する必要もあります。複数のバージョンが増えてきて、名前が長すぎて面倒になってきました。
Illustrious Simulacrum v1.2 SFW/NSFW - 2024年9月28日:
PDXL版もリリースしました。PDXL版はほとんどのPonyモデルと互換性がありますが、Illustrious版はおそらくIllustrious専用です。
タギングと訓練データにより、同様の画像が生成されるはずなので、同じことが適用されます。
セーフ/クエスチョンアブル/エクスプリシットの理解は向上しましたが、FLUX-1Dに教えるつもりだったすべてのキャプション情報を与えるまでは、セーフな状況に依然として苦戦しています。私はこれらのプロンプトを削除しました。それらはすべてを混ぜ合わせて逆効果だったからです。
正しいデータセットで完全に再訓練した結果、はるかに優れたモデルが得られました。多様なアートスタイルに対応し、アニメ、リアル、3Dの内蔵スタイルを正しく区別し、多くの角度のポーズをさらに大量の画像で強化しています。これらすべてがIllustrious-XLキャラクターへの被写体の重ね合わせに優れています。
7種類の現実的な合成人間すべてを含めました。これらは実在せず、このバージョンではコードネームでプロンプトすることはできません。したがって、単に全体の詳細なタグ付き部分にすぎません。
ラテックスとラテックスボディスーツは非常に効果的です。NAIのリカラー効果により、画像に非常に興味深い影響を与えます。
出力と品質は大幅に向上しました。
私はこれらすべての画像に添付されたComfyUIを使ってテストしています。
皆さんが楽しんでください。これは非常に優れたモデルです。
Illustrious-XLモデルはネイティブに数百のキャラクターを生成しますので、ぜひ実験してください。お気に入りのキャラクターがおそらく含まれているはずです。
タグリスト:
前方、正面
横、側面
後方、背面
上方、上から
下方、下から
前方、側面、上方 <<< タグを組み合わせる
- 深さや角度が正しく出ない場合は、床、壁、天井などの参照物を追加してみてください。
色彩範囲;色付け可能なすべてのタグは色彩範囲内に収まります。
青、赤、緑、白、黒、金髪、茶色、黄金、銀、紫、ピンク、ギャル
1girl、1boy、2girls、2boys
短髪、中くらいの髪、長髪(全色範囲)
目の全色範囲
足の爪、手の爪、化粧の色
平坦な胸、小胸、中胸、大胸、巨乳
細い太もも、太もも、太い太もも
細身、筋肉質、豊満、フィット、引き締まった
ドレス、サイドスリットドレス、ラテックスドレス(全色範囲)
ビキニ、スリングショット水着、水着、ワンピース水着
ヨガパンツ、スポーツブラ
足、素足
その他、たくさん、たくさん、たくさんあります。
Illustrious Simulacrum v1 SFW/NSFW - 2024年9月27日:
間違った訓練データを使用していたようです。これはデータの約60%のみです。今夜再訓練・テストを行います。
Illustrious は私のモデルではありません。このSimulacrumが私のモデルです。Civitaiの他の場所に掲載されているsd1.5 Simulacrumと混同しないでください。Illustrious の公式作者をサポートしてください。IllustriousはPDXLの派生ではなく、Kotaku v5 から派生し、アニメーションとイラストレーションに特化しています。
ショーケース画像はあくまでサンプルです。Illustriousはこれまでに最も楽しく扱ったモデルの一つです。応答性が高く、正確で、望むものを正確に構築します。基本的にネガティブプロンプトは必要ありませんが、たまに必要になることがあります。Simulacrumのデータセットはさらに強力かつ高品質なタスクを強制し、全体の品質を向上させますが、時折ネガティブプロンプトが必要になる場合もあります。
このLOHAモデルは、対象の固定と制御に基づいて完全に構築されています。色、衣装、サイズ、形状、リアリズム、品質まで、すべてスライダーで制御可能であり、さまざまなタグを用いて調整できます。
まもなく完全なタグリストを準備します。要するに、Illustriousはポニーが行うあらゆることをほぼ正確に再現し、さらにDanbooru 2023データセットで学習されたため、予想外の多くの要素も扱えます。Illustriousは、これまでサンプリングしたものの中で、NaiV3に最も類似しています。
このLOHAは、かつて「Consistency」と呼ばれていたデータセットで学習されました。新たに刷新されたバージョニング、キャプション、詳細なデータセットにより、より強力なバージョンが実現されています。以前に私はこれを「Simulacrum」と呼んでいました。
データは特に再編成され、PDXLとIllustriousの両方を学習するよう整理されています。
増強およびユーティリティタグは以前と同じです:
from front
front view
from side
side view
from behind
rear view
from above
above view
from below
below view
PDXLの以前のバージョンと同様、女性のフォルムと構造がしっかりと再現されています。また、以前のバージョンとは異なり、アーティファクトは一切発生しません。このバージョンはクリーンで、Illustriousではアニメ風からセミリアリスティックなアニメ風へと下限を引き上げています。ただし、ほぼ同じ効果を数個のタグだけで実現できるでしょう。
今回のバージョンでは、男性のフォルムと、リアリスティック、3D、アニメのバリエーションをアクセサリータグとして導入しています。
現在のバージョンは、多数のポーズ、アクション、キャラクターの色、グラデーション、角度、オフセット、視点、深さ、回転、重ね合わせ位置、そしてPDXLで明確に定義されていたがIllustriousでもうまく機能するいくつかの特定の衣装を処理できます。
以下をサポート:
skinny
tall
narrow waist
thin
petite
fat
voluptuous
thick
small
giant
直接サポート:
多数のオフセットと角度
safe, questionable, explicit
realistic, 3d, anime
7つのリアリスティックな合成モデル
顔
髪の色
目の色
胸のサイズ
相対的な体のサイズ
手の角度
足の角度
数多くの全身ポーズ
数多くの腕の位置
数多くの足の位置
数多くの衣装タイプ
数多くの靴タイプ
数多くの髪型
数多くのラテックス素材 <- 私はラテックスが好きです。
ジャンプスーツ、ボディスーツ、レオタード、シンクストッキング、レギンス、ズボン、ヨガウェア、ドレス、ビキニ、スリングショット水着、スカート、カジュアルウェア、靴、その他多数




















