Simulacrum V4 <|DELTA|> [F1D/DD/F1D2/UNET/CLIP_L]
詳細
ファイルをダウンロード
モデル説明
!!! SIMV4 CLIP_L は FP16 UNET に 必須 !!!
CLIP_L がなければ FP16 UNET は正しく機能しません!
F1FP16 UNET を起動するには CLIP_L が必要です。
F1FP16 UNET には CLIP_L が必要です
CLIP_L は 500 万サンプルで学習されました。
スケジュール公開日:2024年11月15日 17:00〜18:00 (GMT-7)
正直、3.8 の方がおそらく良いと思っています。
SimV4 の設定:
Simulacrum V4 のコアシステムは、完全に「対象の注目(SUBJECT FIXATION)」に基づいています。
人間、人型、アニマル系、フューリー、ロボット、機械、車、自動販売機、およびあなたが想像できるもの、または LORA が見つかるあらゆるもの。
多くの画像は以下のタグ形式で学習されました:
定義:
注目オフセットおよび描写タグ:
V4 で導入されたタグ。多くのタグが特定され、その画像内での位置オフセットがコアの再確認学習に組み込まれました。
現時点では描写タグは若干不安定ですが、一部では機能します。自己責任で使用してください。
depicted-middle-left
depicted-middle-right
depicted-middle-center
depicted-upper-left
depicted-upper-center
depicted-upper-right
depicted-lower-left
depicted-lower-center
depicted-lower-right
full-frame > 画像の70%以上
half-frame > 画像の40%〜70%
quarter-frame > 画像の25%〜40%
depicted-middle-left full-frame 1girl
- 1girl の顔が画像の中央左に位置する全面的な画像。システムはその周囲に多数の詳細を推論します。
depicted-upper-center half-frame face
- 上部中央に顔があり、その他は不明。
depicted-lower-right quarter-frame shoes
- 画像の右下に、全体の約4分の1を占める靴の一組。
キャプション:
- キャプション関連の内容は最初に記述します。システムは255トークンで学習され、キャプションはすべて80トークン未満です。各画像にはCLIP_Lの学習用に2つの完全なキャプションが付けられています。
レーティングタグ:
- safe, questionable, explicit, nsfw, sex
コアタグ:
"b@s3_s1mul@cr7m", "anime", "3d", "3d model", '3d (artwork)', "blender (medium)", "source filmmaker (medium)", "sfm", "source film maker (medium)", "source filmmaker", "realistic", "real", "photo", "photorealistic", "illustration", "drawing", "painting", "digital", "traditional", "sketch", "render", "rendered", "model", "greyscale", "monochrome", "black and white", "color", "colour",キャラクター:
- キャラクターの名前。存在しない場合も多いですが、ある場合もあります。
キャラクター数:
比較的信頼性がありますが、低いステップでは正しく数えないことがあります。
1girl, 1boy, 2girls, 2boys, a woman, two women など
- ご希望の結果に合わせて入力してください。
ジェンダー:
- female, male, male and female, male/female, female/male などのジェンダー強化タグ。
スピーシーズ:
- 人間/動物などの種族。指定がなければほとんどのシーンは人間としてデフォルト設定されます。
シリーズ:
- イメージにシリーズ/著作権タグを適用します。現在は画像を完全にオーバーロードすることが多いです。シリーズ/著作権タグは V5 の学習対象です。
シーン写真タイプ:
"photo","photorealistic","photography","photo-realistic","photo-realism","close-up","portrait","cowboy shot","dutch angle","three-quarter view","profile","headshot","full body","fullbody","half body","halfbody","close up","above view","below view","front view","rear view","side view","back view","overhead view","aerial view","aerial shot","aerial perspective","aerial photography","aerial photograph","aerial image","side shot","side perspective","front shot","front perspective","rear shot","rear perspective","back shot","back perspective",置換:
コアシステムが他の要素より重要と判断したタグは、トークン数が255を超える場合でも省略されません。
ポーズ、サイズグループ、体の部位、環境との相互作用などが含まれます。
couple, arms, legs, lying on side, hugging, kissing
midsection, navel, muscular abdomen, cleft of venus
美的・品質タグ:
very aesthetic, aesthetic, displeasing, very displeasing, disgusting
highres, absurdres, lowres
年代タグ:
"1970s", "1980s", "1985s", "1990s", "1995s", "2000s", "2005s", "2010s", "2015s", "2020s", "2025s", "1980","1981", "1982", "1983", "1984", "1985", "1986", "1987", "1988","1989", "1990", "1991", "1992", "1993", "1994", "1995", "1996","1997", "1998", "1999", "2000", "2001", "2002", "2003", "2004","2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012","2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020","2021", "2022", "2023", "2024", "2025",削除されたタグ — 後続の学習では完全に除外:
"tagme","bad pixiv id","bad source","bad id","bad tag","bad translation","untranslated*","translation*","larger resolution available","source request","*commentary*","video","animated","animated gif","animated webm","protected link","paid reward available","audible music","sound","60+fps","artist request","collaboration request","original","girl on top","boy on top","character request","original","original character"
ステップ数と美的タグの使用:
10 ステップ
disgusting
Simulacrum NovelAI V3 の合成ポーズ画像セットを生成。手・目・解剖学的構造に問題が多いことが多い。
超シンプルなアウトラインや迅速なポーズテストに最適。
very displeasing
シンプルなアニメ/カートゥーン/コミック向け
少し詳細を追加。10ステップでは期待しないでください。
displeasing
- ある程度良い結果を生成。カートゥーンやシンプルなアニメには悪くない。
aesthetic / very aesthetic
- 使わないでください。ステップ数が足りません。
20 ステップ
disgusting
- NovelAI のキャラクターボディとほぼ正しい色調、ほぼ正しい解剖学的構造を生成。
displeasing / very displeasing
- コミック、アウトライン、カートゥーンなどを驚くほど多く生成。悪い選択肢ではありません。
aesthetic
- 白背景のシンプルなカートゥーン/アニメ人物
very aesthetic
- 解剖学的に不正確な低品質リアリズムを生成。時々良い結果も出ます。
30 ステップ
disgusting
- システムが他の美的タグと組み合わせて詳細を追加できるよう、比較的品質の高い NovelAI アニメ輪郭を生成。低ステップでは効果が薄い。
aesthetic
- 背景付きのカートゥーン/アニメ/半リアル人物
very aesthetic
- 解剖学的にはまあまあだが、手・足・目・顔・色調はバラツキが大きい。
40 ステップ
aesthetic
- アニメに近いが、半リアルも生成。
very aesthetic
- 背景がぼやけた、品質の高いカートゥーン/アニメ/半リアル/フォトリアリスティック人物を生成。主に半リアルに変換。
>= 50 ステップ
disgusting - anime
- 明確な NovelAI v3 ボディを生成。当たり外れがあり、10ステップと非常によく似ている。
displeasing
aesthetic
aesthetic, very aesthetic - リアリスティック/フォトリアリスティック、リアリスティックな背景
ステップ数を増やすまでこのシステムが生成できる最高品質の画像を生成。50ステップ以上はテストしていません。
3D、アニメ、Blender、SFM、および多数の弱いアーティストの影響から、多様なスタイルを生成。
解像度の使用:
1218x832, 1338x768
- ランドスケープ、建築、複数キャラクター、横長コミック
832x1338, 832x1216, 768x1024, 832x1024 ...
- ポートレート、縦長画像、縦長コミック
1216x1216, 1024x1024, 832x832, 768x768, 512x512
1:1 アスペクト比
混在した結果
画像の上から下へキャラクターを構築し、画面を3x3のグリッドのように扱ってください。
バーンダウン
V38 と V4 の主な違い:
手の強化と再強化のために、5000枚の HAGRID 手のポーズ画像で学習。
3つのコアスタイルを区別するために、私が見つけられた最高品質の画像1000枚で精緻化。
- 合計約5万サンプル
コア画像とデータセットに基づく強化学習。
- 約8万サンプル
色調とボディポーズの強化学習。
- 約5万サンプル
アニメ、3D、人間の相互作用をより正確に識別するように微調整された特定の CLIP_L。以前よりはるかに複雑なシーンや状況の識別能力が向上。
500万サンプル
cheesechaser と wildcard に感謝。私が何を教えたのか自分でもわかりません。
主に Danbooru、Gelbooru、R34 から学習。
Simulacrum V32 の決定的で強力な半安定的モデル進化版。導入から現在に至るまで、合計約200万サンプルで学習され、新しいカスタム raidboss 級の500万サンプルの CLIP_L と組み合わせ、Simulacrum コア、対象の注目、ポーズ、画面内の相対位置に完全に特化。
各 LORA は BF16 で学習され、加算的かつ有序にマージされ、COMFYUI を使用してコアモデルに連結・統合しました。この完全統合されたバーンマージ LORA は、各 LORA のコアブロックを手動で選択した方法で統合しています。FPスケーリングを特定に統合するために、複数のカスタムノードを作成し、チェックポイント保存システムを再構築しました。
バージョン4は、CLIP_L の追加された柔軟性により、ベースの Flux からより多くの要素を継承し、これまで以上にコアシステムに多くの挙動を付与しています。カートゥーン、アニメーション、3D、リアリスティックの間に高精細な差別化を実現。
CLIP_L は、FLUX DeDistilled が提供していた多くの利点を代替し、DeDistilled と同等の、独立した F1D コアを実現しました。
私が試したすべての LORA と互換性があります。Consistency や Simulacrum の他のバージョンよりも一貫性の高い結果を生成し、すべてのバリエーションでより高精細、より高いコンテキスト認識、より高い学習度、より多いトークン数、より高い検証システムを実現。
これは、遅く丁寧に調理され、高度にテストされ、多数の画像を含む LORA の一連を組み合わせ、第4版モデルとして形成されたもので、個々のキャラクターに集中して構築されています。
複数キャラクターやキャラクター間の相互作用はこのバージョンでは弱く、複雑なシーンでも個々のキャラクターをより安定して、一貫性の高いベースモデルとして強化します。
このバージョンの初期 LORA 学習では、安定性を保ちながら学習率を大幅に向上できることが示されています(UNET LR 0.0009、CLIP_L TE 0.000001)。非常に短い期間で、より少ないサンプルと繰り返し回数(300サンプル)で学習可能。これがこのモデルの最終的な目標:個人が望むキャラクターを、ほとんど訓練なしで生成できるように、この UNET と CLIP_L を高速学習のベースモデルとして扱うこと。
予備テストでは、LORA から画像を生成するために Simulacrum V4 モデル自体を必要としない可能性が示唆されています。つまり、3080 で 5分以内に30枚の LORA を学習し、ベースの Flux で動作させられる可能性があります。これは、SimV4 の F1D2pro UNET と CLIP_L を使用して学習したためです。



















