Qwen Breast Type Selector (WIP)
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これは複数の異なる胸のタイプを統合したハブです。なぜでしょうか?
精度—追加する画像が多様であれば多いほど、LoRAは薄められ、トレーニング時間も長くなります。Qwenは胸が何であるかはすでに知っていますが、乳輪の見た目は知りません。胸を単一のエンティティとしてトレーニングすることで、互換性が非常に高くなり、結果も一貫性を持ちます。私の「innie vagina」LoRAを使用できるため、今では膣のタイプと胸のタイプを自由に選べます。このLoRAは胸にのみ焦点を当て、胸の位置と方向を導くためにわずかに周囲の領域を含んでいます。キャラクター用にトレーニング済みのLoRAがあり、外見を維持したい場合でも、ポージングやサイド角度で体のサイズを変更することなく、うまく機能します。
トレーニング速度—これは大きなポイントです。このLoRAのトレーニングはたった1.2時間で完了しました。一方、他の方法では8時間、甚至1.5日かかりました。
現在の問題は何でしょうか?トレーニング解像度です。4Kのような高解像度画像は手に入りにくく、私はその高解像度をトレーニングするためのハードウェアを持っていません。そのため、512と1024のみが選択肢です。このトレーニング解像度では、人間の解剖学的詳細(例:血管や正しい乳輪)を十分に捉えることができず、乳輪はぼやけて見えます。アップスケーリングやHires.fixでこの問題を補正できる可能性があります。しかし、一般消費者向けのハードウェアは十分に強力ではなく、VRAMの不足を補うために128GBのRAMが必要です。64GBのRAMとRTX 5090では残念ながら不十分です。
トリガーワードは「b00b135」です。
(この単語は私のトレーニング実行中に予期せぬ影響を引き起こしましたので、ご注意ください。後続のステップで修正されましたが、低強度では依然として明らかになる可能性があります。)
私は苦い経験から、QwenはLoRAのキャプションにトリガーワードを含まない場合、嫌がることを知りました。キャラクターが醜いサングラスを着用したくないなら、その画像をデータセットに含めないでください。トレーニング中、Qwenはトリガーワードのみを用いるモデルとしてより優れた性能を発揮します。キャラクターの肌の色が特徴的だったり、独特な特徴を持っていたりする場合、既存の単語にキャプションを割り当てたり、マスク処理して独自のトリガーワードを作成してください。
トレーニングするにはどうすればよいですか?
マスクレイヤリングを使用してください。それは何ですか?胸を異なるレイヤーに分ける方法です。乳首をレイヤー1、乳輪をレイヤー2、胸本体をレイヤー3とします。この画像を3回複製し、3つの異なるマスクを作成して、1つずつマスク処理します。これにより、3つの別々のLoRAが得られます。これは最も正確な方法ですが、非常に非効率的です。なぜでしょうか?Qwenは乳輪が何であるかを知らず、単語を増やすとAIをさらに混乱させます。「胸」とだけ言ったら、乳輪も含まれますが、見た目はひどくなります。各レイヤーに独自のトリガーワードを設定することで、Qwenの不適切にキャプションされた、または低品質なデータセットを回避できます。あなたの目的は、モデルにQwenの内部データセットではなく、あなたのデータセットから乳輪を学習させることです。
このLoRAは同じ胸の1セットだけであるため、乳輪を含めることができます。これはアーティファクトを避けてLoRAをトレーニングする最良の方法です。唯一の問題は、画像の解像度が十分ではなかったことです。マスクの境界領域も重要です。私は胸を定義する重要な領域のみをマスクし、人物の特徴的な外見はほとんど含んでいません。肌の色や一部のほくろが残るかもしれませんが、それだけです。
ここで一つの考えを:Qwenの知識ベースにない単語を使用すると、その単語の意味に関係なく、画像全体があなたのデータセットに基づいてトレーニングされます。既存の単語を使用すると、その単語の意味を上書きしようとするため、私はこれを試しましたが、6000ステップ経過してもほとんど変化しませんでした。なぜなら、私が使った単語は「二人のキス」と関連していたからです。トリガーワードを使うことでこの問題は解決しました。
キャプションはトレーニングデータセットではなく、ComfyUIや他のWebUIインターフェースで詳細に記述してください。画像が複雑でなければ、モデル自体がキャラクターを構成する各特徴を学習します。
たとえば、実在の人物をトレーニングして「male」という単語を使用すると、LoRAはQwenの「male」の知識を用いて、体の形は失われますが、顔はほぼ維持されます。なぜなら、AI全般が顔の認識に非常に優れているからです。トリガーワードは、その単語をキャラクター全体として扱います。WebUIでのキャプションは、使用したトリガーワードの定義(辞書のようなもの)と考えてください。














