Mercy / Mercy Cosplay - Flux.dev
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このLoRAは、Flux.devでOverwatchの現実的なマーシー/マーシーコスプレを描画可能にします。
具体的には、デフォルトの衣装、魔女衣装、そしてややウィングド・ヴィクトリー衣装とジーグラー博士衣装が利用可能です……そして、創造的なFluxが夢想できるすべての要素が!このアップロードには2つのバージョンを用意しました。例画像はすべて同じシード、プロンプト、その他の設定を使用しています。違いはデータセットのキャプションにあります。詳細はトレーニングセクションで説明します。¹=メインバリアント、²=_scバリアント(短いキャプション)
メイントリガー:mercy²(/ mercy cosplay、mercy outfit、...)¹
個々のコスプレ要素はタグ付けされているため、使用できる(場合によっては必須な)ものです。
- Halo²(/ ゴールデンハロー¹)
- Staff(ほうきの杖)
- Pistol
- Iconic hair¹、iconic hair wig¹、wig²(…または「iconic mercy hair wig」のようなより詳細なキャプション)
- Wings([白、黒、…]メカニカルウィング([ゴールデン、イエロー、発光、透明、…]の翼を持つ)、羽毛翼、天使の翼)
タグ付けされた全体の衣装:
- Mercy(これはデフォルトの衣装です。「プラスチック白色ボディアーマー」などと追加して、よりプラスチック風にすることもできます。そうでない場合は「布地」などの言葉を追加してください)
- Witch mercy(衣装にはこれだけで十分ですが、うまくいかない場合は「ヒップの本」「ほうきの杖」「魔女帽」など、さらに詳細を追加してください)
- Winged victory mercy(一貫して、または良い方法で再現するためのトレーニングデータが少なすぎるため、デフォルトのマーシーになってしまいます。以下のキーワードがLoRAが少しでも覚えられるのに役立ちます:羽毛翼、ゴールドの縁取りのある白と青のローブ、ツタ、…あるいはこのスキンに近い他の言葉)
- Dr. Ziegler Mercy(これもトレーニングデータが不足しています。実験室コート、アイコニックな髪のウィッグなどを追加すると最も良い結果を得られます)
推奨LoRAウェイト:ご希望のスタイルに応じて0.7 – 1.0
それでは、以下にトレーニングについて少し説明します。
トレーニング
このデータセットに対してあるアイデアを思いつき、実際に実行しました。その後、Pyro氏の投稿『FLUXはあなたより賢い! – モデルを自分だけのものにする上で得たその他の驚きの発見』』に出会い、試してみることにしました。
このデータセットには178枚の画像が含まれており、可能な限り多様に収集しました(ハロルドやチワワは含まれていません)。その後、InternVL2-8bを用いてすべての画像に基礎的なキャプションを生成しました。モデルが多少のプロンプトで衣装を特定してくれるものと期待しましたが、私のプロンプティングスキルでは達成できませんでした(少なくともその時点では)。そこで、メインプロンプトを変更し、画像全体を簡潔に記述するようにし、メイン被写体についての記述は極力最小限にしました。その後、自分が欲しかった要素(衣装のタイプや特定のアイテム)を手動ですべて記述し直しました。
次に、そのデータセットを複製し、キャプションを衣装と関連するアイテムのみに簡略化して、Pyro氏が述べた発見を実験しました。
つまり、次のキャプション:
「ウィングド・ヴィクトリー・マーシーコスプレ。キャラクターは岩場の地形に立ち、背景には滝があり、濃い緑の植物に囲まれている。金色の縁取りと繊細な模様が施された白と青のローブを着用。背中に大きな白い羽毛翼が生えている。右手にはピストルを握っている。全体のシーンは静かで自然なもので、木々の間から差し込む日差しが平和な雰囲気を生み出している。左下には「Shappi」というウォーターマークが入っている。」
が次のようになります:
「winged victory mercy with pistol and wings, wig」
※補足:元のキャプションでは常に「outfit」や「cosplay」などの単語を含んでいたため、「Mercy」とのみ書くと、より悪い結果になります。
その後、ostrisのai-toolkitを用いて、両方のデータセットを完全に同じ設定でトレーニングしました。
設定は以下の通りです:
- Alpha、Dim:16
- 合計ステップ数:9000
- キャプションドロップアウト:0.05
- 解像度:512、768、1024
- バッチサイズ:1
- ノイズスケジューラ:flowmatch
- 学習率:1.7e-4
- リニアタイムステップ
- クオンタイズ(勾配チェックポイント付き)
(各モデルはRTX 4090で約6時間かかりました)
トレーニング後、safetensorキーをKohyaと互換性のあるように変換し、再びモデルのランクを16に調整しました(ほぼ損失なしに、ややストレージ容量を削減するため)。
そして、私の観察結果です:
両方のLoRAは十分に動作しますが、単語単位のキャプションの方がはるかに簡単です。
しかし、個人的には長文キャプションでトレーニングしたLoRAの平均的な結果の方が好みです。画像がより「映画的」な印象になるからです。これは個人の好みです。
さらに、詳細なキャプションを用いたLoRAは、より細かい制御が可能ですが、結果を得るには時としてより多くのテキストが必要になります。ただし、元のデータセットからのウォーターマークの再現も少なくなります。
一方、このLoRAの欠点(もしそれを欠点と呼ぶなら)は、「cosplay」や「outfit」と明示しないと、描画がイラスト風または現実的でないイメージになることがある点です。そして、Fluxでは単に否定的な単語を追加するだけでは、現実的な画像を再現するのが難しい場合があります。
また、特定の髪の形状など、細部の再現は、詳細なキャプションを用いたモデルの方が優れていると感じます。
結論として:
Pyro氏の発見は価値がありますが、私は完全には賛同しません。短いキャプションは作業を簡略化しますが、複数のニュアンスを扱えるLoRAには柔軟性が不足します。小さな、比較的単純なデータセットでは、時間を節約するために短いキャプションを使うことをおすすめします。
しかし、私は複雑なテーマには長いキャプションを引き続き使用します。その場合、非常に良いキャプションが必要だと考えます。優れたキャプションを制作する労力を惜しむのであれば、短いキャプションを使うべきです。
しかし、Pyro氏が他の点で述べている「キャプション作成中にLLMと対話できる」という主張には非常に懐疑的です。
ここまで読んでいただき、ありがとうございました!
ご質問があれば喜んでお答えしますが、今後数週間は多忙のため、CivitAIにログインできない可能性があります。約1か月後くらいに返信できると思います。















