[Qwen] Rebalance v1.0

詳細

ファイルをダウンロード

モデル説明

例のワークフロー:

/model/2065313/rebalance-v1-example-workflow

nunchakuの使用向けにLoRAを抽出するのに、WANdalf に感謝します。

モデル概要

Rebalanceは、数千年のコスプレ写真と厳選された高品質なリアルな画像で構成されたキュレーション済みデータセットを用いて訓練された、高精細画像生成モデルです。すべての訓練データは公開可能なインターネットコンテンツからのみ取得されており、NSFWコンテンツは明示的に除外されています。

Rebalanceの主な目的は、油っぽく、プラスチックのように、または過度に平らな外観などの一般的なAIアーティファクトを克服し、自然な質感、奥行き、視覚的真実性を持つ写実的な出力を生成することです。

訓練戦略

訓練は複数段階で行われ、大きく2つのフェーズに分かれています:

  1. コスプレ写真訓練
     顔の表情、ポーズのダイナミクス、全体的な人間のフィギュアのリアリズムの向上に焦点を当て、特に女性被写体に注力しました。

  2. 高品質写真の強化
     プロフェッショナルにキュレーションされた写真リファレンスを活用し、雰囲気の奥行き、構図のバランス、審美的洗練度を向上させることを目的としました。

キャプションとメタデータ

モデルは、プレーンテキストと構造化されたJSONという2つの補完的なキャプション形式を用いて訓練されました。各データサブセットには、生成中の細かい制御を促進するためのカスタマイズされたJSONスキーマが適用されています。

  • コスプレ画像の場合、JSONには以下が含まれます:

    • {

      "caption": "...",

      "image_type": "...",

      "image_style": "...",

      "lighting_environment": "...",

      "tags_list": [...],

      "brightness": number,

      "brightness_name": "...",

      "hpsv3_score": score,

      "aesthetics": "...",

      "cosplayer": "anonymous_id"

      }

注:コスプレイヤーの名前は、訓練中に同一被写体の複数画像をモデルが関連付けるのを助けるために匿名化されています(プレースホルダーIDを使用)。実際の個人情報は一切保存されていません。

  • 高品質写真の場合、JSON構造はシーンの構成に重点を置いています:

    • {

      "subject": "...",

      "foreground": "...",

      "midground": "...",

      "background": "...",

      "composition": "...",

      "visual_guidance": "...",

      "color_tone": "...",

      "lighting_mood": "...",

      "caption": "..."

      }

構造化されたJSONに加えて、すべての画像はプレーンテキストキャプションでも訓練され、キャプションドロップアウト(一部の訓練ステップではキャプションまたはメタデータを一部またはまったく使用しない)をランダムに適用しました。この二重アプローチにより、制御性と汎化能力が向上します。

推論ガイドライン

  • 最大の審美的精度とスタイル制御を実現するには、推論時にフルJSON形式を使用してください。

  • より広範な汎化やシンプルなプロンプトが必要な場合は、プレーンテキストキャプションを推奨します。

技術的詳細

すべての訓練は、Hugging Face DiffusersのDreamBooth訓練スクリプトをカスタマイズした lrzjason/T2ITrainer を用いて実施されました。このフレームワークは、QwenおよびQwen-Edit(2509)を含む高度なテキスト・ツー・イメージアーキテクチャをサポートしています。

以前の取り組み

このプロジェクトは、拡散ベースの画像生成および編集における制御性と効率性を高めるために開発された複数の以前のツールを基盤としています:

  • ComfyUI-QwenEditUtils:ComfyUI内でのQwenベース画像編集のためのユーティリティノードコレクション。複数リファレンス画像の条件付け、柔軟なリサイズ、高度な編集ワークフロー向けの正確なプロンプトエンコーディングを可能にします。
     🔗 https://github.com/lrzjason/Comfyui-QwenEditUtils

  • ComfyUI-LoraUtils:ComfyUI内での高度なLoRA操作のためのノード群。LoRAのロード、層ごとの修正(正規表現とインデックス範囲による)、および拡散モデルまたはCLIPモデルへの選択的適用をサポートします。
     🔗 https://github.com/lrzjason/Comfyui-LoraUtils

  • T2ITrainer:Qwen Image、Qwen Edit、Flux、SD3.5、Kolorsなど複数のアーキテクチャに対応した、軽量でDiffusersベースのLoRA(およびLoKr)訓練フレームワーク。単一画像、ペア画像、複数リファレンス訓練パラダイムをサポートします。
     🔗 https://github.com/lrzjason/T2ITrainer

これらのツールは、高精度かつ柔軟性のあるパーソナライズされた拡散モデルの訓練、編集、デプロイのための堅牢なエコシステムを構築しています。

お問い合わせ

以下のいずれかのチャネルからお気軽にご連絡ください:

このモデルで生成された画像

画像が見つかりません。