[Qwen] Rebalance v1.0

詳細

ファイルをダウンロード

モデル説明

モデル概要

Rebalanceは、数千年ものコスプレ写真と厳選された高品質な現実世界の画像で構成されたキュレーション済みデータセットに基づいて訓練された高精細画像生成モデルです。すべての訓練データは公開されているインターネットコンテンツからのみ取得されており、NSFWコンテンツは明示的に除外されています。

Rebalanceの主要な目的は、油っぽい、プラスチックのような、または過剰に平面的な外観などの一般的なAIアーティファクトを克服し、自然な質感、奥行き、視覚的な真実性を持つ写実的な出力を生成することです。

訓練戦略

訓練は複数段階で実施され、大きく二つのフェーズに分けられます:

  1. コスプレ写真の訓練
     主に顔の表情、ポーズの動き、および全体的な人間のフィギュアの現実感を洗練することを目的とし、特に女性被写体に焦点を当てました。

  2. 高品質写真の強化
     プロフェッショナルにキュレーションされた写真リファレンスを活用し、大気の奥行き、構図のバランス、審美性の洗練度を高めることを目的としました。

キャプションとメタデータ

モデルは、プレインテキストと構造化されたJSONの二つの補完的なキャプション形式を使用して訓練されました。各データサブセットには、生成中の細部の制御を導くためにカスタマイズされたJSONスキーマが適用されています。

  • コスプレ画像の場合、JSONには以下が含まれます:

    • {

      "caption": "...",

      "image_type": "...",

      "image_style": "...",

      "lighting_environment": "...",

      "tags_list": [...],

      "brightness": number,

      "brightness_name": "...",

      "hpsv3_score": score,

      "aesthetics": "...",

      "cosplayer": "anonymous_id"

      }

注:コスプレイヤーの名前は、トレーニング中に同じ被写体の複数の画像をモデルが関連付けられるようにするためのみに匿名化されています(プレースホルダーIDを使用)。実際の身元は一切保存されていません。

  • 高品質な写真の場合、JSON構造はシーンの構図を強調します:

    • {

      "subject": "...",

      "foreground": "...",

      "midground": "...",

      "background": "...",

      "composition": "...",

      "visual_guidance": "...",

      "color_tone": "...",

      "lighting_mood": "...",

      "caption": "..."

      }

構造化されたJSONに加えて、すべての画像はプレインテキストのキャプションとともにトレーニングされ、キャプションのランダムドロップアウト(一部のトレーニングステップではキャプションまたは部分的なメタデータを使用しない)も適用されました。この二重アプローチにより、制御性と汎化性能が向上します。

推論ガイドライン

  • 最大限の審美的精度とスタイル制御を実現するには、推論時にフルJSON形式を使用してください。

  • より広範な汎化またはシンプルなプロンプトを目的とする場合は、プレインテキストキャプションをお勧めします。

技術的詳細

すべてのトレーニングは、Hugging Face Diffusers DreamBoothトレーニングスクリプトをカスタマイズした lrzjason/T2ITrainer を使用して実行されました。このフレームワークは、QwenおよびQwen-Edit(2509)を含む高度なテキストから画像へのアーキテクチャをサポートしています。

以前の作業

このプロジェクトは、拡散ベースの画像生成と編集における制御性と効率性を高めるために開発された複数の以前のツールを基盤としています。

  • ComfyUI-QwenEditUtils: ComfyUIにおけるQwenベース画像編集のためのユーティリティノードのコレクション。複数のリファレンス画像条件付与、柔軟なリサイズ、高度な編集ワークフロー向けの正確なプロンプトエンコーディングを可能にします。
    🔗 https://github.com/lrzjason/Comfyui-QwenEditUtils

  • ComfyUI-LoraUtils: ComfyUI向けの高度なLoRA操作ノード群。LoRAのロード、層ごとの変更(正規表現およびインデックス範囲による)、ディフュージョンモデルまたはCLIPモデルへの選択的適用を細かく制御できます。
    🔗 https://github.com/lrzjason/Comfyui-LoraUtils

  • T2ITrainer: Diffusersベースの軽量なトレーニングフレームワークで、Qwen Image、Qwen Edit、Flux、SD3.5、Kolorsなど複数のアーキテクチャに対応したLoRA(およびLoKr)の効率的なトレーニングをサポート。単一画像、対応データ、複数参照トレーニングパラダイムをサポートします。
    🔗 https://github.com/lrzjason/T2ITrainer

これらのツールは、高精度かつ柔軟性のあるパーソナライズドディフュージョンモデルのトレーニング、編集、デプロイのための堅牢なエコシステムを構築します。

お問い合わせ

以下のいずれかのチャネルを通じて、お気軽にご連絡ください:

このモデルで生成された画像

画像が見つかりません。