[Qwen] Rebalance v1.0

模型概述

Rebalance 是一个高保真图像生成模型，基于一个精心挑选的数据集进行训练，该数据集包含数千张角色扮演照片和精选的高质量真实世界图像。所有训练数据均 exclusively 来自公开可访问的互联网内容，且数据集明确排除任何不适宜的内容（NSFW）。

Rebalance 的主要目标是生成具有照片级真实感的输出，克服常见 AI 生成图像中的缺陷——如油腻、塑料感或过于扁平的外观，从而产出具有自然纹理、深度和视觉真实性的图像。

训练策略

训练过程分为多个阶段，大致可分为两个阶段：

文本描述与元数据

模型采用两种互补的文本描述格式进行训练：纯文本和结构化 JSON。每个数据子集均采用定制的 JSON 模式，以在生成过程中实现细粒度控制。

对于角色扮演图像，JSON 包含：
- {
  
  "caption": "...",
  
  "image_type": "...",
  
  "image_style": "...",
  
  "lighting_environment": "...",
  
  "tags_list": [...],
  
  "brightness": 数值,
  
  "brightness_name": "...",
  
  "hpsv3_score": 分数,
  
  "aesthetics": "...",
  
  "cosplayer": "anonymous_id"
  
  }

注意：Cosplayer名称已匿名化（使用占位符ID），仅用于帮助模型在训练过程中关联同一主体的多张图像——并未保留任何真实身份信息。

对于高质量照片，JSON结构强调场景构图：
- {
  
  "subject": "...",
  
  "foreground": "...",
  
  "midground": "...",
  
  "background": "...",
  
  "composition": "...",
  
  "visual_guidance": "...",
  
  "color_tone": "...",
  
  "lighting_mood": "...",
  
  "caption": "..."
  
  }

除了结构化的JSON外，所有图像还使用纯文本标题进行训练，并采用随机标题丢弃（即某些训练步骤不使用标题或仅使用部分元数据）。这种双重方法提升了可控性与泛化能力。

推理指导

技术细节

所有训练均使用lrzjason/T2ITrainer完成，这是Hugging Face Diffusers DreamBooth训练脚本的定制扩展。该框架支持先进的文本到图像架构，包括Qwen和Qwen-Edit（2509）。

先前工作

本项目建立在多个先前工具之上，这些工具旨在提升基于扩散模型的图像生成与编辑的可控性与效率：

ComfyUI-QwenEditUtils：一组用于ComfyUI中基于Qwen的图像编辑的实用节点，支持多参考图像条件、灵活缩放以及为高级编辑工作流提供精确的提示编码。
🔗 https://github.com/lrzjason/Comfyui-QwenEditUtils
ComfyUI-LoraUtils：一套用于在 ComfyUI 中进行高级 LoRA 操作的节点，支持对 LoRA 加载、层级修改（通过正则表达式和索引范围）以及选择性应用于扩散模型或 CLIP 模型的精细控制。
🔗 https://github.com/lrzjason/Comfyui-LoraUtils
T2ITrainer：一个基于 Diffusers 的轻量级训练框架，专为在多种架构（包括 Qwen Image、Qwen Edit、Flux、SD3.5 和 Kolors）上高效训练 LoRA（及 LoKr）而设计，支持单图像、配对图像和多参考训练范式。
🔗 https://github.com/lrzjason/T2ITrainer

这些工具共同构建了一个强大生态系统，用于高精度、高灵活性地训练、编辑和部署个性化扩散模型。

联系方式

欢迎通过以下任意渠道与我联系：