[Qwen] Rebalance v1.0
详情
下载文件
模型描述
模型概述
Rebalance 是一个高保真图像生成模型,基于一个精心挑选的数据集进行训练,该数据集包含数千张角色扮演照片和精选的高质量真实世界图像。所有训练数据均 exclusively 来自公开可访问的互联网内容,且数据集明确排除任何不适宜的内容(NSFW)。
Rebalance 的主要目标是生成具有照片级真实感的输出,克服常见 AI 生成图像中的缺陷——如油腻、塑料感或过于扁平的外观,从而产出具有自然纹理、深度和视觉真实性的图像。
训练策略
训练过程分为多个阶段,大致可分为两个阶段:
角色扮演照片训练
专注于优化面部表情、姿态动态以及整体人体形象的真实性——尤其针对女性角色。高质量照片增强
通过利用专业精选的摄影参考素材,提升画面氛围深度、构图平衡与审美复杂性。
文本描述与元数据
模型采用两种互补的文本描述格式进行训练:纯文本和结构化 JSON。每个数据子集均采用定制的 JSON 模式,以在生成过程中实现细粒度控制。
对于角色扮演图像,JSON 包含:
{
"caption": "...",
"image_type": "...",
"image_style": "...",
"lighting_environment": "...",
"tags_list": [...],
"brightness": 数值,
"brightness_name": "...",
"hpsv3_score": 分数,
"aesthetics": "...",
"cosplayer": "anonymous_id"
}
注意:Cosplayer名称已匿名化(使用占位符ID),仅用于帮助模型在训练过程中关联同一主体的多张图像——并未保留任何真实身份信息。
对于高质量照片,JSON结构强调场景构图:
{
"subject": "...",
"foreground": "...",
"midground": "...",
"background": "...",
"composition": "...",
"visual_guidance": "...",
"color_tone": "...",
"lighting_mood": "...",
"caption": "..."
}
除了结构化的JSON外,所有图像还使用纯文本标题进行训练,并采用随机标题丢弃(即某些训练步骤不使用标题或仅使用部分元数据)。这种双重方法提升了可控性与泛化能力。
推理指导
为实现最大的美学精度与风格控制,推理时请使用完整的JSON格式。
为追求更广泛的泛化或更简单的提示,建议使用纯文本标题。
技术细节
所有训练均使用lrzjason/T2ITrainer完成,这是Hugging Face Diffusers DreamBooth训练脚本的定制扩展。该框架支持先进的文本到图像架构,包括Qwen和Qwen-Edit(2509)。
先前工作
本项目建立在多个先前工具之上,这些工具旨在提升基于扩散模型的图像生成与编辑的可控性与效率:
ComfyUI-QwenEditUtils:一组用于ComfyUI中基于Qwen的图像编辑的实用节点,支持多参考图像条件、灵活缩放以及为高级编辑工作流提供精确的提示编码。
🔗 https://github.com/lrzjason/Comfyui-QwenEditUtilsComfyUI-LoraUtils:一套用于在 ComfyUI 中进行高级 LoRA 操作的节点,支持对 LoRA 加载、层级修改(通过正则表达式和索引范围)以及选择性应用于扩散模型或 CLIP 模型的精细控制。
🔗 https://github.com/lrzjason/Comfyui-LoraUtilsT2ITrainer:一个基于 Diffusers 的轻量级训练框架,专为在多种架构(包括 Qwen Image、Qwen Edit、Flux、SD3.5 和 Kolors)上高效训练 LoRA(及 LoKr)而设计,支持单图像、配对图像和多参考训练范式。
🔗 https://github.com/lrzjason/T2ITrainer
这些工具共同构建了一个强大生态系统,用于高精度、高灵活性地训练、编辑和部署个性化扩散模型。
联系方式
欢迎通过以下任意渠道与我联系:
Twitter:@Lrzjason
QQ 群:866612947
微信 ID:
fkdeaiCivitAI:xiaozhijason




