qwen-edit-skin

详情

下载文件

模型描述

Qwen-Image-Edit-2509 优化的 LoRA 模型,用于增强皮肤真实感

本仓库包含一个微调的低秩适应(LoRA)模型,旨在提升图像中人类皮肤的逼真度与细节表现。该 LoRA 基于强大的 Qwen/Qwen-Image-Edit-2509 模型进行训练,利用其先进的图像编辑能力,专注于生成更自然、更细致的皮肤纹理。

该模型使用 AI-Toolkit 在本地 RTX 5090 显卡上训练了 5000 步。生成的 LoRA 特别适合摄影师、数字艺术家以及任何希望提升生成或编辑图像中人物皮肤质量的用户。

模型描述

qwen-edit-skin LoRA 是对 Qwen/Qwen-Image-Edit-2509 基础模型的专项微调。基础模型是一个多功能图像编辑器,在多图像编辑和单图像一致性保持方面表现优异,尤其擅长保留个人身份特征。该 LoRA 在此基础上专门针对人类皮肤的细微特征进行优化,为原本生成结果中缺失的皮肤纹理、色调与毛孔细节增添真实感。

训练使用了 AI ToolKit 的一个分支版本,这是一个用于微调扩散模型的综合性工具套件。数据集构建过程包括对主体皮肤细节进行反向修改,具体步骤如下:

  • 收集包含裸露皮肤的多样人物肖像真实图像

  • 将这些图像标注为“目标”(THE AFTER)图像,作为标准 Qwen Edit 工作流中期望的最终结果

  • 使用 Photoshop 对图像进行处理,添加高斯模糊并平滑肤色,使皮肤纹理、色调和毛孔变得不明显

  • 这些处理后的图像作为“控制”(THE BEFORE)图像,用于 Qwen Edit 的训练

训练细节

模型使用以下关键参数进行微调,具体配置可参见配套的 config.yaml 文件:

硬件:

  • GPU: NVIDIA RTX 5090

训练配置:

  • 训练步数: 5000

  • 批量大小: 1

  • 梯度累积: 1

  • 学习率: 1.0e-04

  • 优化器: adamw8bit

  • 噪声调度器: flowmatch

  • 分辨率: 模型在分辨率为 512、768 和 1024 像素的数据集上进行训练

  • 精度: bf16

网络架构:

  • 类型: LoRA

  • 线性层秩与 Alpha: 16

  • 卷积层秩与 Alpha: 16

选择 adamw8bit 作为优化器具有重要意义,它显著降低了训练过程中的内存占用,使在消费级硬件上高效微调成为可能,同时不牺牲性能。flowmatch 噪声调度器是一种现代方法,可实现更高效的训练与高质量的图像生成。

LoRA 架构的一个显著特点是,线性层和卷积层的 Alpha 值均被设为与其对应秩相等(16)。这种平衡策略是 LoRA 训练的常用起点,确保学习到的适配以成比例的缩放因子应用,有助于防止过拟合,同时使模型有效学习所需的新增特征。

使用方法

要使用此 LoRA,请先加载基础模型 Qwen/Qwen-Image-Edit-2509,然后加载名为 qwen-edit-skin.safetensors 的微调 LoRA 权重。仓库中上传了先前版本的权重以供参考,但最终推荐版本为 qwen-edit-skin.safetensors。您也可以利用仓库中附带的 ComfyUI 示例工作流,对比不同权重下的生成效果。

推荐的权重范围为 1 至 1.5。示例中使用高达 2 的权重仅用于展示 LoRA 在过高强度下的效果,实际应用中不建议使用如此高的强度。

适用场景

本 LoRA 专为创意与艺术用途设计,旨在提升数字图像中人类皮肤的真实感,适用于:

  • 数字艺术家: 为角色皮肤添加更精细的纹理与细节

  • 摄影师: 对人像进行润色与增强

  • AI 艺术爱好者: 生成更逼真的人物图像

局限性与偏见

该模型是基于大规模预训练模型的微调版本,可能继承其原有偏见。本 LoRA 的训练数据集中主要聚焦于改善皮肤细节,并未充分代表人类肤色与肤质的全部多样性。用户应意识到这一点并负责任地使用该模型。模型输出受输入提示影响,建议使用描述性且包容性的语言引导生成过程。


免责声明: 本模型仅用于艺术与创意目的。用户需对其生成内容负责,并遵守伦理规范,尊重个人隐私与尊严。

触发词

请使用 make the subjects skin details more prominent and natural 来触发图像生成。

此模型生成的图像

未找到图像。