VestalWater's Illustrious Styles for Qwen Image

详情

模型描述

概述

此 LoRA 旨在让 Qwen Image 的输出更接近 Illustrious 微调风格的图像。具体而言,该 LoRA 实现了以下效果:

  • 厚重的笔触。与使用渐变平滑渲染皮肤光影效果的艺术风格不同,这种渲染方式常与早期 AI 图像模型相关。你知道那种令人不安的 AI 超级光滑皮肤吗?对,就是那种。

  • 生成具有优美比例的女性:宽臀、细腰等。

  • 不会过度放大眼睛或采用动漫风格。这更多是一种风格偏好,使输出结果更适用于严肃的概念艺术。

  • 恢复了 NSFW 知识。你可以用这个 LoRA 生成乳头和私处。无需多言。

  • 与 Qwen 的量化版本以及 8 步 Lightning LoRA 兼容。

对比

一位裸体女性,胸部丰满,金发马尾辫。背景有一台红色自动售货机。她正注视着观众,跪地,手持纸箱,手臂佩戴蓝色臂章,身穿透明白色安全背心,佩戴粉色智能手表和蓝色工具腰带。乳头可见,乳房裸露,乳晕清晰,面带羞红。佩戴粉色项圈。场景设定在公共场所,地面有纸箱。

一位胸部中等大小的空乘人员,推着推车穿过飞机内部。她留着长及背部的金色马尾辫,身穿蓝色夹克和极短的裙子,露出臀部和内裤,颈部系着一条丝绸围巾。侧面视角,臀部特写。她面带羞涩和红晕。飞机内乘客正注视着她。

一位胸部丰满的女性,正注视观众。阴天光线,柔和阴影。她穿着露下乳的针织露肩毛衣,搭配薄荷绿丁字裤。正面视角,侧边编发,黑发,黑眼睛,神情嫉妒。她坐在课桌上,双腿交叉,双臂交叠,背景是阳光照耀的教室和黑板。

《守望先锋》中的D.Va,一位拥有长棕色头发和丰满胸部的女性,穿着露出下乳的服装,面带微笑,身着黑粉相间的啦啦队制服,佩戴粉色比基尼短裤,手持黑色啦啦球,一只手臂高举。背景为喧闹的电竞竞技场,彩纸从天花板飘落。

设置与工作流程

图片轮播中的所有图像均附有 ComfyUI 工作流。
简要说明:

  • 采样器:Euler

  • 调度器:Simple

  • LoRA 强度:1.0

步数和 CFG 会根据是否使用 8 步 Lightning LoRA 而变化。若使用 8 步 LoRA:

  • 步数:8

  • CFG:1

  • 模型偏移:2

若未使用 8 步 LoRA:

  • 步数:20-40

  • CFG:4

训练方法

为遏制日益流行的 LoRA 训练“圈地自萌”现象(即囤积训练方法却从不分享),我公开我的完整训练方法和部分数据集。

我使用了 Ostris 的 AI 工具包(配备 5090 显卡)及其关于风格 LoRA 训练的优质教程:

我完全遵循视频中的设置,并做了以下调整:

  • 将 Transformer 从 3 位 ARA 改为 6 位,因为我在 RunPod 上使用 5090 显卡,该显卡可容纳更高位数的量化模型。

  • 将学习率从 0.0001 调整为 0.0002。这在视频的第二次训练中他也有采用。

训练方法总结

  • 设备:RunPod 上的 RTX 5090,每小时 $0.9,总训练时间约 4 小时。

  • 步数:3000,但上传至 CivitAI 的检查点为 2750,因为这是我最喜欢的结果。

作业设置

  • 触发词:未设置

模型配置

  • 模型架构:Qwen-Image

  • 名称或路径:Qwen/Qwen-Image

  • 选项:低 VRAM 已开启

量化设置

  • Transformer:6 位

  • 文本编码器:Float8(默认)

目标配置

  • 目标类型:LoRA

  • 线性秩:16

保存配置

  • 数据类型:BF16

  • 250 步保存一次

  • 最多保留 4 个步骤保存点

训练配置

  • 批次大小:1

  • 梯度累积:1

  • 步数:3000

  • 优化器:AdamW8bit

  • 学习率:0.0002

  • 权重衰减:0.0001

  • 时间步类型:加权

  • 时间步偏差:平衡

  • 噪声调度器:FlowMatch

  • EMA(指数移动平均)关闭

  • 文本编码器优化:卸载 TE 关闭,缓存文本嵌入 开启

  • 正则化:差异输出保留 关闭

数据集

  • LoRA 权重:1

  • 文本描述丢失率:0.05

  • 设置:缓存潜变量 关闭,是否为正则化 关闭

  • 分辨率:256 关闭,512 开启,768 开启,1024 开启,1280 关闭,1536 关闭

  • 数据集图像数量:43 张

数据集样本

一位短黑发女性,身穿绿色比基尼、半透明塑料围裙、绿色遮阳帽和带有挂绳与工牌的绿色项圈,站在超市过道中。

一位棕发棕眼女性,仰卧在床上,双腿大开,身穿黑色皮质束身装备,右上角有一只手拿着智能手机对准她。

一位短黑发、刘海女性,佩戴双链项链,身穿长袖透明黑色上衣(覆盖亮黑色比基尼)和一条配红色腰带与枪套的黑色短裙,站在一台红色自动售货机与一台蓝色明亮自动售货机之间,背景为昏暗狭窄空间。

数据集标注方法

在 LoRA 训练中,一个实用原则是:

  • 未在标注中提及的内容,LoRA 会将其学习并关联为风格。

  • 输入垃圾,输出垃圾。

标注

我的标注方法遵循上述第一条原则。为使 Qwen 生成具有优美比例的女性,我在数据集中任何女性的标注中提及“宽臀”或“大胸”。这样,LoRA 学到的是“女性 = 数据集中的图像”,而不是“曲线型女性(宽臀大胸)= 数据集中的图像”。因此,LoRA 会默认认为女性应如数据集中的图像那样呈现。

同样地,在皮肤和光影过渡的处理上,数据集中每一张图像都包含浓厚的插画风格笔触,但我在标注中从未提及这一点。因此,该 LoRA 现在会自动以厚重笔触渲染所有内容,这正是我希望达到的效果。

让数据集看起来更好

Illustrious 以生成糟糕的眼睛而臭名昭著。你必须使用高分辨率修复才能获得好眼睛,但这会导致头发变得过于夸张。为解决此问题,我对数据集运行了面部细节增强工具,效果极佳,可从样本图像中看出。虽然仍不完美,例如虹膜并非完美圆形。

糟糕的手部。这个问题无法通过后期处理可靠修复(即使使用内补也效果不稳定),因此我不断重试,直到获得满意的手部。

混乱的背景。只能不断重试,直到获得半合理的背景。

如果我有更多耐心,我会用 Photoshop 修复数据集中所有模糊的文本和标志。

此模型生成的图像

未找到图像。