RayVietii-A

详情

下载文件

模型描述

想要使用此模型的 PixAI 用户可以通过以下链接从我的 PixAI 个人资料中上传的模型进行使用:

https://pixai.art/@rayvietii/artworks/models


🌟 本模型基于我的艺术作品,我的 Instagram:https://www.instagram.com/ray_vietii,可查看“艺术风格”。

此模型在形状和手部表现上仍有缺陷,但这是我的风格。风格迁移效果完美,我会持续改进。建议在负面提示中加入 noise background

推理参数:

步数:至少 8
CFG:推荐 5
采样器:优先使用 Euler、Euler a、DDIM
负面提示(可选):noise background

试试看!https://pixai.art/model/1910312952549111802


🤔 回顾一下。

DRm 实际上是我用于实验的对象,是我熟悉 SD1.5 架构乃至整个 Stable Diffusion 的入门起点。DRm 是这段旅程的基础。

而 Papermae 本应是“我的艺术风格”模型,但它失败了。


对于喜欢更技术性内容的用户,以下信息或许能提供一些启发。

本模型使用了一种名为 HSC(Hard-Skip Clamping)的噪声调度器,这是一种仅前向过程的噪声调度器。我提出的 HSC 类似于 DDPM,但不同之处在于:在 xT 阶段,它并非引入 100% 的纯噪声,而是停在约 90% 的噪声水平,保留约 10% 的原始信号。若要打个比方,HSC 就像是 DDPM 与 Min-SNR-gamma 有了“暧昧关系”。4 步的生成质量并非最佳,更准确地说是“即使步数这么低也能保持图像连贯性”的声明,而非生成高质量图像。为获得良好效果,建议至少使用 8 步。

我使用的训练参数如下:

重复次数:15
轮数:10

UNet 学习率:1.6e-4
文本编码器学习率:6e-5
学习率调度器:带 4 次重启的余弦调度
学习率预热:0

Min-SNR-gamma:0(对不起 T Hang 等人,你们让我失望了🤣🙏)

网络维度与 alpha 比例:1:1,即 alpha = dim

=======================
噪声调度器设置:

β 起始 = 0.0003
β 结束 = 0.006016
t = 800

Clip Skip = 1

=======================
其他参数:
数据集图像数量:25
风格正则化数量:4
最小桶分辨率:128
最大桶分辨率:4095
Clip Skip:2

根据标准的 Ho 建议:β 起始=0.0001,结束=0.002,t=1000,xT 时噪声达到约 600 步,此时剩余 400 步几乎全是纯噪声,原始信号占比低于 5%。

你可能会问:“那为什么不直接用 t=600?” 因为模型仍需学习去噪过程,即“猜测噪声”。我的 β 结束值经过精心设定,因为在 xT=780 时才达到纯噪声状态,剩余 20 个时间步则是“猜测”阶段。


我使用 is_reg(风格正则化)来强化风格表现。

v

我的训练封装脚本中包含一个自定义参数,利用子文件夹,我们称之为 “style”,其计算公式为:style = num_repeat * multiplier。以下为示例:

从左到右:

1. style: 0.25
2. style: 0.5
3. style: 1.0
4. style: 2.0

在风格表现上,我无法断言哪一种最理想,但经过大量测试并使用不同提示词后,我得出结论:2.0 整体效果最佳。

此模型生成的图像

未找到图像。