RTX On - PonyDiffusionXLV6

详情

模型描述

这是一个基于 ponyDiffusion_V6XL 基础模型训练的 SDXL LoRA。(它无法在其他模型上使用;不过你可以自由尝试)。

其预期效果是生成看起来像高质量(光线充足)3D 渲染的图像。

基础模型本身已经能够完美生成 3D 风格的图像(使用 3dblender 标签),但我希望更突出某种特定风格,并尽可能增加灵活性。

为此,我在标注时标记了一组特定关键词,希望借此能够更精确地指定某些风格。但由于大量图像同时包含多种标签,因此同时使用多个标签能产生最大的影响。即便完全不使用任何标签,也会有一定效果。

下面是一个夸张但非刻意挑选的示例(未使用 3d 和 blender 标签,仅使用 source_anime,种子为 1、2、3):使用以下提示词时 LoRA 的效果:

score_9,score_8_up,score_7_up, 1girls, big_breasts, sfw, selfie, female, light_skin, slim, crop_top, leggings, pink_hair, brown_eyes,  v_sign, peace_sign, living_room, source_anime, rating_safe

(查看完整分辨率图像 此处

具体标签及其含义如下(附说明):

  • RTX_on —— 我本意是将其作为基础标签,几乎为每张图像都打上了此标签。

  • RTX_soft —— 软渲染图像,柔和的光照。

  • RTX_flat —— 用于那些表面较为平坦的 3D 图像,尤其是皮肤纹理(想象《守望先锋》模型,但使用 Source Filmmaker 和少量灯光渲染)。

  • RTX_pt —— 代表“路径追踪”,用于那些具有显著光影效果,或场景照明非常充分的图像(即真实的全局光照、环境遮蔽、间接光照、精确阴影等)。

  • RTX_hairsim —— 代表“模拟毛发”,我为一部分具有大量独立发丝真实模拟的图像打上了此标签。但并非所有此类图像都标记了,且标记可能不足,因此此标签有时效果不够稳定。

  • RTX_texture —— 与 RTX_flat 相对,当图像中使用了真实的皮肤或织物纹理,或皮肤上有真实液体(汗水/水)时,我打上了此标签。但同样,标记并不完整,因此该标签有时也不够精确。

虽然 RTX_textureRTX_flat 看似对立,但有些源图像我同时打上了这两个标签。用视频游戏术语来说,这种情况出现在皮肤没有实际基础颜色贴图(albedo texture),但有法线贴图(normal map),且光照角度正确,从而自然形成阴影的时候。

为了大致了解各个标签的作用,我推荐参考以下示例图像。

该图是一个所有标签的矩阵,列的权重高于行(以更明显地展示标签效果)。每个图像提示中始终包含两个标签,列标签排在前面。建议在外部打开此图像查看。

(查看完整分辨率图像 此处

这些图像来源于 rule34,因此该 LoRA 可能对非人形或写实特征效果较差。(我试过一两张非人形示例,效果尚可(可能得益于 SDXL),但仍建议参考其他用户的示例图像和评价,以获得更全面的了解。)

训练说明

一如既往,我将简要说明训练过程。

这是我首次在非基础模型上进行训练,也是我尝试的第一个风格。我对结果总体满意,尽管我原本希望效果能更好一些。

我从 rule34 中选取了 1250 张高分辨率基础图像。由于我对图像质感和质量的要求,其中相当一部分来自《守望先锋》、《赛博朋克 2077》等游戏。许多源图像还带有水印。这可能会增加生成角色看起来像《守望先锋》角色(当未明确提示具体角色时)的可能性,同时也增加了生成水印的可能性。

对于收集的图像,我保留了原始标签,并额外添加了上述自定义标签。除极少数例外,几乎所有图像都打上了 RTX_on 标签。此外,当我认为某个标签适合图像时,我也添加了相应的标签。由于大多数图像具有某种基础风格(例如《赛博朋克 2077》的截图),我决定仅在这些图像上保留 RTX_on 标签,而未添加 RTX_hairsim 或 RTX_texture 等标签。回顾来看(如果重做一次),我会在所有图像中都打上这些细节标签。

训练使用 Kohya 进行,我选择了 4 次重复、批量大小 6、30 个轮次,共产生 25110 步。由于使用了 booru 标签,我启用了随机化标注,并保留每个标注的前 3 个标记。此外,由于部分图像包含大量 booru 标签,我将最大标记长度增加至 150。

这是我首次尝试 Prodigy 优化器,因此我参考了其他用户成功使用的设置。如需了解更多这些设置,我强烈推荐观看此视频:https://www.youtube.com/watch?v=QpWacUWeqbE

在 30 个轮次的训练中,LoRA 未出现过拟合,因此与我之前制作的 LoRA 不同,这次我没有混合多个版本以获得更好效果。因此,这次你可以直接查看 safetensors 文件中的附加元数据。

训练使用了 rank 128(维度和 alpha 均为 128),之后调整为目标 rank 32。

整个训练过程在云上 RTX 4090 上耗时略多于 19 小时(峰值显存使用 23.5 GB)。

如有更多问题,欢迎随时问我。

许可证

由于此模型基于 Pony Diffusion V6 XL 训练,我决定将此 LoRA 以类似的修改版 Fair AI Public License 1.0-SD 许可证发布(https://freedevproject.org/faipl-1.0-sd/)。

对 Fair AI Public License 的以下修改已添加:

您不得在任何允许任何形式盈利的网站或应用程序上运行本模型的推理(如付费推理、更快的付费等级等)。此限制同样适用于任何衍生模型或模型合并。

CivitAi 和 Hugging Face 被明确授权用于商业推理。

此模型生成的图像

未找到图像。