Sniffing / smelling (own) armpit - Pony
详情
下载文件
模型描述
这个LoRA能够描绘一个人闻/嗅自己的腋下。
令人惊讶的是,Pony模型并不了解这个概念(至少我尝试的标签如此),因此我决定为此创建一个LoRA。
主要触发词:sniffing armpit
附加标签(按标签频率排序):exposed armpit,clothed armpit,arm lowered
(最后一个标签的图像数量极少,效果极不稳定;对于“clothed armpit”,最好在负面提示中也包含“exposed armpit”,因为仅“armpit”这个词就足以让Pony很高兴地生成腋下了。)
推荐LoRA权重:根据你想要的风格,0.4 – 1.0。
Pony模型在这一概念上表现不佳,可能是因为在不同图库中几乎没有对应标签的图像。
借此,我们来谈谈
训练过程
具体而言,我从多个图库中收集了36个样本(并非刻意挑选,都是我能找到的优质图像)。
随后,我使用Pony Diffusion结合ControlNet(深度和姿态模型的组合)生成了额外的170张图像,采用随机艺术风格、性别等参数。
ControlNet的输入图像包括素描和真实照片(意外地,这类照片在图库中大量存在),这些图像来自常规图片搜索,其中19张被加入训练集。
最终得到225张训练图像。
所有图像均使用SmilingWolf的wd-swinv2-tagger-v3进行自动打标,之后手动添加上述四个标签。
接着,我使用RemBG(人体)和ClipSeg(分别针对文本“Arm”、“Armpit”、“Face”)为图像添加遮罩。由于数据集较小,且快速检查发现并非所有遮罩都准确,我又手动修正了部分遮罩。
然后,我使用OneTrainer训练了该LoRA。
相关训练参数如下:
- Prodigy优化器
- 24轮训练,每轮560步
- 每张图像重复10次(含图像与描述变体)
- 批次大小为4
- 使用图像遮罩,未遮罩概率为0.03,未遮罩权重为0.02
- 分辨率1024,启用长宽比分桶
- LoRA秩为48,alpha为2(后期调整为目标秩32,sv_fro为0.99)
训练在RTX 4090上耗时约8小时。
如有任何其他问题,欢迎随时提问。



















