Serizawa Momoka (Tokyo 7th Sisters) | Guide: Mask, Don't Negative Prompt: Dealing with Undesirable Parts of Training Images
详情
下载文件
关于此版本
模型描述
(如果有人能帮我找到一个干净的《东京7th Sisters》资源源,我将非常感激。我真的不想从推特上抓取数据,也不想反向工程游戏API。)
掩码,而非负向提示:处理训练图像中不希望出现的部分
简介
训练图像并不总是干净的。有时,当训练特定目标时,图像中无关的部分(如文字、边框或水印)也会被模型学到。针对这一问题,有几种策略可用,但各有局限:
裁剪:移除不需要的部分。会改变原始构图,某些情况下不适用。
修复绘图:预处理数据,用生成的像素替换不想要的部分。需要良好的修复提示/模型。
负向提示:按原样训练,生成图像时添加负向提示。要求模型知道不想要的部分如何映射到提示词。
另一种简单但有效的方法是:
- 掩码:用预定义的掩码乘以损失函数。
该方法并非 全新,但目前最受欢迎的LoRA训练脚本尚未内置此功能。
实验
使用了60张图像,内容为《东京7th Sisters》中的芹泽桃香的卡片文字和装饰。
训练了一个带掩码的LoRA 和 一个普通的无掩码LoRA。
对于带掩码的版本,使用图像编辑软件在原始图像上绘制了掩码图。注意:由于VAE具有8倍缩放因子,模型实际看到的是8x8像素化的版本。被掩码遮盖区域的标签已被移除。
结果
(请参见预览图片)
未来工作
- 使用分割模型自动生成掩码





