Serizawa Momoka (Tokyo 7th Sisters) | Guide: Mask, Don't Negative Prompt: Dealing with Undesirable Parts of Training Images

详情

模型描述

(如果有人能帮我找到一个干净的《东京7th Sisters》资源源,我将非常感激。我真的不想从推特上抓取数据,也不想反向工程游戏API。)

掩码,而非负向提示:处理训练图像中不希望出现的部分

简介

训练图像并不总是干净的。有时,当训练特定目标时,图像中无关的部分(如文字、边框或水印)也会被模型学到。针对这一问题,有几种策略可用,但各有局限:

  1. 裁剪:移除不需要的部分。会改变原始构图,某些情况下不适用。

  2. 修复绘图:预处理数据,用生成的像素替换不想要的部分。需要良好的修复提示/模型。

  3. 负向提示:按原样训练,生成图像时添加负向提示。要求模型知道不想要的部分如何映射到提示词。

另一种简单但有效的方法是:

  1. 掩码:用预定义的掩码乘以损失函数。

该方法并非 全新,但目前最受欢迎的LoRA训练脚本尚未内置此功能。

实验

使用了60张图像,内容为《东京7th Sisters》中的芹泽桃香的卡片文字和装饰。

训练了一个带掩码的LoRA一个普通的无掩码LoRA

对于带掩码的版本,使用图像编辑软件在原始图像上绘制了掩码图。注意:由于VAE具有8倍缩放因子,模型实际看到的是8x8像素化的版本。被掩码遮盖区域的标签已被移除。

结果

(请参见预览图片)

未来工作

  • 使用分割模型自动生成掩码

此模型生成的图像

未找到图像。