hyperfusion LoRA 550k images

详情

模型描述

该 LoRA 在 55 万张正常至超大尺寸的动漫角色图像上进行训练。其主要关注胸部/臀部/腹部/大腿,但现在也能处理更多通用标签主题。

**如果你在想 v8 LoRA 在哪里,请阅读 更新日志文章。**

另外,这些模型的备用 HuggingFace 链接

已上传 140 万条 HyperFusion 使用的自定义标签 此处,可用于集成至您自己的数据集

推荐设置
负面提示(依基础模型而定,使用对您有效的)低分辨率,手部错误,文字,错误,缺指,多余手指,手指数量不足,裁剪,(质量最差,低质量),普通质量,JPEG伪影,签名,水印,用户名,模糊,单色,[3D],漫画,(草图),透明背景,艺术家姓名
CFG 值:9–12
分辨率:768 到 1024,但更偏好接近 768
CLIP 跳过层数:2

采样器:v7 及以上版本请尽量避免使用 Karras 采样器。使用 --zero_terminal_snr 训练后,Karras 采样器会出现问题,尽管仍能部分工作。

更新日志文章链接

标签说明(你肯定要读一下标签文档,见:训练数据)

由于 HyperFusion 是多个标签体系的综合体,我在训练数据下载部分附上了标签指南。它将解释标签的运作方式(类似于 Danbooru 标签体系),该模型最擅长的标签,以及我自定义标注的所有标签。
大部分情况下,你可以使用来自 Danbooru、Gelbooru、r-34、e621 的标签,特别是与胸部/臀部/腹部/大腿/乳头/体型相关的标签。

我发现最有效的标签探索方法是前往上述任意一个 booru 站点,复制你喜欢的图像的标签,并以此为基础进行使用。因为这个模型训练了太多的标签,根本无法逐一测试。

使用技巧

  • 如果某个标签未产生你期望的结果,请尝试寻找其他相似标签并一并加入。我发现该模型倾向于将某个标签的知识扩散到相关标签上,因此加入更多相关标签,将增加你获得想要结果的几率。

  • 使用负面提示“3D”能有效让图像更接近动漫风格,如果它开始过分偏向渲染模型风格。

  • 与臀部相关的标签强烈偏好背面视角,可尝试低强度 ControlNet 姿势控制进行修正,或在负面提示中加入“臀部聚焦,从后方视角,回头看向镜头”等。新添加的“正面可见臀部”标签也有帮助。

  • ...更多技巧详见标签文档

额外说明

这个模型让我经历了数月的失败和大量经验教训(所以才有了 v7)!我将来或许会训练几个额外的图像分类器以改善特定标签,但目前这些全都只是未来的梦想。

和以往一样,我毫无意图将我的模型用于商业化。尽情享受丰满的魅力吧!


训练中的挑战

- 标签处理-

大规模数据集标签工作的关键在于实现自动化。我最初使用 wd-tagger(或其他类似 Danbooru 的标签工具)在原始标签基础上附加一些常用标签。随后又加入了 e621 标签工具,但通常仅使用一组有限的标签,而非完整的标签列表(部分标签不够准确)。然后我训练了若干图像分类器,如胸部大小、乳房形状、肚脐凹凸、方向性、动态线条,以及另外约 20 类别的分类器,并让它们为我打标签。这些分类器不仅提升了现有标签的准确性,还为数据集引入了全新的概念。最后,我根据标签文档中的说明,将相似标签合并为单一标签(现在我已不再这样做,因为已有 300 万张图像,影响已不大)。

基本上,每当我发现难以通过 prompt 精确控制某个特征时,我就会创建一个新的分类器。目前仅有一些尝试识别图像微小细节(如签名)的分类器效果不佳。

从 v9 开始,我将随标签一同加入约 5% 的图文描述(caption)。这些描述由 CogVLM 生成。

用于训练图像分类器的代码:
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification

理想情况下,我应训练一个多标签每图像分类器(类似 Danbooru 标签器),但目前单标签每图像分类器已能良好工作。

- 结果不佳-

很长一段时间里,我都面临着次优结果的问题。起初我怀疑数据质量太低,但最终发现真正的问题在于标签质量差。r-34 这类网站常在一个图像上堆叠大量描述性标签,如“大胸部,巨大胸部,超大胸部”等,这对需精确控制尺寸的模型来说非常不利。通过我上述提到的分类器,我限制每张图像每个身体部位仅保留一个尺寸标签,结果立竿见影,区别显著。

2023/08/13 经过更多标签与训练经验后,我仍然认同上述观点。随着我标注的图像越来越多,模型对 prompt 的响应也愈发可靠。新添加的 bottomheavy、topheavy、bellyheavy 等标签便是一个明证:它们显著提升了生成特定体型的能力,帮助模型更准确理解你的需求。这些功能的实现无需新增图像,仅优化标签体系即可。

- 标签干扰-

标签干扰的一个例子是使用“巨大胸部”标签,结果却导致全身都变得巨大——胸部、臀部、大腿全都不例外。这一直是个令人困扰的问题。

2024/03/15 在训练更大的模型之后,我发现标签干扰问题已明显减少。看来答案就是更多的数据。

- 测试-

要判断新模型是否优于旧版,拥有标准测试 prompt 至关重要。x/y 绘图非常适合这类对比。但需记住,不同模型间的种子完全不同,你很可能需要对比数十张图像,而非单张一对一比较。

同时,将新模型与基础模型输出进行对比也很重要,以确保你的训练确实带来了整体上的正面提升(虽然显而易见,却常被忽视)。

2023/08/13 测试中最难的部分在于判断何时已对文本编码器(text encoder)训练过度。当以足够高的学习率训练文本编码器时,模型理解 prompt 的能力会开始退化。我在小模型和大模型上都见过这种情况。遗憾的是,目前我尚未找到更好的验证方法,只能通过与旧模型对比来判断。我也尝试过多次不训练文本编码器,但结果总是不理想或训练速度过慢。对于基础模型原本不了解的概念,启用文本编码器训练后,模型理解效果要好得多。

- 软件/硬件-

所有训练均在 Ubuntu 系统的 3090 显卡上完成。使用的软件为 Kohya 的训练工具,因其当前提供了最多的选项。

此模型生成的图像

未找到图像。