hyperfusion LoRA 550k images

该 LoRA 在 55 万张正常至超大尺寸的动漫角色图像上进行训练。其主要关注胸部/臀部/腹部/大腿，但现在也能处理更多通用标签主题。

**如果你在想 v8 LoRA 在哪里，请阅读 更新日志文章。**

另外，这些模型的备用 HuggingFace 链接

已上传 140 万条 HyperFusion 使用的自定义标签此处，可用于集成至您自己的数据集

推荐设置：
负面提示（依基础模型而定，使用对您有效的）：低分辨率，手部错误，文字，错误，缺指，多余手指，手指数量不足，裁剪，(质量最差，低质量)，普通质量，JPEG伪影，签名，水印，用户名，模糊，单色，[3D]，漫画，(草图)，透明背景，艺术家姓名
CFG 值：9–12
分辨率：768 到 1024，但更偏好接近 768
CLIP 跳过层数：2

采样器：v7 及以上版本请尽量避免使用 Karras 采样器。使用 --zero_terminal_snr 训练后，Karras 采样器会出现问题，尽管仍能部分工作。

更新日志文章链接

标签说明（你肯定要读一下标签文档，见：训练数据）

由于 HyperFusion 是多个标签体系的综合体，我在训练数据下载部分附上了标签指南。它将解释标签的运作方式（类似于 Danbooru 标签体系），该模型最擅长的标签，以及我自定义标注的所有标签。
大部分情况下，你可以使用来自 Danbooru、Gelbooru、r-34、e621 的标签，特别是与胸部/臀部/腹部/大腿/乳头/体型相关的标签。

我发现最有效的标签探索方法是前往上述任意一个 booru 站点，复制你喜欢的图像的标签，并以此为基础进行使用。因为这个模型训练了太多的标签，根本无法逐一测试。

使用技巧

如果某个标签未产生你期望的结果，请尝试寻找其他相似标签并一并加入。我发现该模型倾向于将某个标签的知识扩散到相关标签上，因此加入更多相关标签，将增加你获得想要结果的几率。
使用负面提示“3D”能有效让图像更接近动漫风格，如果它开始过分偏向渲染模型风格。
与臀部相关的标签强烈偏好背面视角，可尝试低强度 ControlNet 姿势控制进行修正，或在负面提示中加入“臀部聚焦，从后方视角，回头看向镜头”等。新添加的“正面可见臀部”标签也有帮助。
...更多技巧详见标签文档

额外说明

这个模型让我经历了数月的失败和大量经验教训（所以才有了 v7）！我将来或许会训练几个额外的图像分类器以改善特定标签，但目前这些全都只是未来的梦想。

和以往一样，我毫无意图将我的模型用于商业化。尽情享受丰满的魅力吧！

训练中的挑战

- 标签处理-

大规模数据集标签工作的关键在于实现自动化。我最初使用 wd-tagger（或其他类似 Danbooru 的标签工具）在原始标签基础上附加一些常用标签。随后又加入了 e621 标签工具，但通常仅使用一组有限的标签，而非完整的标签列表（部分标签不够准确）。然后我训练了若干图像分类器，如胸部大小、乳房形状、肚脐凹凸、方向性、动态线条，以及另外约 20 类别的分类器，并让它们为我打标签。这些分类器不仅提升了现有标签的准确性，还为数据集引入了全新的概念。最后，我根据标签文档中的说明，将相似标签合并为单一标签（现在我已不再这样做，因为已有 300 万张图像，影响已不大）。

基本上，每当我发现难以通过 prompt 精确控制某个特征时，我就会创建一个新的分类器。目前仅有一些尝试识别图像微小细节（如签名）的分类器效果不佳。

从 v9 开始，我将随标签一同加入约 5% 的图文描述（caption）。这些描述由 CogVLM 生成。

用于训练图像分类器的代码：
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification

理想情况下，我应训练一个多标签每图像分类器（类似 Danbooru 标签器），但目前单标签每图像分类器已能良好工作。

- 结果不佳-

很长一段时间里，我都面临着次优结果的问题。起初我怀疑数据质量太低，但最终发现真正的问题在于标签质量差。r-34 这类网站常在一个图像上堆叠大量描述性标签，如“大胸部，巨大胸部，超大胸部”等，这对需精确控制尺寸的模型来说非常不利。通过我上述提到的分类器，我限制每张图像每个身体部位仅保留一个尺寸标签，结果立竿见影，区别显著。

2023/08/13 经过更多标签与训练经验后，我仍然认同上述观点。随着我标注的图像越来越多，模型对 prompt 的响应也愈发可靠。新添加的 bottomheavy、topheavy、bellyheavy 等标签便是一个明证：它们显著提升了生成特定体型的能力，帮助模型更准确理解你的需求。这些功能的实现无需新增图像，仅优化标签体系即可。

- 标签干扰-

标签干扰的一个例子是使用“巨大胸部”标签，结果却导致全身都变得巨大——胸部、臀部、大腿全都不例外。这一直是个令人困扰的问题。

2024/03/15 在训练更大的模型之后，我发现标签干扰问题已明显减少。看来答案就是更多的数据。

- 测试-

要判断新模型是否优于旧版，拥有标准测试 prompt 至关重要。x/y 绘图非常适合这类对比。但需记住，不同模型间的种子完全不同，你很可能需要对比数十张图像，而非单张一对一比较。

同时，将新模型与基础模型输出进行对比也很重要，以确保你的训练确实带来了整体上的正面提升（虽然显而易见，却常被忽视）。

2023/08/13 测试中最难的部分在于判断何时已对文本编码器（text encoder）训练过度。当以足够高的学习率训练文本编码器时，模型理解 prompt 的能力会开始退化。我在小模型和大模型上都见过这种情况。遗憾的是，目前我尚未找到更好的验证方法，只能通过与旧模型对比来判断。我也尝试过多次不训练文本编码器，但结果总是不理想或训练速度过慢。对于基础模型原本不了解的概念，启用文本编码器训练后，模型理解效果要好得多。

- 软件/硬件-

所有训练均在 Ubuntu 系统的 3090 显卡上完成。使用的软件为 Kohya 的训练工具，因其当前提供了最多的选项。

模型类型	LORA
基础模型	SD 1.4
发布时间	11/7/2023
训练词汇	<size> breasts <size>ass <size> belly topheavy bottomheavy bellyheavy the rest are under "Training Images"

hyperfusion LoRA 550k images

详情

下载文件

关于此版本

模型描述

更新日志文章链接

使用技巧

额外说明

训练中的挑战

此模型生成的图像