hyperfusion_vpred finetune 3.3m images
详情
下载文件
关于此版本
模型描述
此检查点在330万张普通至超大尺寸动漫角色图像上进行了训练,主要聚焦于胸部、臀部、腹部和大腿,但现已能处理更广泛的通用标签主题。截至v8版本,动漫和兽人图像各占约50%。更多版本详情及未来计划请参阅下面的变更日志文章。
注意:这将是我最后一个SD1x模型。我想看看Hyperfusion数据集在SD1.5上真正的潜力,因此我让其在2块3090显卡上训练了10个月,以榨取其全部概念知识。这是我迄今为止训练出的最佳概念模型,但它仍保留了SD1x常见的缺陷。我可能将文本编码器的学习率保持过高太久(从0.5x降至0.3x)。
特别感谢stuffer.ai允许我在其网站上托管我的模型以收集反馈。这在早期解决模型问题方面至关重要,也是观察长期改进需求的有效方式。
V9是v_pred模型,因此您需要在A1111中使用YAML文件,或在Comfy中使用vpred节点,并在两者中设置cfg_rescale=0.6-0.8。A1111还需要安装CFG_Rescale扩展。
我在以下链接发布了一个使用ComfyUI工作流的旧示例:https://civitai.com/images/64978187
其他链接:
原始Hyperfusion LoRAs 可在此处找到:/model/16928
还有备选的HuggingFace链接
已上传Hyperfusion所用的140万个自定义标签:https://huggingface.co/datasets/thojm/hyperfusion_classified_tags_export,供您整合到自己的数据集中
变更日志文章链接
v9_vpred微调建议:
采样器:除Karras采样器外的任何采样器。请勿使用Karras! 使用--zero_terminal_snr训练会使该采样器出现问题。同时,您在A1111中必须使用uniform调度器,或在Comfy中使用“simple,normal”调度器。
负向提示:我分别测试了以下每个标签,确保其具有正面效果:
worst quality, low rating, signature, artist name, artist logo, logo, unfinished, jpeg artifacts, artwork \(traditional\), sketch, horror, mutant, flat color, simple shading
正向提示:对于我训练进此模型的基础风格,请使用“best quality, high rating”,更多细节见训练数据文档。
cfg:7-9
cfg_rescale:0.6-0.8(此v_pred模型必须使用rescale_cfg)。较低值通常减少身体恐怖效果,但图像可能偏暗。
分辨率:768-1024(接近896可减少身体恐怖)
clip skip:2
zero_terminal_snr:启用
风格:您应先选择一种风格。默认风格一般般。尝试v8+中新增的艺术家标签,所有标签可通过在tags.csv中搜索“(artist)”找到。参见示例图像了解艺术风格。
LoRA/TI:在其他模型上训练的LoRA不适用于本模型,即使在其他v_pred模型上训练的LoRA也无法保证兼容。
v8 LoRA建议:
采样器:除Karras采样器外的任何采样器。请勿使用Karras! 使用--zero_terminal_snr训练会使该采样器出现问题。
LoRA/TI:如果您使用基于NovelAI模型训练的LoRA/TI,可能弊大于利。请先尝试不使用它们。
负向提示:low rating, lowres, text, signature, watermark, username, blurry, transparent background, ugly, sketch, unfinished, artwork \(traditional\), multiple views, flat color, simple shading, rough sketch
cfg:8(比LoRA Hyperfusion所需值更低)
分辨率:768-1024(接近768可减少身体恐怖)
clip skip:2
风格:尝试v8中新增的艺术家标签,所有标签可通过在tags.csv中搜索“(artist)”找到。
标签信息(您务必阅读标签文档,见:训练数据)
由于Hyperfusion融合了多种标签体系,我在训练数据下载部分附带了一份标签指南。该指南将说明标签的工作方式(类似Danbooru标签)、模型最擅长的标签,以及我所有自定义标注标签。
大部分情况下,您可以使用与胸部、臀部、腹部、大腿、乳头、吞食、体型相关的Danbooru、Gelbooru、r-34、e621等网站的标签。
我发现探索标签的最佳方法是前往上述一个booru网站,复制您喜欢的图像的标签作为基础。因为本模型训练的标签太多,无法全部测试。
技巧
由于本数据集庞大且多样,标签行为与大多数基于NovelAI的模型不同。请留意,您在其他模型中的提示可能需要调整。
如果某个标签未产生预期效果,请寻找相似标签并一并使用。我发现本模型倾向于将标签知识扩散到相关标签上,因此增加更多相关标签可提高获得理想结果的概率。
使用负向提示“3d”可有效防止图像过度偏向渲染风格,使其更接近动漫风格。
臀部相关标签偏好背面视角,可尝试使用低强度ControlNet姿态校正,或在负向提示中加入“ass focus, from behind, looking back”。新标签“ass visible from front”也有帮助。
……更多技巧请参阅标签文档。
额外说明
此模型历经数月失败和大量经验积累(所以才有v7!)。我未来希望能训练一些图像分类器,以改进某些标签,但目前所有梦想暂且搁置。
和以往一样,我无意对任何我的模型进行盈利。尽情享受厚度吧!
- 标签标注 -
标注大型数据集的关键在于自动化。我首先使用wd-tagger(或类似Danbooru标注器)在原始标签上追加一些常见标签。随后我加入了e621标注器,但通常仅使用有限标签集而非完整标签列表(部分标签不够准确)。接着我训练了若干图像分类器,如胸围大小、乳房形状、肚脐凹凸、朝向、运动线等约20个,让它们自动标注。这些分类器不仅优化了现有标签,还为数据集增添了全新概念。最后,我将相似标签合并为单一标签(如标签文档所述,我目前已停止此操作。300万张图像下,这已不那么重要)。
基本上,每当我发现难以用提示表达某个特定内容时,我就会构建一个新的分类器。截至目前,效果不佳的仅限那些试图分类图像中小细节(如签名)的分类器。
从v9开始,我将随标签一并提供约10%的文本描述(caption),这些描述由CogVLM生成。
我使用以下代码训练图像分类器:
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification
理想情况下,我应训练类似Danbooru标注器的多标签分类器,但目前单标签分类器已足够有效。
- 软件/硬件 -
训练全部在Ubuntu系统上的3090显卡上完成,使用的软件是Kohya的训练器,因其目前提供最丰富的选项。



















