RouWei
详情
下载文件
关于此版本
模型描述
深度重训 Illustrious 以实现最佳提示遵循、知识储备与前沿性能。
伟大的梦想终将实现。
版本号仅表示当前最终发布版本的索引,而非计划训练进度的分数。
使用 GPU 集群进行大规模微调,数据集包含约 1300 万张图片(约 400 万张带有自然文本描述)
- 最新且全面的角色、概念、风格、文化及相关知识
- 在发布时,SDXL 动漫模型中最佳的提示遵循能力
- 解决了 Illustrious、NoobAi 及其他检查点常见的标签渗漏与偏见问题
- 在广泛风格中表现出色的美学与知识体系(超过 5 万名艺术家(示例),包括从私人画廊精选的数百个独特数据集,部分来自艺术家本人提供)
- 高灵活性与多样性,且无稳定性牺牲
- 由于使用干净数据集,流行风格不再有恼人的水印
- 色彩鲜明、渐变平滑,无烧毁痕迹,即使在 epsilon 下也拥有完整色域
- 纯粹从 Illustrious v0.1 训练而来,未涉及第三方检查点、LoRAs、微调器等
与前一版本相比,存在一些问题与变更,请务必阅读完整说明。
数据集截止时间:2025 年 4 月底。
特性与提示方法:
重要变更:
当你提示艺术家风格,尤其是混合多种风格时,其标签必须置于独立的 CLIP 块中。只需在其后添加 BREAK(适用于 A1111 及其衍生版本),或使用条件拼接节点(适用于 Comfy)或至少将它们放在提示末尾。否则,结果质量将显著下降。
基础提示:
该检查点支持简短简单的提示,也支持长而复杂的提示。然而,若提示中存在矛盾或怪异内容,与其他模型不同,它们不会被忽略,而会直接影响输出。无引导护栏,无安全保护,无脑叶切除。
只需提示你希望看到的内容,不要提示不应出现在画面中的元素。若你希望从上方视角呈现画面,就不要在正向提示中加入“天花板”;若你希望画面为裁剪视角且头部出框,就不要详细描述角色面部特征,以此类推。非常简单,但有时人们会忽略这一点。
版本 0.8 具备对自然语言提示的高级理解能力。这并不意味着你必须使用它——仅使用标签也完全没问题,尤其是因为对标签组合的理解也得到了增强。
请勿期待其表现能媲美 Flux 或其他基于 T5 或 LLM 文本编码器的模型。整个 SDXL 检查点的大小甚至小于这些模型的文本编码器部分,且作为基础的 Illustrious-v0.1 已遗忘大量原始 SDXL-base 的通用知识。
然而,即便在当前状态下,它仍表现优异,能实现通常需要外部引导才能完成的新任务,并使手动编辑、修复等操作更为便捷。
为达成最佳性能,你应关注 CLIP 块的划分。在 SDXL 中,提示被分割为每块 75 个(含 BOS 和 EOS 为 77 个)token 的片段,CLIP 分别处理这些片段,再将其拼接作为条件输入到 U-Net。
若你想为某个角色/对象指定某些特征,并与其他提示部分分离,请确保它们位于同一块中,并可选择性地用 BREAK 分隔。这无法完全解决特征混合问题,但可减轻该问题并提升整体理解,因为 RouWei 的文本编码器能更好地处理完整序列,而非仅单独概念。
数据集仅包含 booru 风格标签与自然语言表达。尽管数据中包含部分毛茸茸角色、写实照片、西方媒体等内容,所有描述均已转换为经典 booru 格式,以避免不同系统混合带来的问题。因此,e621 标签无法被正确识别。
采样参数:
- txt2img 推荐约 100 万像素,任何 32 的倍数分辨率(1024x1024、1056x、1152x、1216x832 等)。使用 Euler_a,步数 20 至 28。
- CFG:epsilon 版本建议 4 至 9(7 最佳),vpred 版本建议 3 至 5。
- Sigmas 乘数可能略微提升效果,CFG++ 采样器表现良好。LCM/PCM/DMD/… 及其他特殊采样器未测试。
- 部分调度器表现不佳。
- 高分辨率修复:使用 x1.5 潜在空间 + 去噪 0.6,或任一 GAN + 去噪 0.3 至 0.55。
- vpred 版本必须使用更低的 CFG(3 至 5)!
vpred 版本必须使用更低的 CFG(3 至 5)!
质量分类:
仅使用 4 个质量标签:
masterpiece, best quality
正向提示用,以及
low quality, worst quality
负向提示用。
其他标签一概不需要。实际上,你甚至可以省略正向标签,负向标签仅保留 low quality 即可,因为它们会影响基础风格与构图。
lowres 等元标签已被移除,不再有效,建议不要使用。低分辨率图像要么已被删除,要么根据重要性使用 DAT 上采样并清理。
负向提示:
worst quality, low quality, watermark
仅此而已,无需“生锈的长号”、“对猎物放屁”等冗余标签。除非你清楚自己在做什么,否则请勿在负向提示中加入灰度、单色等标签。下方亮度/色彩/对比度部分的额外标签可酌情使用。
艺术家风格:
使用时必须搭配 “by ”,否则无法正常工作。
“by ” 是一种元标记,用于避免风格标签与名称相似的角色/标签混淆。这能显著提升风格表现,同时避免你在其他检查点中常见的随机风格波动。
组合多个风格将产生非常有趣的效果,可通过提示权重和指令进行控制。
你必须在艺术家/风格标签后添加 BREAK(A1111),或使用条件拼接(Comfy),或将其置于提示最末尾。
例如:
by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...
通用风格:
2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style
Booru 标签风格:
1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody
以及来自 此组 的所有风格。
可与艺术家风格组合使用,支持权重,可置于正向与负向提示中。
角色:
使用完整 booru 标签与规范格式,如 karin_(blue_archive) → karin \(blue archive\),并使用肤色标签以更准确还原,如 karin \(bunny\) \(blue archive\)。自动补全扩展可能非常有用。
大多数角色仅凭其 booru 标签即可被识别,但若同时描述其基本特征,会更精准。你可仅通过提示轻松为你的 waifu/husbendo 更换服装,而无需承受基础特征泄露的困扰。
自然语言:
与 booru 标签结合使用,效果极佳。仅在输入风格与质量标签后使用自然语言。仅使用标签亦可,完全取决于你。为获得最佳性能,请留意 CLIP 的 75 token 块划分。
数据集中约 400 万张图像拥有由 Claude、GPT、Gemini、ToriiGate 生成的混合自然语言描述,随后经重构、清理,并与标签以多种方式组合用于增强。
与典型描述不同,这些描述包含角色名称,极为有用。最好保持简洁、清晰、便于使用的描述,避免使用冗长而混乱的废话,例如:
一位神秘而迷人的女性存在,其未明却年轻的本质散发出如千颗垂死恒星般超凡的光辉,拥有如上古神话金色河流般倾泻而下的秀发,或许受当代时尚潮流启发,但未必遵循任何特定美学范式。她的眼眸深邃而多彩,闪耀着千年的智慧,却又保留着超越时间的纯真……
描述生成可使用 ToriiGate 的短模式。
请勿期待其表现能媲美 Flux 等模型。它已竭尽全力,通常经过几次尝试后你就能获得满意结果,但稳定性与细节程度尚不及那些模型。
大量尾巴与耳朵相关概念:
哦对!
tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...
(booru 含义,非 e621)及其他大量自然语言表达。绝大多数效果完美,部分需多次尝试。
亮度/色彩/对比度:
可使用额外元标签进行控制:
low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr
这些标签在 epsilon 与 vpred 版本中均有效,表现极佳。
epsilon 版本对此类亮度元标签依赖过重。若不使用 low brightness、low gamma 或在负向提示中限制色域,可能难以实现真正的纯黑(0,0,0),白色同理。
epsilon 与 vpred 版本均具备真实的 zsnr、完整的色彩与亮度范围,无常见缺陷,但表现方式不同,建议自行尝试。
vpred 版本
你需要知道的关键点:将 CFG 从 7 降低至 5(或更低)。其余使用方式类似,且具优势。
自 v0.7 起,vpred 版本现已稳定运行。它不再受制于类似 nai 在 75 token 块边界附近忽略标签的问题。获得烧毁图像的难度更大——即使在 CFG 7 时,通常也只是过度饱和但保持平滑渐变,这对某些风格反而有益。是的,它能从 (0,0,0) 到 (255,255,255) 完全覆盖。你将发现上述亮度元标签在轻松/懒人提示中非常有用,自然语言表达也同样适用。若要获得最暗图像,请在负向提示中添加 high brightness,或使用 low brightness, low gamma 标签。若你不希望在暗背景上出现过亮皮肤,想降低对比度(或相反,增强效果),请在负向/正向提示中使用 hdr/sdr。
有报告称,在少数提示下会出现对比度下降。似乎其他 vpred 模型在类似提示下也有相同行为,将“分隔符”置于 75 token 块边界附近可修复此问题。但我在 0.7 版本中尚未遇到此类情况。
要运行 vpred 版本,你需要 A1111 的开发版、Comfy(配合专用加载节点)、Forge 或 Reforge。只需使用与 epsilon 相同的参数(Euler a,CFG 3 至 5,20 至 28 步)。无需使用 CFG 重缩放,但可尝试,CFG++ 效果极佳。
基础模型:
本模型在主要训练后对 U-Net 进行了小幅优化,以提升细节、提升分辨率等。但你可能也对 RouWei-Base 感兴趣,它在处理复杂提示时有时表现更佳,尽管在细节上存在轻微瑕疵。它也提供 FP32 版本,例如,如果你希望在 Comfy 中使用 FP32 文本编码器节点、进行合并或微调。
可在 Huggingface 仓库 找到。
已知问题:
当然存在:
- 艺术家与风格标签必须与主提示分离为不同块,或置于提示末尾
- 极少数情况下可能存在位置或组合偏差,但尚不明确
- 有部分用户对少数通用风格提出意见
- epsilon 版本过于依赖亮度元标签,有时必须使用它们才能获得期望的亮度调整
- 部分新增风格/角色的表现可能未达到其应有水平
- 待发现
欢迎为未来版本提出艺术家/角色需求。若你发现某艺术家/角色/概念表现不佳、不准确或水印严重,请报告,我们将明确添加。请关注新版本发布。
加入 Discord 服务器
许可证:
与 Illustrious 相同。可自由用于你的合并、微调等,但请务必保留链接或提及,此为强制要求。
制作说明
我稍后会考虑撰写报告或类似内容。一定会的。
简而言之,98%的工作都与数据集准备相关。我们并未盲目依赖Nai论文中基于标签频率的损失加权方法,而是采用了自定义的引导式损失加权实现,并配合异步数据收集器进行平衡。通过噪声调度器增强,实现了接近Ztsnr(或与其相近)的Epsilon预测。
计算消耗:超过8000小时的H100算力(不含研究与失败尝试所消耗的资源)
感谢:
首先,我要感谢所有支持开源、开发并改进代码的人。感谢illustrious的作者发布模型,感谢NoobAI团队在如此大规模的开源微调方面成为先驱,分享经验,并提出并解决了以往被忽视的问题。
个人致谢:
艺术家们希望匿名,以分享私人作品;几位匿名人士提供了捐赠、代码、标注等帮助;Soviet Cat 提供了GPU赞助;Sv1. 提供了LLM访问、标注和代码支持;K. 提供了训练代码;Bakariso 提供了数据集、测试、建议和内部支持;NeuroSenko 提供了捐赠、测试和代码;LOL2024 提供了大量独特数据集;T., [] 提供了数据集、测试和建议;rred、dga、Fi.、ello 提供了捐赠;TekeshiX 提供了数据集。以及其他所有帮助过我的伙伴们,我非常爱你们 ❤️。
当然,也要感谢所有提供反馈和建议的人,这些都非常宝贵。
如果我遗漏了任何人,请告知我。
捐赠
如果你想支持我——请分享我的模型、留下反馈、用kemonomimi女孩画一张可爱图片。当然,也请支持原始艺术家们。
AI是我的爱好,我一直在自掏腰包投入,从不乞求捐赠。但如今它已演变为一项大规模且昂贵的工程。如果你能提供支持,将有助于加速新的训练和研究。
(请记住,我可能会把钱花在酒精或cosplay女孩身上)
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
如能提供GPU算力(A100及以上)——请私信我。
















