ArtiWaifu Diffusion
详情
下载文件
关于此版本
模型描述
ArtiWaifu Diffusion
我们发布了 ArtiWaifu Diffusion 模型,专为生成美观且忠实还原的动漫风格插画而设计。
AWA Diffusion 是 Stable Diffusion XL 模型的迭代版本,掌握了超过 9000 种艺术风格 和 6000 个动漫角色(2.0 版本),通过触发词生成图像。
作为专为动漫设计的图像生成模型,AWA Diffusion 在生成高质量动漫图像方面表现卓越,尤其擅长在保持一致的高审美表达的同时,生成具有高度可识别风格和角色的图像。
新闻
2024/08/31: 📢 公告:各版本的触发词列表现已移至模型页面右侧的 “关于本版本” 面板。
2024/08/30: ArtiWaifu Diffusion 2.0 版本已在 CivitAI、HuggingFace、LiblibAI (ShakkerAI) 和 TensorArt 发布。
模型详情
AWA Diffusion 模型基于 Stable Diffusion XL 进行微调,使用了包含 250 万(2.0 版本)高质量动漫图像的精选数据集,涵盖广泛流行的和小众的动漫概念。AWA Diffusion 采用了我们最先进的训练策略,使用户能够通过触发词轻松引导模型生成特定角色或风格的图像,同时保持高图像质量和审美表达。
使用指南
本指南将(i)介绍模型推荐的使用方法和提示词撰写策略,旨在为生成提供参考建议;(ii)作为模型使用的参考文档,详细说明触发词、质量标签、评级标签、风格标签和角色标签的撰写模式与策略。
基本用法
CFG 尺度:5-11,推荐值为 7.5。
分辨率:面积约为 1024x1024,不低于 256x256,且宽度和高度均为 32 的倍数。
采样方法:Euler A(20+ 步)或 DPM++ 2M Karras(约 35 步)
由于特殊的训练方法,AWA 的最佳推理步数高于常规值。随着推理步数增加,生成图像的质量可持续提升……
❓ 问题:为何不使用标准的 SDXL 分辨率?
💡 回答:因为训练中使用的分桶算法不遵循固定的分桶集合。虽然这不符合位置编码,但我们未观察到任何负面影响。
提示词策略
所有文本到图像的扩散模型对提示词都具有极高的敏感性,AWA Diffusion 也不例外。提示词中的拼写错误,甚至将空格替换为下划线,都会影响生成结果。AWA Diffusion 鼓励用户使用以 逗号+空格(, ) 分隔的 标签 编写提示词。尽管模型也支持自然语言描述作为提示词,或两者混合使用,但标签逐项格式更稳定、更用户友好。
在描述特定 ACG 概念(如角色、风格或场景)时,我们建议用户从 Danbooru 标签 中选择标签,并将 Danbooru 标签中的下划线替换为空格,以确保模型准确理解您的需求。例如,bishop_(chess) 应写作 bishop (chess);在使用括号加权提示词的推理工具(如 AUTOMATIC1111 WebUI)中,标签内的所有括号都应转义,即 bishop \(chess\)。
标签排序
包括 AWA Diffusion 在内的大多数扩散模型更擅长理解逻辑排序的标签。虽然标签顺序非强制要求,但它有助于模型更好理解您的意图。通常,标签在序列中越靠前,其对生成的影响越大。
以下是一个标签排序示例。该示例将标签按顺序组织,优先放置 艺术风格标签 和 角色标签,因为风格和主题是图像最重要的部分;随后按重要性依次添加其他标签;最后将审美标签和质量标签置于末尾,进一步强调图像的美学:
艺术风格(by xxx)→ 角色(1 frieren (sousou no frieren))→ 种族(elf)→ 构图(cowboy shot)→ 绘画风格(impasto)→ 主题(fantasy theme)→ 主要环境(in the forest, at day)→ 背景(gradient background)→ 动作(sitting on ground)→ 表情(expressionless)→ 主要特征(white hair)→ 其他特征(twintails, green eyes, parted lip)→ 服装(wearing a white dress)→ 服饰配件(frills)→ 其他物品(holding a magic wand)→ 次要环境(grass, sunshine)→ 美学(beautiful color, detailed)→ 质量(best quality)→ 次要描述(birds, cloud, butterfly)
标签顺序并非一成不变。灵活编写提示词可能获得更好的效果。例如,若某种概念(如风格)的影响过强,反而削弱了图像的美感,可将其移至较后位置以降低其权重。
负面提示词
对于 AWA Diffusion,负面提示词并非必需。若使用负面提示词,并非越多越好,应尽可能简洁且模型易于识别。过多负面词可能导致生成效果变差。以下是一些推荐使用负面提示词的场景:
水印:
signature、logo、artist name;质量:
worst quality、lowres、ugly、abstract;风格:
real life、3d、celluloid、sketch、draft;人体解剖:
deformed hand、fused fingers、extra limbs、extra arms、missing arm、extra legs、missing leg、extra digits、fewer digits。
触发词
在提示词中添加触发词,以告知模型您希望生成的概念。触发词可包括角色名称、艺术风格、场景、动作、质量等。
注意:请查看 每个版本 的 “模型详情” 部分以获取完整的触发词列表。
触发词使用提示
拼写错误:模型对触发词拼写极为敏感,即使单个字母差异也可能导致触发失败或产生意外结果。
括号转义:使用依赖括号加权提示词的推理工具(如 AUTOMATIC1111 WebUI)时,请注意转义触发词中的括号,例如:
1lucy(cyberpunk)→1lucy \(cyberpunk\)。触发效果预览:通过在 Danbooru 上搜索标签,预览标签含义,以便更好地理解其用法。
风格标签
风格标签分为两类:绘画风格标签和艺术风格标签。绘画风格标签描述图像所用的绘画技法或媒介,如油画、水彩、平涂、厚涂等;艺术风格标签代表图像背后艺术家的艺术风格。
AWA Diffusion 支持以下绘画风格标签:
Danbooru 标签中可用的绘画风格标签,如
oil painting、watercolor、flat color等;AID XL 0.8 支持的所有绘画风格标签,如
flat-pasto等;Neta Art XL 1.0 支持的所有风格标签,如
gufeng等;其他标签,如
by trickortreat等;
AWA Diffusion 支持以下艺术风格标签:
Danbooru 标签中可用的艺术风格标签,如
byyoneyama mai、bywlop等;AID XL 0.8 支持的所有艺术风格标签,如
byantifreeze3、by7thknights等;
标签库中标签数量越高,该艺术风格训练越充分,生成的保真度也越高。通常,数量超过 50 的艺术风格标签能获得更好的生成效果。
风格标签使用提示
- 强度调节:可通过调整提示词中风格标签的顺序或权重来调节风格强度。将风格标签前置可增强其效果,后置则减弱其影响。
❓ 问题:为何艺术风格标签需添加前缀 by?
💡 回答:为明确告知模型您希望生成某种特定艺术风格而非其他内容,我们建议在艺术风格标签中包含前缀 by。这能区分 byxxx 与 xxx,尤其当 xxx 本身具有其他含义时,例如 dino 可能代表恐龙或艺术家标识。类似地,触发角色时,应在角色触发词前添加 1 作为前缀。
角色标签
角色标签描述生成图像中的角色 IP。使用角色标签将引导模型生成该角色的 外观特征。
角色标签也需来源于 角色标签列表。为生成特定角色,首先在标签库中找到对应的触发词,将触发词中的所有下划线 _ 替换为空格,并在角色名称前添加 1。例如:1ayanami rei 将触发模型生成动漫《EVA》中的角色绫波丽,对应 Danbooru 标签 ayanami_rei;1asuna(sao) 将触发模型生成《刀剑神域》中的角色亚丝娜,对应 Danbooru 标签 asuna_(sao)。
标签库中标签数量越高,该角色训练越充分,生成的保真度也越高。通常,数量超过 100 的角色标签能获得更好的生成效果。
角色标签使用提示
角色着装:为实现更灵活的角色着装,角色标签 不会 主动引导模型绘制角色的官方服装。若需生成角色穿着特定官方服装,除触发词外,还应在提示词中详细描述服装,例如:
_1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent_。作品标注:部分角色标签在角色名称后带有括号标注。括号及其中内容不可省略,例如:
1 lucy (cyberpunk)不能写作1 lucy。除此之外,无需在角色标签后额外添加作品标签,例如您 无需 在角色标签后添加其所属作品的标签。已知问题 1:生成某些角色时,可能出现神秘的特征畸变,例如
1 asui tsuyu(触发《我的英雄学院》中的角色雾泽雨)可能导致双眼间出现额外的黑线。这是因为模型将角色的大圆眼睛误判为眼镜,因此应在负面提示词中加入glasses以避免此问题。已知问题 2:生成较冷门角色时,由于数据/训练不足,AWA Diffusion 可能生成特征恢复不完整的图像。此时,建议在提示词中除角色名外,进一步详细描述角色的出处、种族、发色、服装等。
已知问题 3:部分角色标签自带风格,且风格过重导致重叠。可降低角色标签权重以缓解此问题,例如:
frieren→(frieren:0.8)。
角色标签触发示例
1 lucy (cyberpunk)✅ 正确角色标签1 lucy❌ 缺少括号标注1 lucy (cyber)❌ 括号标注错误lucy (cyberpunk)❌ 缺少前缀11 lucy (cyberpunk❌ 括号未闭合1 lucky (cyberpunk)❌ 拼写错误1 lucy (cyberpunk: edgerunners)❌ 括号标注不符合要求的角色标签格式
❓ 问题:为何部分角色标签包含括号标注,例如 lucy (cyberpunk),而其他标签则没有,例如 frieren?
💡 回答:在不同作品中,可能存在同名角色,例如《刀剑神域》和《蓝色档案》中的亚丝娜。为区分这些同名角色,需用作品名称对角色名进行标注,若名称过长可适当缩写。对于目前无重名的角色(如 frieren),则无需特殊标注。
质量标签与美学标签
对于AWA Diffusion,将质量描述符包含在您的正向提示中非常重要。质量描述与质量标签和美学标签相关。
质量标签直接描述生成图像的美学质量,影响细节、纹理、人体解剖结构、光线、色彩等。添加质量标签有助于模型生成更高质量的图像。质量标签按从高到低的等级排列如下:
惊人的质量 -> 最佳质量 -> 高质量 -> 普通质量 -> 低质量 -> 最差质量
美学标签描述生成图像的美学特征,帮助模型生成具有艺术吸引力的图像。除了“透视”、“光影”等典型美学词汇外,AWA Diffusion经过专门训练,能有效响应诸如“美丽色彩”、“细节丰富”和“美学”等美学触发词,分别表达吸引人的色彩、细节和整体美感。
推荐的通用质量描述方式为:<您的提示词>,美丽色彩,细节丰富,惊人的质量
质量与美学标签提示
标签数量:只需使用一个质量标签;可添加多个美学标签。
标签位置:质量与美学标签的位置不固定,但通常置于提示词末尾。
相对质量:不存在绝对的质量层级;隐含的质量与普遍的美学标准一致,不同用户对质量的感知可能不同。
评级标签
评级标签描述生成图像内容的暴露程度。评级标签按从高到低排列如下:
评级:通用(或安全)-> 评级:暗示性 -> 评级:可疑 -> 评级:明确(或NSFW)
提示词示例
示例1
A
by yoneyama mai, 1 frieren, 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color, amazing quality
by yoneyama mai 触发Yoneyama Mai的艺术风格,置于开头以增强效果。
1 frieren 触发来自《葬送的芙莉莲》中的角色芙莉莲。
beautiful color 描述生成图像中的美丽色彩。
amazing quality 描述生成图像的惊人质量。
B
by nixeu, 1 lucy (cyberpunk), 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed, best quality
示例2:风格混合
通过叠加多个不同风格标签,可生成融合多种风格特征的图像。
A 简单混合
by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
B 加权混合
使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),为不同风格标签赋予权重,以更精确地控制生成图像的风格。
(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
C 高级混合
使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),| 符号可用于直接混合两个词语。
(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality
示例3:多角色场景
通过在提示词中添加多个角色标签,可生成同一画面中包含多个角色的图像。与其他类似模型相比,AWA在多角色场景中表现更优,但仍不够稳定。
A 混合性别场景
1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality
B 同性别场景
2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality
未来工作
AWA Diffusion旨在结合高级美学与全面知识,既不应具有传统AI的油腻感,也不应沦为缺乏知识的花瓶。我们将持续探索更先进的训练技术和策略,不断优化模型质量。
支持我们
训练AWA Diffusion成本高昂。如果您欣赏我们的工作,请考虑通过Ko-fi支持我们,以助力我们的研发工作。感谢您的点赞与支持!














