ArtiWaifu Diffusion

详情

下载文件

模型描述

ArtiWaifu Diffusion

我们发布了 ArtiWaifu Diffusion 模型,专为生成美观且忠实还原的动漫风格插画而设计。

AWA Diffusion 是 Stable Diffusion XL 模型的迭代版本,掌握了超过 9000 种艺术风格6000 个动漫角色(2.0 版本),通过触发词生成图像。

作为专为动漫设计的图像生成模型,AWA Diffusion 在生成高质量动漫图像方面表现卓越,尤其擅长在保持一致的高审美表达的同时,生成具有高度可识别风格和角色的图像。

新闻

  • 2024/08/31: 📢 公告:各版本的触发词列表现已移至模型页面右侧的 “关于本版本” 面板。

  • 2024/08/30: ArtiWaifu Diffusion 2.0 版本已在 CivitAIHuggingFaceLiblibAI (ShakkerAI) 和 TensorArt 发布。

模型详情

AWA Diffusion 模型基于 Stable Diffusion XL 进行微调,使用了包含 250 万(2.0 版本)高质量动漫图像的精选数据集,涵盖广泛流行的和小众的动漫概念。AWA Diffusion 采用了我们最先进的训练策略,使用户能够通过触发词轻松引导模型生成特定角色或风格的图像,同时保持高图像质量和审美表达。

使用指南

本指南将(i)介绍模型推荐的使用方法和提示词撰写策略,旨在为生成提供参考建议;(ii)作为模型使用的参考文档,详细说明触发词、质量标签、评级标签、风格标签和角色标签的撰写模式与策略。

基本用法

  • CFG 尺度:5-11,推荐值为 7.5。

  • 分辨率:面积约为 1024x1024,不低于 256x256,且宽度和高度均为 32 的倍数。

  • 采样方法:Euler A(20+ 步)或 DPM++ 2M Karras(约 35 步)

由于特殊的训练方法,AWA 的最佳推理步数高于常规值。随着推理步数增加,生成图像的质量可持续提升……

问题:为何不使用标准的 SDXL 分辨率?

💡 回答:因为训练中使用的分桶算法不遵循固定的分桶集合。虽然这不符合位置编码,但我们未观察到任何负面影响。

提示词策略

所有文本到图像的扩散模型对提示词都具有极高的敏感性,AWA Diffusion 也不例外。提示词中的拼写错误,甚至将空格替换为下划线,都会影响生成结果。AWA Diffusion 鼓励用户使用以 逗号+空格(, 分隔的 标签 编写提示词。尽管模型也支持自然语言描述作为提示词,或两者混合使用,但标签逐项格式更稳定、更用户友好。

在描述特定 ACG 概念(如角色、风格或场景)时,我们建议用户从 Danbooru 标签 中选择标签,并将 Danbooru 标签中的下划线替换为空格,以确保模型准确理解您的需求。例如,bishop_(chess) 应写作 bishop (chess);在使用括号加权提示词的推理工具(如 AUTOMATIC1111 WebUI)中,标签内的所有括号都应转义,即 bishop \(chess\)

标签排序

包括 AWA Diffusion 在内的大多数扩散模型更擅长理解逻辑排序的标签。虽然标签顺序非强制要求,但它有助于模型更好理解您的意图。通常,标签在序列中越靠前,其对生成的影响越大。

以下是一个标签排序示例。该示例将标签按顺序组织,优先放置 艺术风格标签角色标签,因为风格和主题是图像最重要的部分;随后按重要性依次添加其他标签;最后将审美标签和质量标签置于末尾,进一步强调图像的美学:

艺术风格(by xxx)→ 角色(1 frieren (sousou no frieren))→ 种族(elf)→ 构图(cowboy shot)→ 绘画风格(impasto)→ 主题(fantasy theme)→ 主要环境(in the forest, at day)→ 背景(gradient background)→ 动作(sitting on ground)→ 表情(expressionless)→ 主要特征(white hair)→ 其他特征(twintails, green eyes, parted lip)→ 服装(wearing a white dress)→ 服饰配件(frills)→ 其他物品(holding a magic wand)→ 次要环境(grass, sunshine)→ 美学(beautiful color, detailed)→ 质量(best quality)→ 次要描述(birds, cloud, butterfly)

标签顺序并非一成不变。灵活编写提示词可能获得更好的效果。例如,若某种概念(如风格)的影响过强,反而削弱了图像的美感,可将其移至较后位置以降低其权重。

负面提示词

对于 AWA Diffusion,负面提示词并非必需。若使用负面提示词,并非越多越好,应尽可能简洁且模型易于识别。过多负面词可能导致生成效果变差。以下是一些推荐使用负面提示词的场景:

  1. 水印signaturelogoartist name

  2. 质量worst qualitylowresuglyabstract

  3. 风格real life3dcelluloidsketchdraft

  4. 人体解剖deformed handfused fingersextra limbsextra armsmissing armextra legsmissing legextra digitsfewer digits

触发词

在提示词中添加触发词,以告知模型您希望生成的概念。触发词可包括角色名称、艺术风格、场景、动作、质量等。

注意:请查看 每个版本“模型详情” 部分以获取完整的触发词列表。

触发词使用提示

  1. 拼写错误:模型对触发词拼写极为敏感,即使单个字母差异也可能导致触发失败或产生意外结果。

  2. 括号转义:使用依赖括号加权提示词的推理工具(如 AUTOMATIC1111 WebUI)时,请注意转义触发词中的括号,例如:1lucy(cyberpunk)1lucy \(cyberpunk\)

  3. 触发效果预览:通过在 Danbooru 上搜索标签,预览标签含义,以便更好地理解其用法。

风格标签

风格标签分为两类:绘画风格标签和艺术风格标签。绘画风格标签描述图像所用的绘画技法或媒介,如油画、水彩、平涂、厚涂等;艺术风格标签代表图像背后艺术家的艺术风格。

AWA Diffusion 支持以下绘画风格标签:

  • Danbooru 标签中可用的绘画风格标签,如 oil paintingwatercolorflat color 等;

  • AID XL 0.8 支持的所有绘画风格标签,如 flat-pasto 等;

  • Neta Art XL 1.0 支持的所有风格标签,如 gufeng 等;

  • 其他标签,如 by trickortreat 等;

AWA Diffusion 支持以下艺术风格标签:

  • Danbooru 标签中可用的艺术风格标签,如 byyoneyama maibywlop 等;

  • AID XL 0.8 支持的所有艺术风格标签,如 byantifreeze3by7thknights 等;

标签库中标签数量越高,该艺术风格训练越充分,生成的保真度也越高。通常,数量超过 50 的艺术风格标签能获得更好的生成效果。

风格标签使用提示

  1. 强度调节:可通过调整提示词中风格标签的顺序或权重来调节风格强度。将风格标签前置可增强其效果,后置则减弱其影响。

问题:为何艺术风格标签需添加前缀 by

💡 回答:为明确告知模型您希望生成某种特定艺术风格而非其他内容,我们建议在艺术风格标签中包含前缀 by。这能区分 byxxxxxx,尤其当 xxx 本身具有其他含义时,例如 dino 可能代表恐龙或艺术家标识。类似地,触发角色时,应在角色触发词前添加 1 作为前缀。

角色标签

角色标签描述生成图像中的角色 IP。使用角色标签将引导模型生成该角色的 外观特征

角色标签也需来源于 角色标签列表。为生成特定角色,首先在标签库中找到对应的触发词,将触发词中的所有下划线 _ 替换为空格,并在角色名称前添加 1。例如:1ayanami rei 将触发模型生成动漫《EVA》中的角色绫波丽,对应 Danbooru 标签 ayanami_rei1asuna(sao) 将触发模型生成《刀剑神域》中的角色亚丝娜,对应 Danbooru 标签 asuna_(sao)

标签库中标签数量越高,该角色训练越充分,生成的保真度也越高。通常,数量超过 100 的角色标签能获得更好的生成效果。

角色标签使用提示

  1. 角色着装:为实现更灵活的角色着装,角色标签 不会 主动引导模型绘制角色的官方服装。若需生成角色穿着特定官方服装,除触发词外,还应在提示词中详细描述服装,例如:_1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent_

  2. 作品标注:部分角色标签在角色名称后带有括号标注。括号及其中内容不可省略,例如:1 lucy (cyberpunk) 不能写作 1 lucy。除此之外,无需在角色标签后额外添加作品标签,例如您 无需 在角色标签后添加其所属作品的标签。

  3. 已知问题 1:生成某些角色时,可能出现神秘的特征畸变,例如 1 asui tsuyu(触发《我的英雄学院》中的角色雾泽雨)可能导致双眼间出现额外的黑线。这是因为模型将角色的大圆眼睛误判为眼镜,因此应在负面提示词中加入 glasses 以避免此问题。

  4. 已知问题 2:生成较冷门角色时,由于数据/训练不足,AWA Diffusion 可能生成特征恢复不完整的图像。此时,建议在提示词中除角色名外,进一步详细描述角色的出处、种族、发色、服装等。

  5. 已知问题 3:部分角色标签自带风格,且风格过重导致重叠。可降低角色标签权重以缓解此问题,例如:frieren(frieren:0.8)

角色标签触发示例

  • 1 lucy (cyberpunk) ✅ 正确角色标签

  • 1 lucy ❌ 缺少括号标注

  • 1 lucy (cyber) ❌ 括号标注错误

  • lucy (cyberpunk) ❌ 缺少前缀 1

  • 1 lucy (cyberpunk ❌ 括号未闭合

  • 1 lucky (cyberpunk) ❌ 拼写错误

  • 1 lucy (cyberpunk: edgerunners) ❌ 括号标注不符合要求的角色标签格式

问题:为何部分角色标签包含括号标注,例如 lucy (cyberpunk),而其他标签则没有,例如 frieren

💡 回答:在不同作品中,可能存在同名角色,例如《刀剑神域》和《蓝色档案》中的亚丝娜。为区分这些同名角色,需用作品名称对角色名进行标注,若名称过长可适当缩写。对于目前无重名的角色(如 frieren),则无需特殊标注。

质量标签与美学标签

对于AWA Diffusion,将质量描述符包含在您的正向提示中非常重要。质量描述与质量标签和美学标签相关。

质量标签直接描述生成图像的美学质量,影响细节、纹理、人体解剖结构、光线、色彩等。添加质量标签有助于模型生成更高质量的图像。质量标签按从高到低的等级排列如下:

惊人的质量 -> 最佳质量 -> 高质量 -> 普通质量 -> 低质量 -> 最差质量

美学标签描述生成图像的美学特征,帮助模型生成具有艺术吸引力的图像。除了“透视”、“光影”等典型美学词汇外,AWA Diffusion经过专门训练,能有效响应诸如“美丽色彩”、“细节丰富”和“美学”等美学触发词,分别表达吸引人的色彩、细节和整体美感。

推荐的通用质量描述方式为:<您的提示词>,美丽色彩,细节丰富,惊人的质量

质量与美学标签提示

  1. 标签数量:只需使用一个质量标签;可添加多个美学标签。

  2. 标签位置:质量与美学标签的位置不固定,但通常置于提示词末尾。

  3. 相对质量:不存在绝对的质量层级;隐含的质量与普遍的美学标准一致,不同用户对质量的感知可能不同。

评级标签

评级标签描述生成图像内容的暴露程度。评级标签按从高到低排列如下:

评级:通用(或安全)-> 评级:暗示性 -> 评级:可疑 -> 评级:明确(或NSFW)

提示词示例

示例1

A

by yoneyama mai, 1 frieren, 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color, amazing quality

  1. by yoneyama mai 触发Yoneyama Mai的艺术风格,置于开头以增强效果。

  2. 1 frieren 触发来自《葬送的芙莉莲》中的角色芙莉莲。

  3. beautiful color 描述生成图像中的美丽色彩。

  4. amazing quality 描述生成图像的惊人质量。

B

by nixeu, 1 lucy (cyberpunk), 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed, best quality

示例2:风格混合

通过叠加多个不同风格标签,可生成融合多种风格特征的图像。

A 简单混合

by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

B 加权混合

使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),为不同风格标签赋予权重,以更精确地控制生成图像的风格。

(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

C 高级混合

使用AUTOMATIC1111 WebUI提示词加权语法(括号加权),| 符号可用于直接混合两个词语。

(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

示例3:多角色场景

通过在提示词中添加多个角色标签,可生成同一画面中包含多个角色的图像。与其他类似模型相比,AWA在多角色场景中表现更优,但仍不够稳定。

A 混合性别场景

1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality

B 同性别场景

2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality

未来工作

AWA Diffusion旨在结合高级美学与全面知识,既不应具有传统AI的油腻感,也不应沦为缺乏知识的花瓶。我们将持续探索更先进的训练技术和策略,不断优化模型质量。

支持我们

训练AWA Diffusion成本高昂。如果您欣赏我们的工作,请考虑通过Ko-fi支持我们,以助力我们的研发工作。感谢您的点赞与支持!

此模型生成的图像

未找到图像。