Anime Illust Diffusion XL

详情

模型描述

模型介绍(Chinese Part)

I 目录

在本介绍中,您将了解:

  1. 模型介绍(见 II 部分);

  2. 使用指南(见 III 部分);

  3. 训练参数(见 IV 部分);

  4. 触发词列表(见附录 A 部分)

II 模型介绍

动漫插画设计XL,或称 AIDXL 是一款专用于生成二次元插图的模型。它内置了 800 种以上(随着更新越来越多)的插画风格,依靠特定触发词(见附录 A 部分)触发。

优点:构图大胆,没有摆拍感,主体突出,没有过多繁杂的细节,认识很多动漫人物(依靠角色日文名拼音触发,例如,“ayanami rei”对应角色“绫波丽”,“kamado nezuko”对应角色“祢豆子”)。

III 使用指南(将与时俱进)

1 基本用法

1.1 提示词书写

  1. 使用触发词:使用附录 A 所提供的触发词来风格化图像。适合的触发词将 极大地 提高生成质量;

  2. 提示词标签化:使用标签化的提示词描述生成对象;

  3. 提示词排序:排序您的提示词将有助于模型理解词义。推荐的标签顺序:

    触发词(by xxx)->主角(1girl)->角色(frieren)->种族(elf)->构图(cowboy shot)->风格(impasto)->主题(fantasy)->主要环境(forest, day)->背景(gradient background)->动作(sitting)->表情(expressionless)->主要人物特征(white hair)->人体特征(twintails, green eyes, parted lip)->服饰(white dress)->服装配件(frills)->其他物品(magic wand)->次要环境(grass, sunshine)->美学(beautiful color, detailed, aesthetic)->质量(best quality)

  4. 负面提示词worst quality, low quality, lowres, messy, abstract, ugly, disfigured, bad anatomy, deformed hands, fused fingers, signature, text, multi views

1.2 生成参数

  1. 分辨率:确保图像总分辨率(总分辨率=高度×宽度)围绕1024×1024,且宽和高均为32的倍数。例如,832x1216 (3:2)、1216x832 (3:2) 以及 1024x1024 (1:1)。

  2. 不进行“Clip Skip”操作,即 Clip Skip = 1。

  3. 采样器步数:采用 “euler_ancester” 采样器(sampler),该组合在 webui 中称为 Euler A。在 7 CFG Scale 上采样 28 步。

  4. 仅需使用模型本身,不使用精炼器(Refiner)。

  5. 使用基底模型 VAE 或 SDXL-VAE。

2 特殊用法

2.1 泛风格化

0.7 版本归纳了若干相似插画画风,引入了泛风格触发词。泛风格触发词各代表一种常见动漫插画画风类别。

请注意,泛风格触发词并不一定符合其词义所指的美术含义,而是经过重新定义的特殊触发词。

2.2 角色

0.7 版本对角色进行了强化训练。部分角色触发词的还原度已能达到 LoRA 的效果,并能很好地将角色概念与其穿着分离。

角色触发方式为 角色名 \(作品\)。例如,触发动画《赛博朋克:边缘行者》的女主角露西,则使用 lucy \(cyberpunk\);触发游戏《原神》中的角色甘雨,则使用 ganyu \(genshin impact\)。此处,“lucy” 和 “ganyu” 为角色名,“\(cyberpunk\)” 和 “\(genshin impact\)” 为对应角色的作品出处,括号使用斜杠“\”转义,以防止被解释为提示词加权。对于部分角色,出处并非必需。

角色触发词请参考 selected_tags.csv · SmilingWolf/wd-v1-4-convnext-tagger-v2 at main (huggingface.co)

在使用中,若仅靠单个角色触发词无法完全还原角色,则需在提示词中补充该角色的主要特征。

角色触发词通常不携带角色本身的着装特征,如需添加角色着装,则需在提示词中加入衣物名称。例如,游戏《碧蓝航线》中角色圣路易斯(st. louis \(luxurious wheels\) \(azur lane\))的衣装触发可使用 silver evening gown, plunging neckline。类似地,您也可以为任何角色添加其他角色的衣装标签。

2.3 质量标签

0.7 版本的质量与美学标签经过正式训练,在提示词中跟随它们将影响生成图像的质量。

0.7 版本正式训练并引入了质量标签,质量标签分为六个等级,由好到坏依次为:amazing qualitybest qualityhigh qualitynormal qualitylow qualityworst quality

2.4 美学标签

自 0.7 版本起引入了美学标签,用于描述图像的特殊美学特征。

2.5 风格融合

您可以将多种风格合并到自定义风格中。“合并”实际上意味着同时使用多种风格触发词。例如:chun-li, amazing quality, (by yoneyama mai:0.9), (by chi4:0.8), by ask, by modare, (by ikky:0.9).

一些技巧:

  • 通过控制风格的权重与顺序调整最终风格。

  • 将风格触发词置于提示词末尾,而非开头。

3 注意事项

  1. 使用 SDXL 支持的 VAE 模型、文本嵌入(embeddings)模型和 LoRA 模型。注意:sd-vae-ft-mse-original 不是支持 SDXL 的 VAE;EasyNegative、badhandv4 等负面文本嵌入也不是支持 SDXL 的 embeddings;

  2. 对于 0.61 及以下版本:生成图像时,强烈建议使用模型专用的负面文本嵌入(下载参见 Suggested Resources 栏),因其专为模型定制,对模型几乎仅有正面效果;

  3. 每个版本新增的触发词在当前版本中效果可能相对较弱或不稳定。

IV 训练参数

以 SDXL1.0 为底模,使用约 2 万张自行标注的图像,在学习率为 5e-6、循环次数为 1 的余弦调度器上训练约 100 个周期,得到模型 A。随后在学习率为 2e-7、其余参数相同条件下训练,得到模型 B。将模型 A 与 B 混合后,得到 AIDXLv0.1 模型。

其他训练参数请参见英文版说明。

V 特别鸣谢

算力赞助:感谢 @捏Ta 社区(捏Ta (nieta.art))提供的算力支持;

数据支持:感谢 @秋麒麟热茶(KirinTea_Aki Creator Profile | Civitai)和 @风吟(Chenkin Creator Profile | Civitai)提供的大量数据支持;

没有它们,就不会有 0.7 版本。

VI 更新日志

2023/08/08:AIDXL 使用与 AIDv2.10 完全相同的训练集进行训练,但表现优于 AIDv2.10。AIDXL 更聪明,能实现许多以 SD1.5 为底模无法完成的任务。它还能很好地区分不同概念,学习图像细节,处理对 SD1.5 来说极其困难的构图,并近乎完美地掌握旧版 AID 无法完全学会的风格。总体而言,它拥有比 SD1.5 更高的上限,我将继续更新 AIDXL。

2024/01/27:0.7 版本新增了大量内容,数据集大小超过上一版本的两倍。

  1. 为获得更满意的标注,我尝试了多种新的标签处理算法,如标签排序、标签分层随机化、角色特征分离等。项目地址:Eugeoter/sd-dataset-manager (github.com)

  2. 为使训练可控且更符合我的意愿,我基于 Kohya-ss 制作了定制训练脚本;

  3. 为掌控不同世代模型的融合过程,我开发了一些启发式模型融合算法;为使模型达到充分风格化,我放弃了通过融合文本编码器与 UNET 的输出层来提升模型稳定性和美学效果的方法,因为这会损害模型的风格表现;

  4. 为筛选和过滤数据,我训练了一个水印检测模型、一个图像分类模型和一个美学评分模型,以协助我清洗数据集。

VII 赞助我们

如果您喜欢我们的工作,欢迎通过 Ko-fi(https://ko-fi.com/eugeai)赞助我们,支持我们的研究与开发,感谢您的支持!

附录

A. 特殊触发词列表

  • 艺术风格触发词点击我

  • 绘画风格触发词:flat color, clean color, celluloid, flat-pasto, thin-pasto, pseudo-impasto, impasto, realistic, photorealistic, cel shading, 3d

    • flat color:平面色彩,使用线条描述光影

      平涂:平面色彩,使用线条和色块描述光影和层次

    • clean color:介于 flat color 和 flat-pasto 之间的风格,色彩简洁整洁

      具有简洁色彩的平涂,介于 flat color 和 flat-pasto 之间

    • celluloid:动漫着色

      平涂赛璐璐:动漫着色

    • flat-pasto:接近平面的色彩,使用渐变描述光影和层次

      接近平面的色彩,使用渐变描述光影和层次

    • thin-pasto:细轮廓勾线,使用渐变和颜料厚度描述光影和层次

      细轮廓勾线,使用渐变和颜料厚度描述光影和层次

    • pseudo-impasto:使用渐变和颜料厚度描述光影和层次

      伪厚涂 / 半厚涂:使用渐变和颜料厚度描述光影和层次

    • impasto:使用颜料厚度描述光影和层次

      厚涂:使用颜料厚度描述光影和层次

    • realistic

      写实

    • photorealistic:重定义为接近真实世界的风格

      相片写实主义:重定义为接近真实世界的风格

    • cel shading:二次元三维建模风格

      卡通渲染:二次元三维建模风格

    • 3d

  • 美学触发词

    • beautiful

      美丽

    • aesthetic:略带抽象的艺术感

      唯美:稍微抽象的艺术感

    • detailed

      细致

    • beautiful color:精妙的用色

      协调的色彩:精妙的用色

    • lowres

    • messy:杂乱的构图或细节

      杂乱:杂乱的构图或细节

  • 质量触发词:amazing quality, best quality, high quality, low quality, worst quality

此模型生成的图像

未找到图像。