STUDIO1911A2: Wai-Illustrious Text to Image ComfyUI workflow by Freyja Pixel 💖 - Big Game Hunter

详情

模型描述

零样本工程:1911A2 赏金猎人协议

人人可用的动漫生成

“赏金猎人”系统是一种让任何人都能使用AI创作精美动漫艺术的便捷方式。它允许用户输入极少的提示,却仍能获得清晰、准确且视觉上令人愉悦的图像,使系统承担绝大部分繁重工作。该系统专长于肖像风格或单主体图像,同时也能生成高质量的多主体图像。与需要冗长、高度描述性文本提示的传统方法不同,这种“零样本”生成工具旨在赋能缺乏经验的提示者,使其能够利用AI创建带有层次背景的高质量角色。

赏金猎人有多个版本,分别适用于不同使用场景。大师赏金猎人版本最适合通用用途,在生成效率与输出质量之间取得平衡。大猎物猎人版本可实现更高分辨率的图像,而机关枪版本则最适合快速生成略小于标准尺寸的图像。它们在基本原理、设计准则和各自尺寸下的图像质量上均保持一致。

赏金猎人的基础是两步流程:第一步确立作品的结构。AI被优化为在最低可能分辨率下,花费额外时间专注于图像的基础部分,包括主体及其姿势、图像中的物体、光线以及构图和整体布局中的所有元素。第一步类似于插画的线稿师,为其他艺术家完成作品做准备,或像迷你人偶的3D雕刻师。在进入下一步之前,图像会通过“潜在精炼”(逐像素检查)进行“上采样”(放大),模拟“高分辨率上采样”(一种常见的图像生成工具)。

第二步重新审视第一步所创建的内容,锐化细节、修正错误,并整体提升清晰度。它被赋予一组特定工具,用于清理图像并添加精确细节,同时避免产生怪异效果。延续第一步的类比,这一步就像插画的上色师或迷你人偶的画家,为作品表面增添形状与细节。

在测试中我发现,当使用特定角色名称(如《新世纪福音战士》中的葛城美里)时,AI会根据角色名称的书写方式做出响应,且强烈偏好Danbooru或日式标签顺序。许多动漫图像生成模型是基于日式命名或标签顺序训练的,即姓氏在前、名字在后。采用这种顺序的名称更容易被AI识别,角色细节也能更准确地被召回。相反,我发现在反转为典型的西方顺序(名在前、姓在后)时,模型总会产生幻觉并生成错误的角色:“Misato Katsuragi”会生成金发蓝眼的形象,“Rei Ayanami”会生成超长粉发,“Goku”(一个模糊标签)则生成随机的粉发女性角色。而“Katsuragi Misato”和“Ayanami Rei”则在首次生成时就准确还原了预期角色。我还发现,使用Danbooru/e621标签几乎适用于所有输入Wai-illustrious的提示,如服装和发型,能显著提升输出质量。但使用较冷门或未知标签时会带来挑战。为帮助用户找到已知且准确的标签,赏金猎人系统内推荐了相关软件、AI工具和网站。

该系统的一大亮点是它在工作流程中直接向用户解释自身机制。所有必要的说明、注释和技巧都直接内置于文件中。重复的说明以.txt文件形式包含在Web主机仓库中。目标是让任何打开工作流程的用户都能边操作边阅读指南,所有所需学习内容均已内嵌于流程图中,无需打开额外窗口。

基于我此前使用Wai-illustrious的经验,赏金猎人最令人惊讶的特性是其在几乎无需提示的情况下仍能精准工作。从以往生成经验来看,Wai庞大的角色与主体库(5000+)使其在缺乏强力引导时极易产生幻觉。许多示例图像仅通过输入角色名称即生成,测试中许多未使用“杰作”等默认优质提示词的图像,其质量仍属可接受甚至更优。此外,在多个独立测试中,即使仅输入简短描述或空的“正向提示”,仍能生成高质量的动漫肖像风格图像。系统自动处理了大部分艺术风格,包括纹理、色彩平衡、线条和光影。这使其不仅对新手友好,也适用于追求一致、可重复结果的资深创作者。

该工作流程存在若干已知限制、弱点和未来改进空间,这些与检查点和生成设置相关,可能影响其应用范围。首先,由于Wai-Illustrious和Illustrious的底层偏倚,以及对NSFW场景和个体的高频率训练,注入性特征或生殖器(尤其是跨性别或“双性”形态)的可能性较高。使用安全评级标签(通用、敏感、NSFW、明确)来限制或负面提示此类内容尚未经过充分测试。此外,该工作流程在初始阶段以最小推荐分辨率生成图像,以确保图像保真度并集中生成能力,其他长宽比或方向尚未全面测试。由于这些参数,工作流程在默认设置下可能偏向单人肖像,因此在生成多主体或复杂构图图像时可能出现困难或更多错误。运行2、4或8张的批量生成,可通过去噪过程中的更高随机性帮助减少此类形态或错误。

我对此工作流程生成的任何内容或图像不承担任何责任、义务或问责。这是一个完全无审查的AI工具,用户有责任负责任地使用它(这正是设计初衷)。这包括非法用途,如深度伪造和在大多数地方会导致封禁的内容。已提前警告。

要使用此工作流程,只需下载它,在ComfyUI中打开,并加载两个必要的模型和多个列出的支持文件。工作流程本身即为完整指南,内置注释说明了点击位置、可修改项及如何在不破坏一切的前提下进行实验。它经过精心设计,力求用户友好、清晰且对所有人开放。即使从未使用过高级AI工具的人,也能以极低的学习曲线使用赏金猎人。

我创建赏金猎人,是希望为任何感兴趣的用户开辟一条无需掌握复杂技术细节即可创作出美丽、可靠的动漫艺术的路径——这些技术细节曾是经验不足但创意丰富者的障碍。它将创作过程转变为流畅、可预测、低挫败感的愉快生成体验。一切设置完成后,用户只需输入一个标签、角色名、复制粘贴部分内置提示,或仅描述自己的想法,让系统处理其余部分。艺术属于每个人,我们都应有机会利用现有工具展现创造力。

祝你好运,狩猎愉快!

技术报告与资源

============

零样本工程:1911A2 赏金猎人协议

用于高保真动漫生成的确定性多通道架构

作者:Freyja Pixel 💖(系统架构师)

平台:ComfyUI

模型堆栈:Wai-Illustrious v15 + v14 混合版

ComfyUI Danbooru 和 e621 数据库标签助手:

/model/950325/danboorue621-autocomplete-tag-lists-incl-aliases-krita-ai-support

https://github.com/newtextdoc1111/ComfyUI-Autocomplete-Plus/

Wai-Illustrious 标签资源:

(在线角色与标签查找器)https://huggingface.co/spaces/flagrantia/character_select_saa

(SAA角色选择器)

https://github.com/mirabarukaso/character_select_stand_alone_app

使用 ComfyUI(下载并安装 https://www.comfy.org/download

ComfyUI Manager(https://github.com/Comfy-Org/ComfyUI-Manager

主通道使用 Wai-Illustrious v15.0:

/model/827184/wai-illustrious-sdxl

精炼通道使用 Wai-Illustrious v14.0,并配合特定细节与稳定LoRA:

/model/827184?modelVersionId=1761560

精细手部:

/model/200255?modelVersionId=2212079

精细足部:

/model/200251?modelVersionId=1464471

Illustrious XL 稳定器:

/model/971952?modelVersionId=2055853

细节滑块:

/model/1333749/add-detail-slider?modelVersionId=1506032(在第二通道使用!)

ComfyUI 自定义节点:

rgthree:

https://github.com/rgthree/rgthree-comfy https://www.runcomfy.com/comfyui-nodes/rgthree-comfy

ComfyUI-Impact-Pack:

https://github.com/ltdrdata/ComfyUI-Impact-Pack

https://www.runcomfy.com/comfyui-nodes/ComfyUI-Impact-Pack

  1. 执行摘要

1911A2 赏金猎人并非一个“工作流程”。

它是一种确定性生成架构,旨在消除大多数动漫风格AI图像生成中固有的“老虎机”随机性。

传统流水线依赖于繁重的提示工程,而赏金猎人则颠覆了这一范式:

➡️ 系统控制美学。➡️ 用户仅控制意图。

这实现了零样本生成——无需描述性正向提示,即可生成连贯、解剖正确、风格一致的动漫角色。

本发布版包含三个调优变体:

• 大师版 — 2048×2048 平衡旗舰版

• 大猎物猎人版 — UHD 4K/8K 上采样版

• 机关枪加查版 — 高速 1024×1024 快速生成版

三者均遵循相同理念:将生成过程分解为可控子系统。

  1. 系统架构

生成 → 精炼循环

赏金猎人通过严格的两阶段潜在管道运行,将工作划分为几何与纹理两部分。

第一阶段 — 几何阶段(生成器)

检查点:Wai-Illustrious v15

步数:32,固定种子

去噪:1.0(完整生成)

目的:建立构图、轮廓、光照方向和姿态向量。

为何选择v15?

它在动态构图方面表现卓越,对结构化提示响应强烈,广泛应用于多个AI生成社区,包括付费在线服务和开源仓库。它拥有多个社区构建的支持工具,如Wai-Illustrious SAA角色选择器,可辅助提示工程与角色选择。

第二阶段 — 纹理阶段(精炼器)

检查点:Wai-Illustrious v14

步数:18,固定种子

去噪:0.35

目的:修正解剖结构、稳定纹理、优化光照、锁定角色身份。

为何选择v14?

社区反馈表明其对解剖结构的理解更佳,结合我超过一年、五个以上版本的提示、测试与生成经验,我完全认同这一观点。

挑战(解剖强化堆栈)

在精炼过程中,潜在表示依次通过:

精细手部LoRA

精细足部LoRA

稳定器/防幻觉LoRA

增加细节LoRA

这些模块被刻意置于用户指定风格、角色或其他LoRA应用之后,但在第二采样器之前。

结果:

干净的手指关节、稳固的脚部、比例协调、姿态保留、无构图偏移、纹理连贯且不削弱几何细节。

这正是零样本可靠性得以体现之处。

  1. “美里·零测试”协议

关于分词与模型语言学的研究

“辉煌”架构——与许多动漫训练模型一样——对词元顺序极为敏感。

A/B测试显示:

首次测试使用输入提示“misato katsuragi”(英文顺序),模型幻化出一位金发女性,身份错误。

当使用“katsuragi misato”(Danbooru/训练顺序)作为提示时,模型完美还原了标准的美里形象。

第二次测试以“rei ayanami”(英文顺序)为提示,模型幻化出一位粉发女性,身份错误。

当改用“ayanami rei”(Danbooru/训练顺序)时,模型完美还原了标准的零形象。

结论:

使用模型的原生标签方言更有助于准确生成,自然语言优先级较低,仅在必要时使用。

“赏金猎人”通过以下方式强制执行此规范:

为两种K采样器预设经过验证的固定种子,默认生成设置;

图内文档说明;

通过推荐的结构化提示(含多个示例)确保词元顺序一致性;

推荐的标签辅助工具;

在内置文档及附图元数据中包含提示与标签错误的重构示例。

这确保了即使对新手用户,零样本角色提示也能实现可靠的身份保真度。

  1. 核心功能

✔ 自文档化系统

工作流包含:

嵌入式Markdown注释

使用说明

提示指南

错误状态描述

只要你拥有JSON文件,你就拥有了完整手册。

✔ 零样本角色生成

多个头部图像(白发赛博游侠)均从内在“零样本”头像/肖像中生成,正向提示中未包含任何信息。附图展示了完整的提示工程链条:从空正向提示的肖像,逐步演变为完整艺术角色作品(长发赛博刺客,双手持枪,表情生动,身体细节丰富,背景为赛博朋克城市景观)。

身份来源于:

架构约束、LoRA加载器、双阶段潜在循环、种子确定性。

详细提示并非生成最高质量输出的必要条件。简单提示同样有效,但可能降低背景或角色质量,具体取决于生成参数。README中包含多种简单提示、“gacha”风格提示,以及高度工程化与详细的提示示例,并推荐可添加的标签,帮助用户以最小调整最大化动漫风格图像的输出质量。

✔ 解剖学可靠性

在优化阶段运行解剖学LoRA,可促进准确的解剖结构生成:

手指保持分离、脚趾与脚部结构连贯、关节弯曲正确、物体不融合、动作姿态维持轮廓逻辑。

该流程将解剖结构视为关键子系统,而非“附加细节”。

✔ 可配置风格注入

可注入、修改或绕过双非优化器LoRA堆栈(左键点击并按Ctrl+B),以生成自定义或基准的“辉煌”输出。双LoRA加载器允许根据位置与权重进行更多实验与细微变化,但过度使用可能增加解剖形态畸变风险,尤其在调整LoRA强度时。

你可以:

运行完全中性模式

应用单一风格

按种子切换整个美学LoRA加载器

通过LoRA选择与权重调节创建受控变体

这使得“赏金猎人”成为一套可投入工作室使用的系统,而非一次性模板。

✔ 已知限制

测试已涵盖单人、双人及“第一人称视角”风格图像。由于初始生成分辨率为1024x1024,工作流对肖像存在固有偏好。其他分辨率或宽高比尚未测试。在固定种子下进行更高批量生成可能减少形态畸变与错误,但无法保证完全避免。

  1. 技术要求

平台:ComfyUI

管理器:ComfyUI Manager(用于自动安装缺失的自定义节点)

检查点:

Wai-Illustrious v15(生成器)

Wai-Illustrious v14(优化器)

自定义节点:

rgthree

ComfyUI-Impact-Pack

硬件:

完整双阶段流程已在12GB显存下测试通过

在RTX 4070、64GB内存系统上测试,工作流快照中包含平均生成时间。通常,“机关枪”模式每图约30秒,“大师赏金猎人”约60秒,“大型猎物猎人”模式生成4K图像约2-3分钟,8K图像则需4分钟以上。

  1. 安装与使用

下载JSON工作流!

PNG文件可能为开发过程中旧版本,不建议使用,但可作为参考,尤其提示部分。

将JSON文件拖放至ComfyUI中。.zip包内含JSON文件及README与提示指南的文本文件,用于冗余备份与访问便利。

使用管理器安装缺失节点。

确保模型与LoRA放置于正确的ComfyUI文件夹中。

分配:

左侧检查点 → v15(生成器)

右侧检查点 → v14(优化器)

阅读图内嵌入的注释。

从零样本模式开始(仅在正向提示中输入主体词,如“shiranui mai”,其余留空)。

按需扩展至结构化提示。

对于使用此无审查AI工具所产生的一切内容,我概不承担任何责任、义务或后果。你已收到两次警告与提醒。

祝狩猎愉快。

此模型生成的图像

未找到图像。