STUDIO1911A2: Wai-Illustrious Text to Image ComfyUI workflow by Freyja Pixel 💖 - Bounty Hunter Masterpiece
详情
下载文件
关于此版本
模型描述
零样本工程:1911A2 赏金猎人协议
为每个人生成动漫风格图像
“赏金猎人”系统是一种让任何人使用 AI 创作精美动漫艺术的便捷方式。用户只需提供极少的提示,即可获得清晰、准确且美观的图像,系统几乎承担了所有繁重工作。它专精于肖像风格或单主体图像,同时也能高质量地生成多主体图像。与需要冗长、高度描述性文本提示的传统方法不同,这种“零样本”生成工具旨在赋能缺乏经验的提示者,利用 AI 创建带有层次背景的高质量角色。
赏金猎人有多个版本,分别适用于不同使用场景。大师赏金猎人版本最适合通用用途,在生成效率与输出质量之间取得平衡。大猎物猎人版本可实现更高分辨率的精细作品,而机关枪版本则最适合快速生成略小于标准尺寸的图像。它们在本质上工作方式相同,遵循相同的设计原则,并在各自尺寸下生成高质量图像。
赏金猎人的基础是一个两步流程:第一步建立图像的结构。AI 会专门投入更多时间,聚焦于图像的基础部分,同时以尽可能小的分辨率生成。基础部分包括主体及其姿态、图像中的物体、光照以及构图和整体布局中的所有元素。第一步类似于插画中的线稿师,为其他艺术家完成作品做准备,或像迷你人偶的 3D 雕塑师。在进入下一步之前,图像会通过“潜在精炼”(逐像素检查)进行“上采样”(放大),模拟“高分辨率上采样”(一种常见的图像生成工具)。
第二步回溯第一步生成的内容,锐化细节、修正错误,并整体提升清晰度。它被赋予一组特定工具,帮助清理图像并添加准确细节,同时避免产生怪异效果。延续第一步的类比,这一步如同插画的上色师或迷你人偶的绘画者,为作品表面增添形状与细节。
在测试中,我发现当使用命名角色(如《新世纪福音战士》中的葛城美里)时,AI 对角色名称的书写方式非常敏感,尤其偏好 Danbooru 或日式标签顺序。许多动漫图像生成模型是使用日式命名或标签顺序训练的,即姓氏在前、名字在后。采用这种顺序的名称更容易被 AI 识别,角色细节也更准确地被召回。相反,我发现在西方常见的顺序(名字在前、姓氏在后)总是导致模型幻觉,生成错误角色:“Misato Katsuragi” 会生成金发蓝眼的形象,“Rei Ayanami” 会生成超长粉发,而 “Goku”(一个模糊标签)则会生成一个随机的粉发女性角色。而 “Katsuragi Misato” 和 “Ayanami Rei” 则在首次生成时就准确还原了预期角色。我还发现,使用 Danbooru/e621 标签几乎适用于所有输入 Wai-illustrious 的提示,如服装和发型,能显著提升输出质量。然而,当尝试使用较冷门或未知标签时,这也会带来挑战。为帮助用户导航这些标签,赏金猎人提供了推荐的软件、AI 工具和网站,协助用户找到已知且准确的标签。
该系统的一大亮点是它在工作流程中直接向用户解释自身。所有必要的说明、注释和技巧都直接内置在文件中。重复的说明以 .txt 文件形式包含在网页托管仓库中。目标是让任何打开工作流程的用户都能边操作边阅读指南,所有所需的学习内容都已内嵌在流程图中,无需打开额外窗口。
基于我之前使用 Wai-illustrious 的经验,赏金猎人最令人惊讶的特性是:它几乎无需提示就能精准工作。从以往生成经验来看,Wai 拥有超过 5000 种角色和主体,若缺乏强力引导,极易产生幻觉。许多示例图像仅输入角色名称即生成,测试中许多未使用“大师级”等默认优质提示词的图像,其质量仍属可接受,甚至更优。此外,在多个独立测试中,即使仅输入简短描述或空的“正向提示”,仍能生成高质量的动漫肖像风格图像。系统自动处理了大部分艺术风格,自主完成纹理、色彩平衡、线条和光照。这不仅对新手有用,对希望获得一致、可重复结果的资深创作者同样极具价值。
该工作流程存在若干已知限制、弱点及未来改进空间,主要受限于检查点和生成设置,可能影响其应用范围。首先,由于 Wai-Illustrious 和 Illustrious 的基础偏见,以及对 NSFW 场景和个体(尤其是跨性别或“双性人”形态)图像的更高训练量,注入性暗示或生殖器内容(特别是此类形态)可能更常见。使用安全等级标签(普通、敏感、NSFW、明确)以限制或负面提示此类内容尚未经过充分测试。此外,此工作流程以推荐的最小分辨率生成初始图像,以确保图像保真度并集中生成能力,其他宽高比或方向尚未完全测试。由于这些参数,工作流程在默认设置下可能偏向单人肖像,因此在生成多主体或复杂构图图像时可能更易出错或表现不佳。批量生成 2、4 或 8 张图像可通过去噪过程中的随机性增加,有助于减少此类形态或错误。
我对此工作流程生成的任何内容或图像不承担任何责任、义务或问责。这是一个完全无审查的 AI 工具,用户有责任负责任地使用它(这正是设计初衷),包括非法用途如深度伪造或在多数平台会被封禁的内容。已提前警告并建议。
要使用此工作流程,只需下载它,在 ComfyUI 中打开,并加载两个必需模型及多个列出的辅助文件。工作流程本身即为操作指南,内置注释说明了点击位置、可修改内容及如何在不破坏一切的前提下进行实验。它经过精心设计,力求用户友好、清晰、对所有人开放。即使从未使用过高级 AI 工具的人,也能以极低的学习曲线使用赏金猎人。
我创建赏金猎人,是为了让任何感兴趣的用户无需掌握复杂的技术细节(这些细节常成为有创意但经验不足者面前的障碍),就能创作出精美、可靠的动漫艺术。它将创作过程转化为流畅、可预测、低挫败感的愉快体验。一旦设置完成,用户只需输入一个标签、角色名称、复制粘贴部分内置提示,或仅描述自己的想法,让系统处理其余部分。艺术属于每个人,我们都值得利用现有工具展现创造力。
祝你好运,狩猎愉快!
技术报告与资源
============
零样本工程:1911A2 赏金猎人协议
一种用于高保真动漫生成的确定性多通道架构
作者:Freyja Pixel 💖(系统架构师)
平台:ComfyUI
模型堆栈:Wai-Illustrious v15 + v14 混合版
ComfyUI Danbooru 和 e621 数据库标签辅助工具:
/model/950325/danboorue621-autocomplete-tag-lists-incl-aliases-krita-ai-support
https://github.com/newtextdoc1111/ComfyUI-Autocomplete-Plus/
Wai-Illustrious 标签资源:
(在线角色与标签查找器)https://huggingface.co/spaces/flagrantia/character_select_saa
(SAA 角色选择器)
https://github.com/mirabarukaso/character_select_stand_alone_app
使用 ComfyUI(下载并安装 https://www.comfy.org/download)
ComfyUI Manager(https://github.com/Comfy-Org/ComfyUI-Manager)
主通道使用 Wai-Illustrious v15.0:
/model/827184/wai-illustrious-sdxl
精炼通道使用 Wai-Illustrious v14.0,并配合特定细节与稳定 LoRAs:
/model/827184?modelVersionId=1761560
精细手部:
/model/200255?modelVersionId=2212079
精细脚部:
/model/200251?modelVersionId=1464471
Illustrious XL 稳定器:
/model/971952?modelVersionId=2055853
细节滑块:
/model/1333749/add-detail-slider?modelVersionId=1506032(仅用于第二通道!)
ComfyUI 自定义节点:
rgthree:
https://github.com/rgthree/rgthree-comfy https://www.runcomfy.com/comfyui-nodes/rgthree-comfy
ComfyUI-Impact-Pack:
https://github.com/ltdrdata/ComfyUI-Impact-Pack
https://www.runcomfy.com/comfyui-nodes/ComfyUI-Impact-Pack
1. 执行摘要
1911A2 赏金猎人不是一个“工作流程”。
它是一种确定性生成架构,旨在消除大多数动漫风格 AI 图像生成中固有的“老虎机式”随机性。
传统流水线依赖于繁重的提示工程,而赏金猎人则颠覆了这一范式:
➡️ 系统控制美学。➡️ 用户仅控制意图。
这解锁了零样本生成——无需描述性正向提示,即可生成连贯、解剖正确、风格一致的动漫角色。
本发布版包含三个调优版本:
• 大师版 — 2048×2048 平衡旗舰版
• 大猎物猎人版 — UHD 4K/8K 上采样版
• 机关枪加查版 — 高速 1024×1024 快速生成版
所有版本均秉持相同理念:将生成过程分解为可控的子系统。
2. 系统架构
生成 → 精炼循环
赏金猎人通过严格的两阶段潜在管道运行,将工作划分为几何与纹理两部分。
第一阶段 — 几何阶段(生成器)
检查点:Wai-Illustrious v15
步数:32,固定种子
去噪:1.0(完全生成)
目的:确立构图、剪影、光照方向和姿态向量。
为何选择 v15?
它在动态构图方面表现出色,对结构化提示响应强烈。它被广泛用于多个 AI 生成社区,包括付费在线服务和开源仓库,并拥有多个社区开发的支持工具,如 Wai-Illustrious SAA 角色选择器,可协助提示工程和角色选择。
第二阶段 — 纹理阶段(精炼器)
检查点:Wai-Illustrious v14
步数:18,固定种子
去噪:0.35
目的:修正解剖结构、稳定纹理、优化光照、锁定角色身份。
为何选择 v14?
社区反馈指出其对解剖结构理解更优,根据我一年多来对 Wai-Illustrious 的五代以上提示、测试与生成经验,我完全认同此观点。
“考验”(解剖强化堆栈)
在精炼过程中,潜在空间依次通过:
精细手部 LoRA
精细脚部 LoRA
稳定器 / 反幻觉 LoRA
增加细节 LoRA
这些模块被有意置于用户指定的风格、角色或其他 LoRA 应用之后,但在第二个采样器之前。
结果:
干净的手指关节、稳固的脚部、比例协调、姿态保留、无构图漂移、纹理连贯且不模糊几何细节
这正是零样本可靠性得以体现之处。
- “美里·绫波测试”协议
关于分词与模型语言学的研究
“辉煌”架构——如同许多动漫训练模型——对标记顺序极为敏感。
A/B 测试显示:
首次测试使用输入提示“misato katsuragi”(英文顺序),模型幻觉出一名金发女性,身份错乱。
当使用“katsuragi misato”(Danbooru/训练顺序)时,模型完美重建了标准的美里形象。
第二次测试以“rei ayanami”(英文顺序)开始,模型幻觉出一名粉发女性,身份错乱。
当改用“ayanami rei”(Danbooru/训练顺序)时,模型完美重建了标准的绫波形象。
结论:
使用模型的原生标签方言更有助于准确生成,自然语言仅在必要时使用。
“赏金猎人”通过以下方式强制执行此规范:
为两种 KSampler 设置经测试且准确的固定种子作为默认生成参数;
图内文档说明;
通过推荐的结构化提示(含多个示例)确保标记顺序一致性;
推荐的标签辅助工具;
在内置文档和附图元数据中包含提示与标签错误的重构示例。
这确保了即使对新手用户,零样本角色提示也能保持可靠的身份一致性。
- 核心功能
✔ 自文档化系统
工作流包含:
嵌入式 Markdown 注释
使用说明
提示词指南
错误状态描述
只要你拥有 JSON 文件,你就拥有了完整手册。
✔ 零样本角色生成
多个头部图像(白发赛博流浪者)均从“零样本”头像/肖像中生成,正向提示中未包含任何额外信息。附图展示了从空正向提示肖像到完整艺术角色作品(长发赛博刺客、双持手枪、表情丰富、身体细节精致、赛博朋克城市背景)的完整提示工程链。
身份一致性来源于:
架构约束、LoRA 加载器、两阶段潜在循环、种子确定性。
详细提示并非生成最高质量输出的必需条件。简单提示即可生效,但可能降低背景或角色质量,具体取决于生成参数。README 中提供了多种简单提示、“gacha”风格提示、高度工程化详细提示的示例,以及推荐添加的标签,帮助用户在最小调整下最大化动漫风格图像的输出质量。
✔ 解剖学可靠性
在优化阶段运行解剖学 LoRA 可促进准确的解剖生成:
手指保持分离、脚趾与脚部结构连贯、关节弯曲正确、物体不融合、动作姿态符合轮廓逻辑。
该流程将解剖学视为关键子系统,而非“附加细节”。
✔ 可配置风格注入
可注入、修改或绕过双非精炼 LoRA 堆栈(左键点击 + Ctrl+B),以生成自定义或基础版“辉煌”输出。双 LoRA 加载器允许根据位置与权重进行更多实验与细微变化,但过度使用可能增加解剖形态畸变风险,尤其在调节 LoRA 强度时。
你可以:
运行完全中性模式
应用单一风格
按种子切换整套美学 LoRA 加载器
通过 LoRA 选择与权重调制创建可控变体
这使得“赏金猎人”成为一套可投入生产的系统,而非一次性模板。
✔ 已知限制
测试已在单人、双人及“第一人称视角”风格图像中完成。该工作流因初始生成分辨率较低(1024x1024)而存在偏向肖像的已知偏差。其他分辨率或宽高比尚未测试。在固定种子下进行更高批量生成可能减少形态畸变与错误,但无法保证完全避免。
- 技术要求
平台:ComfyUI
管理器:ComfyUI Manager(用于自动安装缺失的自定义节点)
检查点:
Wai-Illustrious v15(生成器)
Wai-Illustrious v14(精炼器)
自定义节点:
rgthree
ComfyUI-Impact-Pack
硬件:
在 12GB 显存上测试完整两阶段流程
在 RTX 4070、64GB 内存系统上测试。工作流快照中包含平均生成时间。通常,“机关枪”模式约 30 秒生成一张图,“大师赏金猎人”约 60 秒,“大型猎物猎人”模式生成 4K 图像约 2–3 分钟,8K 图像约 4 分钟以上。
- 安装与使用
下载 JSON 工作流!
PNG 文件可能为开发过程中较旧的版本,不建议使用,但可作为参考,尤其是提示部分。
将 JSON 文件拖拽至 ComfyUI。.zip 文件包含 JSON 以及 README 和提示指南的文本文件,以确保冗余与可访问性。
使用 Manager 安装缺失的节点。
确保模型与 LoRA 已放置于正确的 ComfyUI 文件夹中。
分配:
左侧检查点 → v15(生成器)
右侧检查点 → v14(精炼器)
阅读图内嵌入的注释。
从零样本模式开始(正向提示中仅包含主体标记,如“shiranui mai”,其余为空)。
按需扩展至结构化提示。
本人不对使用本无审查 AI 工具所生成的任何内容承担任何责任、义务或连带责任。你已被警告并建议两次。
祝你狩猎愉快。



















