STUDIO1911A2: Wai-Illustrious Text to Image ComfyUI workflow by Freyja Pixel 💖 - Machine Gun

详情

模型描述

💖 我的 STUDIO1911A2 工作流可在 Tensor.art 上生成

https://tensor.art/template/941106256993613248

零样本工程:1911A2 赏金猎人协议

人人都能生成动漫风格图像

“赏金猎人”系统是一种让任何人轻松使用 AI 创作精美动漫艺术的便捷方式。用户只需输入极少的提示,即可获得清晰、准确且美观的图像,系统将承担绝大部分繁重的生成任务。该系统专长于肖像风格或单一主体图像,同时也能生成高质量的多主体图像。与需要冗长、高度描述性文本提示的传统方式不同,这一“零样本”生成工具旨在赋能缺乏经验的提示者,让他们能够使用 AI 创建带有层次背景的高质量角色。

赏金猎人系统有多个版本,分别适用于不同使用场景。大师赏金猎人版本最适合通用用途,在生成效率与输出质量之间取得平衡;大猎物猎人版本可生成更高分辨率的图像;而机关枪版本则最适合快速生成略小于标准尺寸的图像。它们在本质上工作方式相同,遵循相同的设计原则,并在其各自尺寸下生成高质量图像。

赏金猎人的基础是一个两步流程:第一步建立图像结构。AI 会专门花更多时间聚焦于图像的基础要素,同时以尽可能小的分辨率生成。基础要素包括主体及其姿态、图像中的物体、光照以及构图和整体布局中的所有内容。第一步类似于插画的线稿师,为其他艺术家完成作品做准备,或像微型人偶的 3D 雕塑师。在进入下一步之前,图像会通过“潜在优化”(逐像素检查)进行“上采样”(放大),模拟“高分辨率上采样”(一种常见的图像生成工具)。

第二步则回溯第一步所创建的内容,锐化细节、修正错误,并整体提升清晰度。它被赋予了一组特定工具,帮助其清理图像并添加准确细节,同时避免产生怪异效果。延续第一步的类比,这一步就像插画的上色师或微型人偶的绘画者,为作品表面增添形状与细节。

在测试过程中,我发现当使用特定角色名称(如《新世纪福音战士》中的葛城美里)时,AI 对角色名称的书写方式非常敏感,尤其偏好 Danbooru 或日式标签顺序。许多动漫图像生成模型都是使用日语命名或标签顺序训练的,即姓氏在前、名字在后。按此顺序书写的名称更容易被 AI 识别,角色细节也更准确地被还原。相反,我发现在反转为典型的西方姓名顺序(名在前、姓在后)时,模型总会产生幻觉并生成错误角色:“Misato Katsuragi”会变成金发蓝眼,“Rei Ayanami”会拥有过长的粉发,而“Goku”(一个模糊标签)则会生成一个随机的粉发女性角色。而“Katsuragi Misato”和“Ayanami Rei”则在首次生成时就准确还原了预期角色。我还发现,使用 Danbooru/e621 标签几乎适用于所有输入 Wai-illustrious 的提示,例如服装和发型,能显著提升输出质量。但这也带来挑战,尤其是在使用较冷门或未知标签时。为帮助用户导航这些标签,赏金猎人系统内置了推荐软件、AI 工具和网站,协助用户查找已知且准确的标签。

该系统的一大亮点是它在工作流中直接向用户解释自身机制。所有必要的说明、注释和技巧都直接内置在文件中,重复的指令也作为 .txt 文件包含在 Web 主机仓库中。目标是让任何打开工作流的用户都能边操作边阅读指南,所有学习所需的内容都已内嵌于流程图中,无需打开额外窗口。

鉴于我之前使用 Wai-illustrious 的经验,赏金猎人最令人惊讶的特性是:它在几乎无需提示的情况下仍能高度准确地工作。从过往生成经验来看,Wai 拥有超过 5000 个角色和主体,若缺乏强力引导,极易产生幻觉。许多示例图像仅输入角色名称即可生成,测试中许多未使用“杰作”等默认优质提示词的图像,其质量仍属可接受甚至更优。此外,在多个独立测试中,仅输入简短描述或留空“正向提示词”,仍能生成高质量的动漫肖像风格图像。系统能自动处理大部分艺术风格,自主完成纹理、色彩平衡、线条与光照的处理。这不仅对新手有用,对希望获得一致、可重复结果的资深创作者也同样有价值。

该工作流存在若干已知的局限性、弱点及未来改进空间,主要受检查点和生成设置的限制,可能影响其应用范围。首先,由于 Wai-Illustrious 和 Illustrious 基础模型存在偏倚,且训练数据中包含大量此类 NSFW 场景与个体图像,因此注入性暗示或生殖器(尤其是跨性别或“双性人”形态)的情况可能更常见。使用安全评级标签(通用、敏感、NSFW、明确)以限制或负面提示此类内容尚未经过充分测试。此外,该工作流在初始阶段以推荐的最小分辨率生成图像,以确保图像保真度并集中生成能力,其他长宽比或方向尚未完全测试。由于这些参数,工作流在默认设置下可能偏向单人肖像,因此在生成多主体或复杂构图图像时可能出现困难或更多错误。批量生成 2、4 或 8 张图像,可通过去噪过程中的随机性增加,有助于减少此类形态或错误。

我对此工作流生成的任何内容或图像不承担任何责任、义务或法律责任。这是一个完全无审查的 AI 工具,用户需自行负责合理使用(这正是其设计初衷),包括涉及非法用途,如深度伪造或会导致你在多数平台被封禁的内容。特此警告。

要使用此工作流,只需下载、在 ComfyUI 中打开,并加载两个必需模型及多个列出的支持文件。工作流本身即为完整指南,内置注释会说明点击位置、可修改项以及如何安全实验而不破坏整体结构。它经过精心设计,力求用户友好、清晰易懂,即使从未使用过高级 AI 工具的人,也能以极低的学习曲线使用赏金猎人。

我创建赏金猎人的初衷,是为任何感兴趣的人提供一种无需掌握复杂技术细节即可创作出美丽、可靠动漫艺术的方式——这些技术细节往往是经验不足但创意丰富者的主要障碍。它将创作过程转变为流畅、可预测、低挫败感的愉悦生成体验。一旦设置完成,用户只需输入一个标签、角色名称、复制粘贴部分内置提示,或仅描述自己的想法,让系统自动处理其余部分。艺术属于每个人,我们都应有机会使用现有工具释放创造力。

祝你好运,狩猎愉快!

技术报告与资源

============

零样本工程:1911A2 赏金猎人协议

一种用于高保真动漫生成的确定性多通道架构

作者:Freyja Pixel 💖(系统架构师)

平台:ComfyUI

模型堆栈:Wai-Illustrious v15 + v14 混合版

ComfyUI Danbooru 与 e621 数据库标签辅助工具:

/model/950325/danboorue621-autocomplete-tag-lists-incl-aliases-krita-ai-support

https://github.com/newtextdoc1111/ComfyUI-Autocomplete-Plus/

Wai-Illustrious 标签资源:

(在线角色与标签查找器)https://huggingface.co/spaces/flagrantia/character_select_saa

(SAA 角色选择器)

https://github.com/mirabarukaso/character_select_stand_alone_app

使用 ComfyUI(下载并安装 https://www.comfy.org/download

ComfyUI Manager(https://github.com/Comfy-Org/ComfyUI-Manager

主通道使用 Wai-Illustrious v15.0:

/model/827184/wai-illustrious-sdxl

精炼通道使用 Wai-Illustrious v14.0,配合特定细节与稳定 LoRAs:

/model/827184?modelVersionId=1761560

精细手部:

/model/200255?modelVersionId=2212079

精细脚部:

/model/200251?modelVersionId=1464471

Illustrious XL 稳定器:

/model/971952?modelVersionId=2055853

细节滑块:

/model/1333749/add-detail-slider?modelVersionId=1506032(在第二阶段使用!)

ComfyUI 自定义节点:

rgthree:

https://github.com/rgthree/rgthree-comfy https://www.runcomfy.com/comfyui-nodes/rgthree-comfy

ComfyUI-Impact-Pack:

https://github.com/ltdrdata/ComfyUI-Impact-Pack

https://www.runcomfy.com/comfyui-nodes/ComfyUI-Impact-Pack

1. 执行摘要

1911A2 赏金猎人不是一个“工作流”。

它是一种确定性生成架构,旨在消除大多数动漫风格 AI 图像生成中固有的“老虎机式”随机性。

传统流水线依赖于繁重的提示工程,而赏金猎人则颠覆了这一范式:

➡️ 系统掌控美学。➡️ 用户仅掌控意图。

这解锁了零样本生成——无需描述性正向提示,即可生成连贯、解剖正确、风格一致的动漫角色。

本版本包含三种调优变体:

• 大师版 — 2048×2048 平衡旗舰版

• 大猎物猎人版 — UHD 4K/8K 超高分辨率升级版

• 机关枪加查版 — 高速 1024×1024 快速生成版

三者均遵循同一理念:将生成过程分解为可控子系统。

2. 系统架构

生成 → 精炼循环

赏金猎人通过严格的双通道潜在管道运行,将工作划分为几何与纹理两部分。

第一阶段 — 几何通道(生成器)

检查点:Wai-Illustrious v15

步数:32,固定种子

去噪:1.0(完全生成)

目的:确立构图、轮廓、光照方向与姿态向量。

为何选用 v15?

它在动态构图方面表现出色,对结构化提示响应强烈,被多个 AI 生成社区广泛使用,包括付费在线服务和开源仓库。它拥有多个社区构建的支持工具,如 Wai-Illustrious SAA 角色选择器,可协助提示工程与角色选择。

第二阶段 — 纹理通道(精炼器)

检查点:Wai-Illustrious v14

步数:18,固定种子

去噪:0.35

目的:修正解剖结构、稳定纹理、优化光照、锁定角色身份。

为何选用 v14?

社区报告称其对解剖结构理解更佳,基于我一年以上、五代以上对 Wai-Illustrious 的提示、测试与生成经验,我完全认同这一观点。

枷锁(解剖结构强化堆栈)

在精炼过程中,潜在表示会经过:

详细手部 LoRA

详细脚部 LoRA

稳定器 / 反幻觉 LoRA

添加细节 LoRA

这些 LoRA 被有意放置在用户指定的风格、角色或其他 LoRA 应用之后,但在第二采样器之前。

效果:

清晰的手指关节、稳固的脚部、稳定的比例、保留姿势、无构图偏移、纹理连贯且不掩盖几何细节

这正是零样本可靠性显现的地方。

  1. “美里·绫波”测试协议

关于分词与模型语言学的研究

Illustrious 架构——与许多动漫训练模型一样——对标记顺序极为敏感。

A/B 测试显示:

第一次测试使用输入提示“misato katsuragi”(英文顺序),结果幻化出一位金发女性,身份错误。

当使用“katsuragi misato”(Danbooru/训练顺序)时,生成了标准的美里形象。

第二次测试以“rei ayanami”(英文顺序)开始,结果幻化出一位粉发女性,身份错误。

当改用“ayanami rei”(Danbooru/训练顺序)时,生成了标准的绫波形象。

结论:

使用模型的原生标签方言更有助于生成,自然语言不推荐使用,仅在必要时使用。

Bounty Hunter 通过以下方式强制执行这一规则:

为两种 KSampler 提供经过测试且准确的固定种子作为默认生成设置、图内文档、通过推荐的结构化提示(含多个示例)确保标记顺序一致性、推荐的标签辅助工具,以及在内置文档和附图元数据中包含的提示与标签错误示例的重构。

这确保了即使对经验不足的用户,零样本角色提示也能可靠地保持身份一致性。

  1. 核心功能

✔ 自文档化系统

工作流包含:

嵌入式 Markdown 注释

使用说明

提示指南

错误状态描述

只要你拥有 JSON,你就拥有了说明书。

✔ 零样本角色生成

多个头部图像(白发网络流浪者)均通过“零样本”头像/肖像自动生成,正向提示中未包含任何信息。附图展示了从空正向提示肖像到完整艺术角色作品(长发赛博刺客,双手持枪,表情丰富,身体细节精致,背景为赛博朋克城市景观)的完整提示工程链条。

身份来源于:

架构约束、LoRA 加载器、双通道潜在循环、种子确定性。

详细提示并非生成最高质量输出所必需。简单提示同样有效,但可能降低背景或角色质量,具体取决于生成参数。Readme 中提供了多个简单提示、“gacha”风格提示,以及高度工程化与详细的提示示例,还推荐了可添加到生成中的标签,有助于在最小调整下最大化动漫风格图像的输出质量。

✔ 解剖学可靠性

在优化阶段运行解剖学 LoRA 可促进准确的解剖生成:

手指保持分离、脚趾与脚部结构连贯、关节弯曲正确、物体不融合、动作姿势保持轮廓逻辑。

该流程将解剖学视为关键子系统,而非“额外细节”。

✔ 可配置风格注入

可注入、修改或绕过双非精炼器 LoRA 堆栈(左键点击并按 Ctrl+B),以生成自定义或基准 Illustrious 输出。双 LoRA 加载器允许根据位置和权重进行更多实验与细微变化,但过度使用可能增加解剖形态畸变的风险,尤其在调整 LoRA 强度时。

你可以:

完全使用中性设置

应用单一风格

按种子切换整个美学 LoRA 加载器

通过 LoRA 选择与权重调制创建受控变体

这使得 Bounty Hunter 成为一个适合工作室使用的系统,而非一次性模板。

✔ 已知限制

测试已针对单人、双人及“第一人称视角”风格图像完成。该工作流因初始生成分辨率较低(1024x1024)而存在对肖像的固有偏好。其他分辨率或宽高比尚未测试。在固定种子下进行高批量生成可能减少形态畸变与错误,但无法保证完全避免。

  1. 技术要求

平台:ComfyUI

管理器:ComfyUI Manager(用于自动安装缺失的自定义节点)

检查点:

Wai-Illustrious v15(生成器)

Wai-Illustrious v14(精炼器)

自定义节点:

rgthree

ComfyUI-Impact-Pack

硬件:

在 12GB 显存上测试完整双通道流程

在 RTX 4070、64GB 内存系统上测试。工作流快照中包含平均生成时间。通常,“机关枪”模式每图约 30 秒,“大师赏金猎人”约 60 秒,“大型猎物猎人”生成 4K 图像需 2-3 分钟,8K 图像则需 4 分钟以上。

  1. 安装与使用

下载 JSON 工作流!

PNG 文件可能包含开发过程中的旧版本,不建议使用,但可作为参考,特别是其中的提示内容。

将 JSON 文件拖放到 ComfyUI 中。.zip 文件包含 JSON 以及 Readme 和提示指南的文本文件,用于冗余与可访问性。

使用 Manager 安装缺失的节点。

确保模型与 LoRA 正确放置于 ComfyUI 对应文件夹中。

分配:

左侧检查点 → v15(生成器)

右侧检查点 → v14(精炼器)

阅读图内嵌入的注释。

从零样本模式开始(正向提示中仅输入角色标记,如 'shiranui mai',其余为空)。

按需扩展至结构化提示。

我对此无限制 AI 工具生成的任何内容不承担任何责任、义务或追责。你已收到两次警告与建议。

祝你狩猎愉快。

此模型生成的图像

未找到图像。