PixArt-Sigma-1024px_512px-animetune

125

1.7K

512px_0.7 1024px_v04 1024px_v0.31 1024px_v0.2 1024px_v0.1 1024px_v0.0 512px_0.6 512px_v0.5 512px_v0.4 512px_v0.3 512px_v0.2 512px_v0.1 512px_v0.0

详情

下载文件

关于此版本

剪枝模型 fp16（1.15 GB）：推理模型，200轮训练。

剪枝模型 bf16（9.13 GB）：用于微调的 Diffusers 模型 + onetrainer 配置数据。

训练数据（86.05 KB）：ComfyUI 工作流。

● 我使用了包含 40 万张图像的数据集进行训练。

相比之前，我感觉模型的稳定性有所提升。

另外请注意，除了前两张图片外，本次的示例图片均使用 SD1.5 + i2i 生成。

最近，我特别喜欢 Pixart 的构图与 SD1.5 风格的融合——非常有趣。

我还创建了一个用于 i2i 的 SD1.5 合并模型，如果你感兴趣，欢迎试用。

以下内容与之前相同。

我还上传了一些工作流供参考。

示例图片中嵌入了 ComfyUI 可查看的工作流，但最近为节省空间，这些图片已被转换为 JPG 格式，因此部分可能无法加载。安装以下扩展后，你即可查看这些工作流：

https://github.com/Goktug/comfyui-saveimage-plus

其中包含使用 TIPO 自动生成提示词的工作流、通用高质量提示词的实验性工作流，以及简化版工作流。推理并无唯一正确的方法，尝试不同方式往往能带来有趣的结果。

虽然标签有诸多限制，但自然语言在指令表达上更具自由度。或许值得探索你理想中的高质量提示词。

1024px 模型最终可能提供更优的推理效果，但达到这一目标需经历大量失败且耗时过长。在无法预知结果的情况下持续生成 1024px 图像令人沮丧。本模型正是为支持这一过程而设计。

该模型有多种潜在用途：

● 由于其推理速度快且兼容标签，可用于在运行 1024px 模型前进行提示词测试。

● 使用 512px 模型构建良好的构图，再用 1024px 模型进行上采样。

● 将 512px 模型与 1024px 模型合并，生成约 768px 的图像，在速度与细节间取得平衡。（实用性尚不确定，可能无法稳定运行。）

本模型的标准尺寸为 512px。

类似 SD1.5 的 512x768 比例是适用的。

但当长边为 768px 时，图像会略微出现崩溃。若稳定性是关键，建议以 512x512 为基础，并调整宽高比，例如 384x640。

768px 和 1024px 未经过训练，结果将非常糟糕。

即使在 512px 尺寸下，基础模型的质量也极高！

通常，处于预训练中期或轻量版的模型学习不足或缺乏美感，但本基础模型不同——它是迄今为止我见过的最具美感的模型。

● 如果你难以构思提示词，可以尝试以下提示词自动生成工具：

https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO

● 此外，该模型未在高质量标签或负向提示词上进行训练。

也未在可能具有负面影响的图像（如草图、单色图）上进行训练。

然而，全部 40 万张图像均为高质量，因此任何标签都有可能提升质量——标签越多越好。

● 可能存在可作为负向提示词使用的标签。

与风格相关的标签（如下所列）可纳入负向提示词中，以切换至不同风格：

1990s（风格）、00s、10s、简单背景、动漫截图、写实、人物等……

● 如果你发现生成稳定高质量图像的提示词过于繁琐，使用类似以下的提示词可能有助于稳定输出。讽刺的是，这类标签最终反而会成为质量标签。lol

" nikke, azur lane, blue archive, kancolle, 虚拟主播, arknights, girls' frontline"

模型描述

4/7 1024px 模型更新！1024px_v0.4 请查看 1024px_v0.4 标签中的详细信息。

与 512px 模型相比，它稳定性较低，更容易出现伪影，但能提供更大的构图自由度。虽然新版本学习了更多概念，但 v0.2 或更早版本在美学效果上可能更优。

3/5 512px 模型更新！512px_v0.7 请查看 512px_v0.7 标签中的详细信息。

我个人推荐使用 512px 模型。512px 模型学习了更多的概念。我喜欢这样的工作流程：先用 512px 模型进行试错推理生成优质图像，然后通过 i2i 使用 1024px 模型或 sd1.5 进行放大，或直接用相同提示词尝试 1024px 模型。

2/11 1024px & 512px 工作流更新！我还添加了 TIPO 工作流和 sd1.5 i2i。TIPO：它能减少提示词编写的工作量，轻松生成图像，我强烈推荐。SD1.5 i2i 工作流有助于提升细节和改变风格。选择模型本身是一种乐趣，它充分利用了 PixArt 和 SD1.5 的优势。在“推荐资源”中的 "TinyBreaker" 就是一个绝佳范例，通过探索其潜力进一步优化，请务必尝试。

此外，我实验性地合并了一个用于 i2i 的 SD1.5 模型，如果您感兴趣，欢迎试用。

/model/1246353

也已发现将 PixArt 与 SDXL 结合的方法。

https://github.com/kantsche/ComfyUI-MixMod

/model/1565538/a-pile-of-junk-mixmod-workflow

■这是一个实验性微调。

注意：此微调模型非常难用！

质量并不好！！不要抱太高期望！

如果您是第一次接触 PixArt-Sigma，我们建议您先尝试使用原始模型的推理工作流……即使我的模型表现一般，也请尝试使用其他人优秀的微调模型！

我认为 "Comfy Sigma Portable" 即使是从未使用过 ComfyUI 的新手也能轻松使用，无需复杂的安装，只需下载即可尝试！

合并模型可通过 ComfyUI 实现。"轻松合并模型的工具" 也很简单好用。

●Forge 也提供了以下扩展。SDNext 也可进行推理。

这并非最聪明的方案，但我已准备了一份在 Forge 中使用微调模型的指南，欢迎参考。2/16：通过近期更新，我的模型现在可被添加并用于推理。感谢开发者创建了如此功能强大且用户友好的扩展。

https://github.com/DenOfEquity/PixArt-Sigma-for-webUI

https://civitai.com/articles/11612

“推荐资源”中的 'anime sigma1024px' 是一个灵活且美观的动漫模型，值得一试。

如果您对 PixArt 产生哪怕一丝兴趣，我都会非常高兴。PixArt 具有巨大潜力。

我希望有更多人发现具有潜力的基础模型，并看到它们的前景不断扩展。如果我能为此贡献一分力量，我将倍感欣慰。

PixArt-Sigma 简洁、轻量，支持仅用 300 个标记进行训练。极少有模型具备这些特性，使其成为训练限制极少的稀有模型。由于其硬件需求几乎与 SD1.5 相同，任何人都能参与训练，个人也能以极低负担进行大规模实验。即使在推理阶段，您也能受益于 300 个标记，而小体积模型也让合并实验更加容易。它就像一个支持 1024px、DIT、T5、SDXL VAE 及改进对比度处理的 SD1.5 模型。我一直在寻找这样的模型，而 PixArt 正好满足了这一标准。

■我使用 onetrainer 进行训练。

微调基于包含约 7 万或 40 万张图像的数据集（不含 AI 生成图像），主要为动漫图像，也包含部分写实和 AI 图像，全部采用 booru 标签训练。训练分辨率为 512px 或 1024px。PixArt 质量高但要求低，非常适合训练，12GB 显存已足够。训练细节写在页面底部，请参考。我也已上传了 onetrainer 配置文件。

■请注意，该模型也可能生成性内容。

■以下是我近期最喜爱的推理设置，将根据需要更新。

这不是最优方案，请尝试各种组合！

Booru 标签和自然语言均可使用。

●使用 SD1.5 i2i 是个不错的选择。这种方法能突破 PixArt 的局限。

PixArt 在构图上表现优秀，但手部等细节常出现问题。通过 i2i 与 SD1.5 结合，可有效提升细节，从而兼顾两者优势。

此外，更换 SD1.5 模型，可灵活切换至写实、2.5D 或动漫等任何风格。如有资源，与 SDXL 结合也是绝佳选择。

●示例图像中嵌入了可在 ComfyUI 中查看的工作流，但近期为节省空间已转为 JPG 格式，部分可能无法加载。安装以下扩展即可解决：

https://github.com/Goktug/comfyui-saveimage-plus

●采样器：“SDE cfg2.5-6 step12-20”、“Euler cfg_pp” 或 “Euler A cfg_pp”，cfg 1.5-2.5，step30-50

调度器：“GITS” 或 “simple”

●Euler、Euler_CFG_PP、DEIS：锐利，构图出色，享受崩塌美学。

Euler_A：最稳定，适合姿势和独特概念，但惊喜较少。

DPM++_SDE：折中方案——动态且稳定。

●GITS 提供丰富纹理，Simple 确保稳定生成质量，SDE 更贴近数据集，Euler 锐利，Euler A 稳定。

我通常偏好 GITS + “Euler”、“Euler cfg_pp” 或 “SDE”。

“GITS + Euler” 或 “Euler cfg_pp” 非常锐利。

“GITS + SDE” 动态感强。

“simple + Euler A 或 SDE” 感觉稳定，可能提升保真度，但对比度较高。

●GITS 可生成惊人细节，但有时易崩坏或偏离提示。当我希望借助自然语言聚焦氛围时，我更倾向使用 GITS。相反，Simple 稳定且忠于提示，更适合角色绘制。

●分辨率略偏离 512x512 和 1024x1024 也是可接受的。如 512x768 或 1024x1536 可能有轻微问题，但仍实用。为追求更高稳定性，建议使用 832x1216 等更接近标准的比例。

我更偏好大分辨率而非稳定性，因此常选用非标准分辨率。

●如果无法构思提示词，可尝试以下自动提示生成工具：

https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO

Command R+ 不会审查或拒绝提示词，非常适合生成明确的自然语言提示。您可在官网注册免费试用。

●若某个标签效果过强，可降低其权重，或提高其他标签权重。这可能并非无效，而是过于主导，调整后可解决问题。

注意角色专属标签可能过于强势。

角色标签甚至可能改变风格，因此在某些情况下，将角色标签置于末尾，并辅以通用标签如 “1girl, green hair, School uniform” 可提供更大灵活性。

●负向提示词未经过训练。请尝试各种组合！

如页面下方数据集内容所述，若您不喜欢写实纹理，可加入如 “realistic, figure” 等词。

在负向提示中加入 ‘anime screencap’ 可减少画面扁平感。

我不喜欢过多限制，更注重多样性，因此尽量减少负向提示词。

最近，我更倾向一种工作流：在前几轮推理中禁用负向提示，仅从后期步骤开始应用。这样前期构图问题更少，后期可自由调整风格，整体质量得以提升。

不过，我的思维方式较为非主流，您不必跟随！使用大量负向提示可能效果更好，不妨一试！

我认为步数过少时，构图效果不佳。

●建议至少使用 20 步。最近我基本都用 50 步。

预览时，我会在 15-25 步暂停，检查进度。

一旦找到理想种子，我会用 50 或 100 步精细调整，必要时修改 CFG。

由于后期变化很小，我能预测结果，从而兼顾效率与质量。

不过，步数过高可能导致过度处理，有时 30 步在对比度上会是更好的平衡。

顺便一提，我并未对作品标题标签进行训练，但有时角色标签会包含作品标题。这种趋势在手游中尤为明显。当我随机加入作品标题时，风格确实发生了变化，因此它可能有一定影响。

●建议至少使用 20 步。最近我基本都用 50 步。

预览时，我会在 15-25 步暂停，检查进度。

Uni-pc 可能更快，约 20 步即可获得良好效果。若以 i2i 为基础，我认为可使用 splitsigmas 等方法在一半步数后进行 i2i。

一旦找到理想种子，我会用 50 或 100 步精细调整，必要时修改 CFG。

由于后期变化很小，我能预测结果，从而兼顾效率与质量。

若您觉得难以构思稳定效果的提示词，使用以下类似提示词可能有助于稳定输出。讽刺的是，这些标签反而成了“质量标签” lol

" nikke, azur lane, blue archive, kancolle, virtual youtuber, arknights, girls' frontline"

●我也会分享我用于提升质量的自然语言提示词，可将其添加至提示词末尾。它已包含在我的工作流中。我认为将游戏标题标签放在最后一行是个好主意。

■持续高质量

具有光滑、发光肌肤和鲜艳自然色彩的高细节角色，姿态动态且富有表现力，比例自然，构图精准。柔和均衡的光影增强深度与温暖感，周围光线微妙地与角色互动，融合色调，形成与环境的和谐关系。丰富的面部表情传达情感与存在感，柔和高光突出角色曲线与细节，增添层次感与自然光泽。

■动态构图

高细节动漫风格角色，拥有光滑、有光泽的肌肤和鲜艳均衡的色彩，姿态动态且富有表现力，解剖结构完美，比例自然。构图视觉冲击力强，角色设计纹理精细，细节精致。柔和细腻的光影增强深度与温暖，与周围环境和谐互动，营造连贯沉浸的氛围。背景细节丰富、动态多样，包含引人入胜的元素，既补充场景又不喧宾夺主。微妙的高光与阴影强化角色曲线、服饰与特征，增添真实感与发光效果。整体图像完美平衡艺术风格化与真实可信的存在感。

●这个庞大而混乱的负向提示词可能有效，尽管我只是从其他模型中复制而来，无任何保证。但似乎确实有一定作用。

若发现构图或解剖结构异常，可尝试移除负向提示词。我多次发现它会带来负面影响。

■断肢、解剖错误、比例失调、模糊、过时、畸形、多余肢体、手指粘连、低质量、畸形肢体、缺失肢体、变异、丑陋、过曝、欠曝、色彩平庸、细节不足

■512px 模型。

本模型的标准分辨率为 512px。

类似 SD1.5 的 512x768 比例是合适的。

768px 或 1024px 未经过训练，结果将灾难性。

即使在 512px 下，基础模型质量依然极高！

通常，处于预训练中期或轻量版的模型学习不足或美感欠缺，但本模型不同。它是迄今为止我见过的最具美学价值的模型。

由于其对训练和推理硬件要求低且速度很快，我觉得它有潜力成为我一直在寻找的SD1.5的继任者。我非常喜欢这个模型。

老实说，对于专注于2D角色的图像生成，512px和1024px之间几乎没有差别。除非是明确需要高分辨率的概念，否则512px应该已经足够。

■ 1024px 模型。

如果你不想浪费时间，建议先用512px模型练习哪些提示词更有效。

合并模型也可能很有趣。

与真实感模型合并有时能改善人体解剖结构。

一个有趣的合并实验示例：

直接将1024px和512px模型以0.5的比例合并，即可生成768px分辨率的图像。尝试768x768、576x960，甚至640x1024等分辨率。768x1024有时会出错，但偶尔也能成功。

如果预览中没有块状噪声或线条噪声，那就没问题。如果出现这些噪声且生成图像中开始出现奇怪的伪影，那就达到了该分辨率的极限。

这种方法在速度与细节之间取得了平衡，但我不能完全确定合并后的模型是否稳定——它可能存在一些问题。不过，作为一次有趣的实验，值得一试。

※顺便说一句，我不认为旧版本更差。

随着训练的进行，模型学会了更多概念，但也逐渐偏离了PixArt的美学风格。

因此，在某些情况下，早期版本可能拥有更好的平衡。

这属于个人偏好，所以建议你使用自己最喜欢的那个版本。

我个人非常喜欢一些旧版本的样本图像，但我并不确定能否用最新版本复现它们，哈哈。

■我正在使用danbooru标签进行训练。

我们仅学习通用标签，如“1girl”，而不训练艺术家或动漫作品相关标签。

过少的标签会导致灾难性结果。

热门标签通常质量更高。

例如：正对观众、上半身、闪亮皮肤、动漫截图等。

如果效果太强，可以尝试降低权重。

使用能自动生成标签的工具生成各种标签，这会很有趣。

这是一个测试标签学习能力的实验。

我的训练质量一般，但模型的学习效果超出预期。

在某些情况下，它可能能表达出其他模型难以实现的内容。

即使不微调T5，似乎也能加入一些新概念。

基础模型的审查程度并不过度；与Cascade类似，它能毫无问题地处理高暴露的服装，有时甚至能生成裸体。

这很有趣，因为它与其他模型的感觉截然不同。

由于数据集较小，目前还无法识别所有标签。

但自然语言仍然效果良好，可能存在着与基础模型不同的有趣之处。

这非常有趣。我会给ChatGPT设定主题，让它生成自然语言提示词。

■有时会出现非常真实或AI风格的明显倾向。

建议在负面提示中加入“realistic”来抑制这种倾向。

另一方面，尝试非动漫风格可能也很有趣。

在原本未预期的领域中，反而发现了新成果。

不必对完美抱有过高期待。

这个模型仍不成熟，那些出错的结果反而更有趣！

■风格缺乏一致性，质量较差，没有固定的设置或提示词。

●它在现有模型中没有优势，数据集也更狭窄。

●这是一个不完整且非常难用的模型，但如果你感兴趣，不妨试试看。

●如果人体结构崩坏，并非因为审查机制，而是因为我微调质量差，请多包涵！lol

我会继续优化，使其在未来变得更好！

●合并没有问题。如果你有有趣的结果，请分享！

我认为可以使用差分合并方式将512px模型合并到1024px模型中。如果比例过大可能会崩溃，但可用于增强概念和风格。

■数据集备注：

●“realistic, figure, anime screencap”

这三个标签是我特意为风格训练加入的，使用它们会强制生成特定风格。

“anime screencap”会产生TV动画风格。

●在负面提示中加入“realistic, figure”会强制生成动漫风格。

但其他2D风格缺乏一致性，风格会随关键词变化而改变……

●据我观察，色情内容倾向于采用视觉小说游戏风格，而自然语言则更偏向AI或2.5D风格。

“looking at viewer, upper body, shiny skin”等标签在大量图像中标注，因此质量可能更高，我感觉它们更接近AI图像风格。

“blush”也被广泛使用，倾向于视觉小说游戏和日本2D艺术家的扁平风格。

●我的数据集包含视觉小说游戏、真人、手办、2.5D、动漫截图和AI图像。

由于我训练的数据范围极广，风格与标签紧密关联，这可能使控制变得有些困难……

●如果没有背景标签，图像可能最终呈现白色背景。

这是因为提示词之外的元素不太容易渗入图像中。

提示词过短时，结果可能模糊不清。建议添加能描述你想要生成图像类型的关键词。

●最好包含你设想的场景类型标签，例如以下示例。

此外，根据这些标签，考虑背景中应包含哪些元素并相应添加——比如房间中的植物、城市中的汽车等。

如果背景成为焦点而角色显得很小，使用“solo focus”等标签有助于突出角色主体。“landscape”标签倾向于让背景成为焦点，若角色是主体，最好避免使用它。

“outdoors, scenery, landscape, indoors, bedroom, building, car, crowd, forest, beach, city, street, day, night, from above, from below”

■作为参考，我还会分享我的简易ComfyUI工作流和OneTrainer训练设置数据。

如需用ComfyUI进行推理，你需要安装“ExtraModels”插件。我也会提供我使用的“vae”和“T5”的下载链接。

我不确定是否能在其他WebUI上使用。

其他人也分享过他们的工作流，建议参考。

■ExtraModels

https://github.com/city96/ComfyUI_ExtraModels?tab=readme-ov-file#installation

■vae

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/blob/main/diffusion_pytorch_model.safetensors

■T5

https://huggingface.co/theunlikely/t5-v1_1-xxl-fp16/tree/main

这与SD3中的T5相同，因此你可能也可以使用SD3中的8bit T5，加载速度会更快。

■基础模型，如需尝试其他分辨率，请下载：

https://huggingface.co/PixArt-alpha/PixArt-Sigma/tree/main

■训练时需要1024px diffuser模型，请将其指定为基础模型进行训练：

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS

■ 512px 模型：

https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-512-MS

与1024px模型相比，它的硬件要求更低，训练速度约快4倍，让更多人可以参与训练。除Transformer外，它使用与1024px模型相同的训练数据，请从上述链接获取数据。

■如果你的GPU有空余空间，将T5加载到GPU上会使推理更快、更流畅。

将T5转换为4-bit后，即使配置较低的设备也能运行。

12GB显存足够。若转换为4-bit，8GB显存也可能加载成功……如果不行也不用担心，可以加载到系统内存中！

如果安装ComfyUI Manager的ExtraModels后仍报错，

请按ExtraModels链接中的说明操作，

激活VENV并重新安装依赖项。

当我尝试将T5转换为4-bit时，bitsandbytes出现错误，但重新安装依赖项后问题解决。

我对这些也不太懂，可能难以提供安装支持……

■我是CivitAI新人，如果你有任何意见，欢迎告诉我。

我并不擅长训练，但如果能帮助更多人了解PixArt的潜力，我会非常开心。

PixArt-Sigma有巨大潜力。

我的梦想是看到更多PixArt模型，也期待看到你训练的模型！

训练需求很低，12GB显存就够了！

总下载量已超过1000次。感谢你们对我这个不成熟模型的关注！非常感谢你们的大量点赞。m(＿＿)m

也感谢大家的热议！

这次微调本身并不特别出众，但我希望我的训练信息能帮助到对PixArt感兴趣的人！

■以下是我训练时使用的GPU和耗时，可作为你训练的参考！

如需了解具体设置，请下载OneTrainer的训练数据。

GPU：RTX 4060 Ti 16GB

■512px

批量大小：48

70,000 / 48 = 1,500 步

1个epoch：5小时

15个epoch：75小时

GPU使用：13GB

使用这个批量大小和epoch时长，我认为速度与SD1.5相差不大，已经很快了。

我觉得512px模型就像是SD1.5的继任者。

■1024px（测试）

批量大小：12

70,000 / 12 = 5,833 步

1个epoch：30小时

5个epoch：150小时

GPU使用：15GB

之所以没有恰好四倍慢，是因为批量大小不同。

在我的环境中，我感觉训练1024px的SDXL模型是不可能的，因此我未尝试，也不知道其速度如何。但我认为这个批量大小是合适的！

■使用12GB显存进行全参数微调，训练1024px没有问题。

我有16GB显存，因此批量大小略大。

如果降低批量大小，显存占用会显著减少。

批量大小为1或2时，8GB显存也可能够用。

我使用CAME作为优化器，略微增加显存占用，但我喜欢它带来的高质量。

使用Adafactor或AdamW8bit，显存占用会大幅减少。

由于文本编码器T5非常庞大，目前训练需要大量显存，可能较困难……

随着SD3的出现，这一讨论将推进，训练方法将逐步成熟。在此之前，可能仍需大量显存……

如需全参数微调设置的参考，可以使用以上数据。

但有时可能导致过拟合，或因你的PC配置而变得困难。

请参考这些设置，寻找最适合你的参数组合。

我通过切换到BF16训练降低了GPU占用，实现了相同效果，因此我使用这个方案。

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img512_internalms.py

https://github.com/PixArt-alpha/PixArt-sigma/blob/master/configs/pixart_sigma_config/PixArt_sigma_xl2_img1024_internalms.py

注意！

■使用OneTrainer训练时，token数量可能被限制为120。

对于标签训练，由于会进行标签混洗，影响应该很小。

老实说，我从未因120个token的标签限制遇到任何问题。

但对于自然语言，字幕长度很重要，可能会发生意外截断。

■相关部分：“max_token_length=120” 这个值是token上限。

https://github.com/Nerogar/OneTrainer/blob/23006f0c2543e52a9376b0557e7a78016d489acc/modules/dataLoader/PixArtAlphaBaseDataLoader.py#L244

■在使用xformers时，超过256个token会出现错误。使用sdp时，最多到300个token无问题，但在512个token时，生成图像开始崩溃。

看起来更多token并不一定意味着更好结果。

由于缓存大小增加，若性价比不高，120个token可能已足够。

质量提升并无保证，但值得研究。

由于无法确定，如果发现任何错误，请务必告知我！

如有任何问题，欢迎随时提问！

也可以用日语提问，请随时联系我～

此模型生成的图像

排序

未找到图像。

模型类型	检查点
基础模型	PixArt E
发布时间	3/5/2025