PixArt-Sigma-1024px_512px-animetune
详情
下载文件
关于此版本
模型描述
4/7 1024px 模型更新!1024px_v0.4 请查看 1024px_v0.4 标签中的详细信息。
与 512px 模型相比,它稳定性较低,更容易出现伪影,但能提供更大的构图自由度。虽然新版本学习了更多概念,但 v0.2 或更早版本在美学效果上可能更优。
3/5 512px 模型更新!512px_v0.7 请查看 512px_v0.7 标签中的详细信息。
我个人推荐使用 512px 模型。512px 模型学习了更多的概念。我喜欢这样的工作流程:先用 512px 模型进行试错推理生成优质图像,然后通过 i2i 使用 1024px 模型或 sd1.5 进行放大,或直接用相同提示词尝试 1024px 模型。
2/11 1024px & 512px 工作流更新!我还添加了 TIPO 工作流和 sd1.5 i2i。TIPO:它能减少提示词编写的工作量,轻松生成图像,我强烈推荐。SD1.5 i2i 工作流有助于提升细节和改变风格。选择模型本身是一种乐趣,它充分利用了 PixArt 和 SD1.5 的优势。在“推荐资源”中的 "TinyBreaker" 就是一个绝佳范例,通过探索其潜力进一步优化,请务必尝试。
此外,我实验性地合并了一个用于 i2i 的 SD1.5 模型,如果您感兴趣,欢迎试用。
也已发现将 PixArt 与 SDXL 结合的方法。
https://github.com/kantsche/ComfyUI-MixMod
/model/1565538/a-pile-of-junk-mixmod-workflow
■这是一个实验性微调。
注意:此微调模型非常难用!
质量并不好!!不要抱太高期望!
如果您是第一次接触 PixArt-Sigma,我们建议您先尝试使用原始模型的推理工作流……即使我的模型表现一般,也请尝试使用其他人优秀的微调模型!
我认为 "Comfy Sigma Portable" 即使是从未使用过 ComfyUI 的新手也能轻松使用,无需复杂的安装,只需下载即可尝试!
合并模型可通过 ComfyUI 实现。"轻松合并模型的工具" 也很简单好用。
●Forge 也提供了以下扩展。SDNext 也可进行推理。
这并非最聪明的方案,但我已准备了一份在 Forge 中使用微调模型的指南,欢迎参考。2/16:通过近期更新,我的模型现在可被添加并用于推理。感谢开发者创建了如此功能强大且用户友好的扩展。
https://github.com/DenOfEquity/PixArt-Sigma-for-webUI
https://civitai.com/articles/11612
“推荐资源”中的 'anime sigma1024px' 是一个灵活且美观的动漫模型,值得一试。
如果您对 PixArt 产生哪怕一丝兴趣,我都会非常高兴。PixArt 具有巨大潜力。
我希望有更多人发现具有潜力的基础模型,并看到它们的前景不断扩展。如果我能为此贡献一分力量,我将倍感欣慰。
PixArt-Sigma 简洁、轻量,支持仅用 300 个标记进行训练。极少有模型具备这些特性,使其成为训练限制极少的稀有模型。由于其硬件需求几乎与 SD1.5 相同,任何人都能参与训练,个人也能以极低负担进行大规模实验。即使在推理阶段,您也能受益于 300 个标记,而小体积模型也让合并实验更加容易。它就像一个支持 1024px、DIT、T5、SDXL VAE 及改进对比度处理的 SD1.5 模型。我一直在寻找这样的模型,而 PixArt 正好满足了这一标准。
■我使用 onetrainer 进行训练。
微调基于包含约 7 万或 40 万张图像的数据集(不含 AI 生成图像),主要为动漫图像,也包含部分写实和 AI 图像,全部采用 booru 标签训练。训练分辨率为 512px 或 1024px。PixArt 质量高但要求低,非常适合训练,12GB 显存已足够。训练细节写在页面底部,请参考。我也已上传了 onetrainer 配置文件。
■请注意,该模型也可能生成性内容。
■以下是我近期最喜爱的推理设置,将根据需要更新。
这不是最优方案,请尝试各种组合!
Booru 标签和自然语言均可使用。
●使用 SD1.5 i2i 是个不错的选择。这种方法能突破 PixArt 的局限。
PixArt 在构图上表现优秀,但手部等细节常出现问题。通过 i2i 与 SD1.5 结合,可有效提升细节,从而兼顾两者优势。
此外,更换 SD1.5 模型,可灵活切换至写实、2.5D 或动漫等任何风格。如有资源,与 SDXL 结合也是绝佳选择。
●示例图像中嵌入了可在 ComfyUI 中查看的工作流,但近期为节省空间已转为 JPG 格式,部分可能无法加载。安装以下扩展即可解决:
https://github.com/Goktug/comfyui-saveimage-plus
●采样器:“SDE cfg2.5-6 step12-20”、“Euler cfg_pp” 或 “Euler A cfg_pp”,cfg 1.5-2.5,step30-50
调度器:“GITS” 或 “simple”
●Euler、Euler_CFG_PP、DEIS:锐利,构图出色,享受崩塌美学。
Euler_A:最稳定,适合姿势和独特概念,但惊喜较少。
DPM++_SDE:折中方案——动态且稳定。
●GITS 提供丰富纹理,Simple 确保稳定生成质量,SDE 更贴近数据集,Euler 锐利,Euler A 稳定。
我通常偏好 GITS + “Euler”、“Euler cfg_pp” 或 “SDE”。
“GITS + Euler” 或 “Euler cfg_pp” 非常锐利。
“GITS + SDE” 动态感强。
“simple + Euler A 或 SDE” 感觉稳定,可能提升保真度,但对比度较高。
●GITS 可生成惊人细节,但有时易崩坏或偏离提示。当我希望借助自然语言聚焦氛围时,我更倾向使用 GITS。相反,Simple 稳定且忠于提示,更适合角色绘制。
●分辨率略偏离 512x512 和 1024x1024 也是可接受的。如 512x768 或 1024x1536 可能有轻微问题,但仍实用。为追求更高稳定性,建议使用 832x1216 等更接近标准的比例。
我更偏好大分辨率而非稳定性,因此常选用非标准分辨率。
●如果无法构思提示词,可尝试以下自动提示生成工具:
https://huggingface.co/spaces/KBlueLeaf/TIPO-DEMO
Command R+ 不会审查或拒绝提示词,非常适合生成明确的自然语言提示。您可在官网注册免费试用。
●若某个标签效果过强,可降低其权重,或提高其他标签权重。这可能并非无效,而是过于主导,调整后可解决问题。
注意角色专属标签可能过于强势。
角色标签甚至可能改变风格,因此在某些情况下,将角色标签置于末尾,并辅以通用标签如 “1girl, green hair, School uniform” 可提供更大灵活性。
●负向提示词未经过训练。请尝试各种组合!
如页面下方数据集内容所述,若您不喜欢写实纹理,可加入如 “realistic, figure” 等词。
在负向提示中加入 ‘anime screencap’ 可减少画面扁平感。
我不喜欢过多限制,更注重多样性,因此尽量减少负向提示词。
最近,我更倾向一种工作流:在前几轮推理中禁用负向提示,仅从后期步骤开始应用。这样前期构图问题更少,后期可自由调整风格,整体质量得以提升。
不过,我的思维方式较为非主流,您不必跟随!使用大量负向提示可能效果更好,不妨一试!
我认为步数过少时,构图效果不佳。
●建议至少使用 20 步。最近我基本都用 50 步。
预览时,我会在 15-25 步暂停,检查进度。
一旦找到理想种子,我会用 50 或 100 步精细调整,必要时修改 CFG。
由于后期变化很小,我能预测结果,从而兼顾效率与质量。
不过,步数过高可能导致过度处理,有时 30 步在对比度上会是更好的平衡。
顺便一提,我并未对作品标题标签进行训练,但有时角色标签会包含作品标题。这种趋势在手游中尤为明显。当我随机加入作品标题时,风格确实发生了变化,因此它可能有一定影响。
●建议至少使用 20 步。最近我基本都用 50 步。
预览时,我会在 15-25 步暂停,检查进度。
Uni-pc 可能更快,约 20 步即可获得良好效果。若以 i2i 为基础,我认为可使用 splitsigmas 等方法在一半步数后进行 i2i。
一旦找到理想种子,我会用 50 或 100 步精细调整,必要时修改 CFG。
由于后期变化很小,我能预测结果,从而兼顾效率与质量。
若您觉得难以构思稳定效果的提示词,使用以下类似提示词可能有助于稳定输出。讽刺的是,这些标签反而成了“质量标签” lol
" nikke, azur lane, blue archive, kancolle, virtual youtuber, arknights, girls' frontline"
●我也会分享我用于提升质量的自然语言提示词,可将其添加至提示词末尾。它已包含在我的工作流中。我认为将游戏标题标签放在最后一行是个好主意。
■持续高质量
具有光滑、发光肌肤和鲜艳自然色彩的高细节角色,姿态动态且富有表现力,比例自然,构图精准。柔和均衡的光影增强深度与温暖感,周围光线微妙地与角色互动,融合色调,形成与环境的和谐关系。丰富的面部表情传达情感与存在感,柔和高光突出角色曲线与细节,增添层次感与自然光泽。
■动态构图
高细节动漫风格角色,拥有光滑、有光泽的肌肤和鲜艳均衡的色彩,姿态动态且富有表现力,解剖结构完美,比例自然。构图视觉冲击力强,角色设计纹理精细,细节精致。柔和细腻的光影增强深度与温暖,与周围环境和谐互动,营造连贯沉浸的氛围。背景细节丰富、动态多样,包含引人入胜的元素,既补充场景又不喧宾夺主。微妙的高光与阴影强化角色曲线、服饰与特征,增添真实感与发光效果。整体图像完美平衡艺术风格化与真实可信的存在感。
●这个庞大而混乱的负向提示词可能有效,尽管我只是从其他模型中复制而来,无任何保证。但似乎确实有一定作用。
若发现构图或解剖结构异常,可尝试移除负向提示词。我多次发现它会带来负面影响。
■断肢、解剖错误、比例失调、模糊、过时、畸形、多余肢体、手指粘连、低质量、畸形肢体、缺失肢体、变异、丑陋、过曝、欠曝、色彩平庸、细节不足
■512px 模型。
本模型的标准分辨率为 512px。
类似 SD1.5 的 512x768 比例是合适的。
768px 或 1024px 未经过训练,结果将灾难性。
即使在 512px 下,基础模型质量依然极高!
通常,处于预训练中期或轻量版的模型学习不足或美感欠缺,但本模型不同。它是迄今为止我见过的最具美学价值的模型。
由于其对训练和推理硬件要求低且速度很快,我觉得它有潜力成为我一直在寻找的SD1.5的继任者。我非常喜欢这个模型。
老实说,对于专注于2D角色的图像生成,512px和1024px之间几乎没有差别。除非是明确需要高分辨率的概念,否则512px应该已经足够。
■ 1024px 模型。
如果你不想浪费时间,建议先用512px模型练习哪些提示词更有效。
合并模型也可能很有趣。
与真实感模型合并有时能改善人体解剖结构。
一个有趣的合并实验示例:
直接将1024px和512px模型以0.5的比例合并,即可生成768px分辨率的图像。尝试768x768、576x960,甚至640x1024等分辨率。768x1024有时会出错,但偶尔也能成功。
如果预览中没有块状噪声或线条噪声,那就没问题。如果出现这些噪声且生成图像中开始出现奇怪的伪影,那就达到了该分辨率的极限。
这种方法在速度与细节之间取得了平衡,但我不能完全确定合并后的模型是否稳定——它可能存在一些问题。不过,作为一次有趣的实验,值得一试。
※顺便说一句,我不认为旧版本更差。
随着训练的进行,模型学会了更多概念,但也逐渐偏离了PixArt的美学风格。
因此,在某些情况下,早期版本可能拥有更好的平衡。
这属于个人偏好,所以建议你使用自己最喜欢的那个版本。
我个人非常喜欢一些旧版本的样本图像,但我并不确定能否用最新版本复现它们,哈哈。
■我正在使用danbooru标签进行训练。
我们仅学习通用标签,如“1girl”,而不训练艺术家或动漫作品相关标签。
过少的标签会导致灾难性结果。
热门标签通常质量更高。
例如:正对观众、上半身、闪亮皮肤、动漫截图等。
如果效果太强,可以尝试降低权重。
使用能自动生成标签的工具生成各种标签,这会很有趣。
这是一个测试标签学习能力的实验。
我的训练质量一般,但模型的学习效果超出预期。
在某些情况下,它可能能表达出其他模型难以实现的内容。
即使不微调T5,似乎也能加入一些新概念。
基础模型的审查程度并不过度;与Cascade类似,它能毫无问题地处理高暴露的服装,有时甚至能生成裸体。
这很有趣,因为它与其他模型的感觉截然不同。
由于数据集较小,目前还无法识别所有标签。
但自然语言仍然效果良好,可能存在着与基础模型不同的有趣之处。
这非常有趣。我会给ChatGPT设定主题,让它生成自然语言提示词。
■有时会出现非常真实或AI风格的明显倾向。
建议在负面提示中加入“realistic”来抑制这种倾向。
另一方面,尝试非动漫风格可能也很有趣。
在原本未预期的领域中,反而发现了新成果。
不必对完美抱有过高期待。
这个模型仍不成熟,那些出错的结果反而更有趣!
■风格缺乏一致性,质量较差,没有固定的设置或提示词。
●它在现有模型中没有优势,数据集也更狭窄。
●这是一个不完整且非常难用的模型,但如果你感兴趣,不妨试试看。
●如果人体结构崩坏,并非因为审查机制,而是因为我微调质量差,请多包涵!lol
我会继续优化,使其在未来变得更好!
●合并没有问题。如果你有有趣的结果,请分享!
我认为可以使用差分合并方式将512px模型合并到1024px模型中。如果比例过大可能会崩溃,但可用于增强概念和风格。
■数据集备注:
●“realistic, figure, anime screencap”
这三个标签是我特意为风格训练加入的,使用它们会强制生成特定风格。
“anime screencap”会产生TV动画风格。
●在负面提示中加入“realistic, figure”会强制生成动漫风格。
但其他2D风格缺乏一致性,风格会随关键词变化而改变……
●据我观察,色情内容倾向于采用视觉小说游戏风格,而自然语言则更偏向AI或2.5D风格。
“looking at viewer, upper body, shiny skin”等标签在大量图像中标注,因此质量可能更高,我感觉它们更接近AI图像风格。
“blush”也被广泛使用,倾向于视觉小说游戏和日本2D艺术家的扁平风格。
●我的数据集包含视觉小说游戏、真人、手办、2.5D、动漫截图和AI图像。
由于我训练的数据范围极广,风格与标签紧密关联,这可能使控制变得有些困难……
●如果没有背景标签,图像可能最终呈现白色背景。
这是因为提示词之外的元素不太容易渗入图像中。
提示词过短时,结果可能模糊不清。建议添加能描述你想要生成图像类型的关键词。
●最好包含你设想的场景类型标签,例如以下示例。
此外,根据这些标签,考虑背景中应包含哪些元素并相应添加——比如房间中的植物、城市中的汽车等。
如果背景成为焦点而角色显得很小,使用“solo focus”等标签有助于突出角色主体。“landscape”标签倾向于让背景成为焦点,若角色是主体,最好避免使用它。
“outdoors, scenery, landscape, indoors, bedroom, building, car, crowd, forest, beach, city, street, day, night, from above, from below”
■作为参考,我还会分享我的简易ComfyUI工作流和OneTrainer训练设置数据。
如需用ComfyUI进行推理,你需要安装“ExtraModels”插件。我也会提供我使用的“vae”和“T5”的下载链接。
我不确定是否能在其他WebUI上使用。
其他人也分享过他们的工作流,建议参考。
■ExtraModels
https://github.com/city96/ComfyUI_ExtraModels?tab=readme-ov-file#installation
■vae
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/blob/main/diffusion_pytorch_model.safetensors
■T5
https://huggingface.co/theunlikely/t5-v1_1-xxl-fp16/tree/main
这与SD3中的T5相同,因此你可能也可以使用SD3中的8bit T5,加载速度会更快。
■基础模型,如需尝试其他分辨率,请下载:
https://huggingface.co/PixArt-alpha/PixArt-Sigma/tree/main
■训练时需要1024px diffuser模型,请将其指定为基础模型进行训练:
https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-1024-MS
■ 512px 模型:
https://huggingface.co/PixArt-alpha/PixArt-Sigma-XL-2-512-MS
与1024px模型相比,它的硬件要求更低,训练速度约快4倍,让更多人可以参与训练。除Transformer外,它使用与1024px模型相同的训练数据,请从上述链接获取数据。
■如果你的GPU有空余空间,将T5加载到GPU上会使推理更快、更流畅。
将T5转换为4-bit后,即使配置较低的设备也能运行。
12GB显存足够。若转换为4-bit,8GB显存也可能加载成功……如果不行也不用担心,可以加载到系统内存中!
如果安装ComfyUI Manager的ExtraModels后仍报错,
请按ExtraModels链接中的说明操作,
激活VENV并重新安装依赖项。
当我尝试将T5转换为4-bit时,bitsandbytes出现错误,但重新安装依赖项后问题解决。
我对这些也不太懂,可能难以提供安装支持……
■我是CivitAI新人,如果你有任何意见,欢迎告诉我。
我并不擅长训练,但如果能帮助更多人了解PixArt的潜力,我会非常开心。
PixArt-Sigma有巨大潜力。
我的梦想是看到更多PixArt模型,也期待看到你训练的模型!
训练需求很低,12GB显存就够了!
总下载量已超过1000次。感谢你们对我这个不成熟模型的关注!非常感谢你们的大量点赞。m(_ _)m
也感谢大家的热议!
这次微调本身并不特别出众,但我希望我的训练信息能帮助到对PixArt感兴趣的人!
■以下是我训练时使用的GPU和耗时,可作为你训练的参考!
如需了解具体设置,请下载OneTrainer的训练数据。
GPU:RTX 4060 Ti 16GB
■512px
批量大小:48
70,000 / 48 = 1,500 步
1个epoch:5小时
15个epoch:75小时
GPU使用:13GB
使用这个批量大小和epoch时长,我认为速度与SD1.5相差不大,已经很快了。
我觉得512px模型就像是SD1.5的继任者。
■1024px(测试)
批量大小:12
70,000 / 12 = 5,833 步
1个epoch:30小时
5个epoch:150小时
GPU使用:15GB
之所以没有恰好四倍慢,是因为批量大小不同。
在我的环境中,我感觉训练1024px的SDXL模型是不可能的,因此我未尝试,也不知道其速度如何。但我认为这个批量大小是合适的!
■使用12GB显存进行全参数微调,训练1024px没有问题。
我有16GB显存,因此批量大小略大。
如果降低批量大小,显存占用会显著减少。
批量大小为1或2时,8GB显存也可能够用。
我使用CAME作为优化器,略微增加显存占用,但我喜欢它带来的高质量。
使用Adafactor或AdamW8bit,显存占用会大幅减少。
由于文本编码器T5非常庞大,目前训练需要大量显存,可能较困难……
随着SD3的出现,这一讨论将推进,训练方法将逐步成熟。在此之前,可能仍需大量显存……
如需全参数微调设置的参考,可以使用以上数据。
但有时可能导致过拟合,或因你的PC配置而变得困难。
请参考这些设置,寻找最适合你的参数组合。
我通过切换到BF16训练降低了GPU占用,实现了相同效果,因此我使用这个方案。
注意!
■使用OneTrainer训练时,token数量可能被限制为120。
对于标签训练,由于会进行标签混洗,影响应该很小。
老实说,我从未因120个token的标签限制遇到任何问题。
但对于自然语言,字幕长度很重要,可能会发生意外截断。
■相关部分:“max_token_length=120” 这个值是token上限。
■在使用xformers时,超过256个token会出现错误。使用sdp时,最多到300个token无问题,但在512个token时,生成图像开始崩溃。
看起来更多token并不一定意味着更好结果。
由于缓存大小增加,若性价比不高,120个token可能已足够。
质量提升并无保证,但值得研究。
由于无法确定,如果发现任何错误,请务必告知我!
如有任何问题,欢迎随时提问!
也可以用日语提问,请随时联系我~




















