Pixel Art Style (illustrious by Skormino)
详情
下载文件
关于此版本
模型描述
更新日志
版本 7.05 🔨
使用建议:
我仍然推荐在 ComfyUI 中使用您的自定义节点——我相信这是正确的方法。如何使用我的自定义节点
模型: Plant Milk Model Suite Walnut | 索引版 v1
CFG: 3–4
步数: 28+
采样器: Euler | EulerA
调度器: Simple | sgm_uniform
在您的提示词后添加我的触发词: masterpiece, pixpix, 8-bit, pixel_art
请避免添加过多质量标签——这些标签通常适用于平滑图像,但像素本质上是方形的。您意识到添加过多质量标签会发生什么吗?
VAE:
我通常使用内置 VAE,但更新 Comfy 后,我别无选择,只能使用第一个可用的,恰好是 lunaXLILNAIVAE_luna。即使我想测试,也无法确认它是否有任何影响。
说到 VAE:我最近发现了一个基于 SDXL 的 VAE,它呈现像素化效果,结果非常出色,但 SDXL 本身已过时,且该 VAE 与我的 LoRAs 冲突。我非常想训练自己的 VAE——想象一下,有大约六个人主动提出用他们的硬件帮我,但总出问题,我至今仍无法在外部设备上完成任何操作。
我确信,使用我的数据训练的 VAE 能比 LoRA 产生更好的效果。
我有一段时间没能重新投入这项工作,懒惰一直压得我喘不过气。
测试模型:
我使用了 72 张图像(全部未参与过之前的训练,因此与其他版本相比应有明显差异)。
我喜欢这个版本生成的有趣横向景观和奇特角色。女孩们的眼睛有时有问题,但我知道原因——这明显是数据集的问题。修复它需要创建一个全新的模型。
过去三个月,我深受冷漠困扰,但我逐渐理解了一些技术真相。例如:您知道吗,如果您的数据集中哪怕只有一张质量存疑的图片,其余所有完美图像几乎也起不到任何正面作用?劣质的会拖垮优质的。神经网络永远不会忘记它见过的东西,一旦存在可疑内容,它就会出现在每一次生成中。因此,即使我们拥有一些看似不错的图像,最终仍会得到平庸的结果,因为某些由艺术家刻意绘制的元素,可能意外变成每次生成都会出现的瑕疵。
数据集越大,风险越高。您永远无法预知训练中某张图片隐藏着什么缺陷。但图像数量决定了事物可以被绘制的多样性。我可以一直哲学式地讨论下去,但就此打住。
顺便一提,我原本打算发布一个用于 Pony 的版本——它确实能生成有趣的结果,但 Pony 可能需要比 Illustrious 更大的数据集,因此我会等到数据集真正令人印象深刻时再发布。
如果您读到这里,谢谢您。
我想借此机会宣传我的 Telegram 频道:t.me/pip_inastall_r
我很希望能与欣赏我作品的人交流,还有什么比便捷的即时通讯工具更好的地方呢?如果有人加入,我会频繁分享各种资料——甚至可能分享数据集(如果足够多人感兴趣)。
尝试生成小尺寸图像——对我而言效果极佳。
版本 6.3
我使用数据集 v4 和 v5 训练了这个版本,但最重要的是,我想为自己学习一些新东西。我没有采用常规的 12 个 epoch 和 1 次重复,而是反其道而行之:1 个 epoch 和 12 次重复。结果让我个人非常满意——似乎 epoch 的泛化并没有带来提升,最终输出看起来不像数据集的复制品,尽管数据集只有 723 张图像。
为以防万一,我推荐使用我的生成参数:Euler_a、simple、检查点:PlantMilkSuite_walnut。步数可选,但通常越多越好,不过对我来说 26 步通常已足够。CFG 可能依赖于模型,但对于我最爱的模型,CFG 4 最佳。如果您想添加自己的 LoRA,请三思——它是否经过任何平滑处理?像素可能在模糊压力下完全消失。如果该 LoRA 会破坏像素,最好避免使用。
另外,我需要指出,尽管您可以在任何检查点上激活 LoRA,但我遇到的大多数 LoRA 与我的模型不兼容。请记住这一点。
对于在提示词中使用艺术家标签的人,这些标签很可能也会模糊您的图像。最好的解决方案是完全避免艺术家标签。我的提示词建议:以 "pixpix, 8-bit, pixel_art" 开头,以 "masterpiece" 结尾——这样图像才能保持锐利,像素不会消失。
现在,谈一个对我来说更敏感的话题。根据 CivitAI 的数据,我的模型似乎像酵母一样在快速增长。我有很多实现和进一步开发的想法,但其中涉及许多细节,我现在就来谈谈。
首先,我快被速度慢得疯了,如果您有人愿意提供计算能力,请联系我——我会回复每一个人。
其次,我测试了许多基础模型用于训练。相信我,Illustrious 并非像素艺术的最佳模型。我尝试了 SDXL、PONY 和 Illustrious,发现:
Pony 是一个令人着迷的案例——或许它对世界的理解不够完美,但其艺术输出令人印象深刻,其最大优势在于吸收素材的能力极强。Pony 是最接近“游戏开发”领域的模型,这一点至关重要。当然,在 NSFW 内容上,Pony 远远落后于 Illustrious。Illustrious 擅长动漫和角色,但在背景绘制上不如 Pony。
至于 SDXL?我都不知道该拿它怎么办了。它对我来说太复杂了,老实说,我不知道如何使用它。我或许只是随便上传一下——您可以自己试试玩。
顺便说一句,如果您有人用我的 LoRA 发布作品,我会极其感激。这对我很重要——这样我才能看到我们共同取得了什么成就。我自己获得好结果是一回事,但您也应该能获得好结果才对。不过,有一半情况下生成效果并不理想。也许是因为我只发布了自己生成结果中前 10% 的作品?谁知道呢。
这次训练我没有特定目标,比如“为游戏图形训练”。我只是想拼凑一组图像,提炼出像素艺术的精髓。但这个主题的发展远远超出了我的预期。我对这个问题的理解或许能解决整个 AI 生成像素艺术的难题,但正如我所说,我缺乏硬件来摆脱绝望。
我目前的模型之所以存在,仅仅是因为我曾经幸运地从朋友那里买到了大约 20,000 buzz。因此,我现在所有模型都在 CivitAI 上训练,但即使是最小的训练也要花费 500 buzz,这相当昂贵。而我想测试的东西太多了。
最令人心酸的是,我无法上传超过 1,000 张图片到网站进行训练。这只能通过切换到本地训练来解决,所以如果有人愿意帮忙——请联系我。也许我可以借助您的资源来训练。
请务必在模型下方留下您的评论——我很重视,尤其是对当前模型状态的批判性反馈。
有人给我发了一个用于 ComfyUI 的自定义节点链接。我试用了他们的工具,虽然比我的更消耗资源,但技术上功能更多,只是设置更复杂。我认为在这个领域有大量节点可选,您不必局限于现成的工具。例如,我喜欢实验,有时用 GPT 聊天来创建自己的工具,这极其有用,尤其在排序或自动化任务中。关键是理解其背后的算法。
https://github.com/HSDHCdev/ComfyUI-AI-Pixel-Art-Enhancer/tree/main
以下内容对使用旧版本的人可能有用——至少理论上如此。为免遗漏,我仍保留这些信息,即使它们看起来像在囤积过时材料。
如果我的模型对您无效,可能有多种原因——可能是您选择的模型、ComfyUI 设置错误,或 Forge/Automatic 安装损坏。在留下负面评价前,我建议至少重启一次电脑。您可能不信,但这曾经帮我解决了 VAE 解码问题。
如果您遇到具体且严重的问题,请在评论中提及。任何问题都能解决。此外,您的提示词和反向提示词对结果有决定性影响。
您甚至可以直接在模型下方上传您的输出图像,让我看看您的结果有多糟糕。幸运的是,CivitAI 允许您下载图像并从我的角度分享完整工作流,这可能就足以诊断问题。我有点着迷了——所以我每天都会查看我的模型页面,了解进展。
版本 5.0
抱歉,我真心太懒了,过不了这种生活。让我告诉你们,所有发布的艺术品都是用 WD TAGGER 节点制作的。
我有很多话要说。至少,我专门为自己制作了一个适用于像素需求的自定义节点,它在 ComfyUI 中完美协助我进行像素化(当然,我的节点不改变颜色数量,但若有必要,您可以自行进行后续处理)。
我完全忘了提:请使用这三个触发词:pixpix、8-bit、pixel_art。
没有它们,您的 LoRA 可能完全无效。
我在这里直接留下节点链接:https://civitai.com/articles/17203
我相信它的简洁性将使其不可或缺。
我爱 PlantMilkSuite_walnut 模型。
我推荐使用 Euler_a 采样器和 simple 调度器。
但真正让我沸腾的是……
想象一下,使用“LoRA”方法训练像素艺术,就像只改动模型的一小部分。我没有改变模型应有的理解方式。尽管我展示的许多结果看似有趣,但模型本身仍保留其原有知识,训练中的像素并未完全取代无关内容。模型原有的知识残留仍足够多,以至于它会尝试在眼睛中画圆圈和线条,让眼睛看起来更像“眼睛”而非像素艺术。总体很难描述,但我的核心困境如下:
我拥有一个极其庞大的数据集,需要手动修剪。但即使完成这项任务,也无法改变我始终在 CivitAI 上训练的事实——该网站根本不允许我上传超过 1,000 张图像。从技术上讲,唯一能拯救我的方法是本地训练或租用服务器,但我是个穷光蛋,只靠热情和一个执念在运转。为了给您一个概念,我拥有一台 AMD RX 6750,12GB 显存。生成一张图像需要 1 到 2.5 分钟。我甚至尝试在这样的硬件上运行本地训练,但担心唯有升级电脑才能带来任何成果。
诚实地讲,在深入训练主题的过程中,我了解到很多有趣的事。例如,有一种叫“微调”的训练方法。这对我而言根本无法实现,但我希望当我拥有硬件时,能找到愿意帮助我掌握这一强大工具的人。如果真能实现——如果我能重新训练整个模型的所有模块、层,并触及每一个像素——我就能创造出更强大、对所有人开放的东西。
我知道这种话或许不该大声说出来,但有一种东西叫“Retro Diffusion”。我对它无话可说,除了它有 Aseprite 插件,以及一堆我连做梦都想不到的功能和技巧。我唯一想说的是,它的服务贵得离谱(65 美元?!)。尽管我花费了如此多的精力和神经,我还是想先帮助过去的自己。我接触神经网络,纯粹是因为我曾想制作一款像素风格的游戏。而现在,我已经到了可以训练、猜测利用当前限制下的漏洞,并真诚相信:只要我努力赚钱购买新硬件(靠自己的汗水、泪水和坚持),未来我将比任何人都能取得更好的成果。
为免遗漏,我告诉你们,这个版本的训练只包含 257 张全新图像,这将使本版本与其它版本显著不同。此外,Alpha 和 Dim 均设为 64,因此 LoRA 本身就必须足够强大。
除此之外,我找到了一种在 CivitAI 框架内极大降低训练成本的方法,因此这个模型对我极为重要。所需做的,仅仅是将图像裁剪至不超过 1984 像素即可。
别害怕尝试;我有时会以较低的影响水平测试随机的LoRA模型。像0.1到0.3这样的值不会过度破坏像素图像,但可以为画面增添你需要的氛围。
顺便说一句,有人告诉我第4版中有关艺术家姓名的标签运行良好。如果你在第5版及更新版本中遇到问题,我深表歉意。我从未考虑过这类功能,从技术上讲,我也不完全明白如何使用它们。
我理解Forge和Automatic用户的困扰,因为对你们我无话可说。我无法使用这些界面,因此无法提供任何建议。
抱歉描述得这么混乱——太累了,没力气整理。下面的旧笔记或许对仍在使用旧版本的你有帮助。
------------------------------------------------------------------------------------------------------
我强烈建议尝试使用8位标记进行生成。起初我觉得哪里不太对劲,但实际上它确实有助于生成。不过,这里的问题更多关乎你的目标,以及你是否需要这样的图形。
我对以下参数的结果感到满意:
euler_a
sgm_uniform
step: 36
模型:PlantMilkSuite_walnut 或 WAI-NSFW-illustrious-SDXL
训练数据集由像素等于8x8的画作组成。这一点很重要,因为如果你需要“完美”的像素,我建议先进行0.125的缩放(如果你使用的是百分比操作,则为12.5%),然后再缩放至8.000,这样像素才能恢复其真实形态。缩放时请使用最近邻方法。
令我惊讶的是,即使不使用与像素相关的词汇,模型也能生成像素。它的运作方式是:“pixel_art”这个词会激发模型以它所理解的像素艺术风格进行绘制,但事实上,我并没有教过模型像素艺术。我在训练中仅指定了触发词“pixpix”,而我个人甚至不需要在提示词中写入它,只要LoRA被启用,它就有效。
像“Pixel_art”这样的词仍能帮助神经网络更容易完成工作,因为像素艺术常有的轮廓和限制会自然显现。
如果我对你要求太多,我深表歉意。请尽可能多地使用我的模型创作并发布作品。留下评论,告诉我你不满意的地方,以及你希望看到什么。我会倾听你所有的意见,并为你的任何作品感到高兴。我欣赏你的活跃,因为这让我拥有更多测试机会。
我真心希望能为你提供一个通用工具,而没有你们的支持,要引发关注将耗费太多精力与时间。
接下来的计划:测试、测试、再测试。各种参数可能对训练都有用。我甚至还没来得及描述训练材料中发生的情况。唉,唉,唉。我甚至不确定这是否真的有必要。
版本 4.0
此版本以数据量极为广泛为特点,包含488张图像。目前状态已能展示出有价值的结果。然而,我试图从另一个角度审视这个版本。不同于以往逐步提升dim和alpha参数的旧策略,本版本中我将参数调整为alpha 32 x dim 48。这是否足以实现模型目标?我难以回答,因为我没有特定的现实任务需求。因此,我不会限制自己或你使用这个LoRA模型。
版本 3.1
为验证某些想法,我推出了这个版本。它的独特之处在于数据集与先前版本完全不同,风格也真正有所差异,这一点非常重要。不过老实说,我不确定为何在一半情况下像素化表现异常,无法达到我期望的水平(我原以为这次能实现目标,但结果似乎并非如此)。只有时间能证明我的做法是否合理。请和我一起评估这个本质上全新(但仍是测试)的风格。顺便说,建议使用我指定的所有触发词。无论如何,我已取得了不错的效果。
为什么我称它为3.1?因为它比其他版本更随意地创建。
版本 3
我尽可能修正了数据集;处理280张图像并不容易(其中错误不少)。这项工作的目标是拓展模型的潜力。你喂给模型的脸部越多,它重复绘制相同内容的可能性就越低。随后,我决定再添加一些作品;不久后我发现显著差异。第二个LoRA版本不仅包含像素化,还有受限的调色板。版本3不仅在此方面不同,某些地方还更明亮、更丰富。无论如何,视觉风格已发生变化——请自行决定你更喜欢哪一个。
我尝试减缓训练速度、更改噪声偏移、提高dim,但不敢改动alpha。我正在探索各种可能的解决方案,以解决像素为何不愿保持像素化、反而变得模糊的问题。我最担心的是导师的话,他认为神经网络无法记住一张图片超过一兆像素的信息。他可能是对的。如果是这样,我们就必须在小于1024x1024的作品上进行训练,因为1024x1024相乘后是1,048,576,而1兆像素等于1,000,000像素。在这种狭窄的格式下,我们必须付出巨大努力才能充分训练神经网络。而我手头高质量的像素艺术资源并不多。
与你在CivitAI上找到的许多其他像素模型不同,我的模型具备明确的像素艺术遵循规则,但遗憾的是,我尚未有精力去研究“抖动”(Dithering)的控制。目前它只会随机出现。我坚信,它完全可以像轮廓的有无那样被精确控制;但现阶段,模型更偏好轮廓。
版本 2
我将数据集扩展至281张图像(第一版只有大约50张)。可能生成的多样性大幅提升,但像素仍不完美。你知道吗?我打算彻底审查数据集中的所有图像,因为在我看来,问题可能隐藏在细微的瑕疵中。如果其中一张图像存在轻微渐变或损坏的像素,整个训练过程就可能被毁掉。但更令我恐惧的是,我还没找到类似“pixelate+”的工具。例如,在paint.net中有一个“pixelate+”效果,其像素化方法极佳,图像几乎原封不动就能完美像素化。而我至今未能找到Comfy中类似的工具。如果你像我一样使用RESIZE方法,那我得告诉你一个坏消息——这个方法并不理想。至少在我的测试中是如此。你们的环境可能不同,实际情况或许对你们非常理想。
版本 1(测试)
坦白说,它并没有达到我预期在下一版本中实现的效果。
你可以等待版本2发布,它会比当前版本更出色。
如果你不被以上描述吓退,那么请知道:这个测试LoRA很奇怪,训练过度,它更倾向于绘制训练数据中的内容,而非契合文本提示,请记住这一点。
在使用过程中,你将频繁遇到剑、奇怪的书、复活节岛石像,最重要的是:GigaChad(甚至女孩都可能获得他的面部特征,但这是不可控的——至少我没去尝试过)。




















