AstolfoMix-XL

详情

模型描述

AstolfoMix-XL

"256c" 和 "215c" 由多种合并方法组成 (215a "DELLA" 和 215b "Git-Rebasin"),基于257(216)个被发现的SDXL模型(未过滤)。详情请见本文前往HuggingFace模型页面预览,非“官方发布”前的试用版。本模型内容/理论不会重复SD1版本SD2版本,以下内容专为SDXL设计。完整文档/资料请见GitHub。

  • 使用 CFG++ / PAG / SEG 组合以获得更清晰的图像。

  • 对于 CivitAI 用户:CFG 3.0,CLIP 跳过 2,默认 VAE。

  • (215c) 不需要质量标签,但过多标签也不会破坏效果。

  • (256c) 稍逊于 215c,因为其内容似乎更少聚焦于人类角色。

  • (255c) 它不会遵循你的提示。它适合作为训练的基础模型。这个模型比 SDXL1.0 更欠拟合。255c 已确认配方错误,且选择了错误的基础模型。

摘要

我推出 AstolfoMix-XL,这是一个专注于“探索合并选项”的合并模型,同时被困于合并流行模型并等待SD3的到来。目前它采用动漫风格。欢迎回来,Astolfo,你真可爱!

引言

AstolfoMix-XL 是我之前模型(SD1 / SD2)的“升级版”合并,旨在发现更多有用的想法,以扩展我的文章,并_复用_互联网上的宝贵内容(和概念)。草垛太大,我无法手动合并。借助专用合并器(如mergekit)自动执行流程且不保存中间模型,我期望它能从训练材料中生成更_通用但高质量_的内容。

相关工作

这很困难。这条学术路线究竟是复兴,还是倒退?

模型合并是集成学习的延伸话题,AI模型存在多种合并算法,且因大语言模型普遍庞大且训练成本过高,正在被正式讨论。许多合并算法已在论文的代码库中提出(DARE),或被遗忘(Git-Rebasin 中的 MergeMany),或未被记录(“旋转”与更多“矩阵运算”),与此同时,专用合并器(mergekitsupermerger)正在开发中。

基于一点信念(MDP=AR(1),即大语言模型合并可迁移至SD合并),我进行了大量实验(SD1 作为 ModelSoup,SD2 作为无对齐的模型选择,随后是PRPRPR,因为公开代码库中尚无实现),加上_一些运气_,我鼓起勇气“完成它”并发布。在几乎没有社区支持的情况下(尤其是大多数模型合并器在 NAI v3 后消失,或被微调热潮掩盖,或意识到MBW理论实际无效,它之所以有效仅因引入了仅通过优化循环调整的参数,而非艺术性),这非常困难。

例如,从 AnythingXL 发布的配方中,我可以解读为:“7个模型的平均值,每个模型占14.2857%,同时将最喜爱的模型加倍,即28.5714%”。而 PonyMagine 成功在自定义配方基础上应用了 DARE。

方法论

合并模型并不玄妙,只是门槛略高(魔改公式)而已。

我将在本平台单独展开讨论,或撰写一篇文章,或参考我在GitHub上的文章还有这个),或在CivitAI上撰写独立文章(如果尚未完成)。

由于SD模型合并在这一层级缺乏讨论,我只能依靠仔细论证与洞察。通过对“相关工作”的研究(我反复阅读,因其接近机器学习/数学讨论),我预期算法修改将是必要的

因此,我首先完成了原始实现(耗时数月),最终对继承的数学特性进行了分析。很快我发现,任务向量应被归一化(重缩放的子集),同时符号选择应基于恒等式而非符号运动,因为SD下的MDP如同RNN一样面临梯度问题

同时,我没有资源去训练模型(硬件/时间/人力或兴趣),甚至无法进行全面评估(如团队 lycorisdeepghs)。我唯一能做的,是对模型进行主观的HTP测试,假设它能自然呈现其行为。因此你会看到“一个粉发男孩与一辆车互动,背景随机但充实”。

实验

(215a) 发现的模型、筛选过程、合并脚本(一键端到端!)和387行配方均已生成。

(215b) 合并器的扩展使用。

(215c) 未完成的专用合并器。

参数搜索

合并算法的参数通过随机从模型池中选取10%的模型(例如从192个中选20个)来观察效果。合并时间减少约20倍,但仍能代表最终结果的估算。

提示词

即使无提示词也有效。质量词真的有必要吗?

我测试过长提示词,效果良好。相反,我发布的多数图像仅由几个词构成,且无负面提示(因为我很少需要排除内容)。然而,当我添加质量标签时,可能产生更差甚至损坏的图像,因为_配方模型因相互矛盾的知识而彼此冲突_。

CFG / STEPS / 附加项

SD1版本一样宽泛。目前我发现**“CFG 3.0 + PAG 1.0 + mimic 1.0 phi 0.3 + FreeU 默认”效果良好。“48步 Euler”**已足够生成,但我仍偏好256步 + 64高分辨率。

讨论

即使最先进的合并算法也无法从所有模型中学习所有概念,它不应替代训练模型/LoRAs,而更像为后续开发提供基础模型。更好的基础模型因社区误解或短视而被忽视。从SD1/NAIv1走来,我们学到了什么?

令人遗憾的是,或说是“最后一根钉子”,Pony之所以被接受,仅仅因为它具备NSFW能力,压倒了所有技术考量,使资源无法可持续

我意识到整个过程关注度极低(相比基线模型,图像质量已有显著提升,且“光晕效应”减少),但我必须完成它,以在(艺术)历史中留下印记。我知道无人会关心开源模型的开发,因为激励太低,无论物质支持还是精神支持都极少。Animagine已不复存在,一些著名模型作者不那么出名的也已离开。

我期望SD社区应,或被迫考虑将成千上万个LoRA重新合并回基础模型,以延续“艺术运动”。将来总有人需要大规模合并LoRA,甚至基础模型,这总得有办法吧。

极端条件下的伪随机性

在255c中,由于对模型权重进行极端归一化,“权重间的噪声”似乎重现,这类似于梯度消失问题在训练轨迹中的表现。这标志着本系列的终结,我本应正确训练模型……而我确实这么做了。终于,合并模型撞上了墙。

结论

新的合并器赋予我能力,继续在大量模型上研究新颖的合并算法,并保持模型结构一致且便捷。当我成功基于不同合并算法生成并测试模型后,我可能会更新本文。

附录

请参阅实验部分的配方。

  • 我用于此混合的工作站(合并耗时36.2小时,DGMLA-216峰值内存使用量为1.4463.500TB,随模型总数扩展)。

许可证Fair AI Public License 1.0-SD
更多详情,请参见ANIMAGINE XL 3.0 / Pony Diffusion V6 XL / NoobAI-XL 的许可证部分。

  • 提示:即使模型相似度高达 (1-h),也无法证明你合并或微调了我的模型。请记得使用工具包修复VAE(元数据未被保留)。

  • 提示:我的脚本采用MIT许可证。我很乐意把我的工作站卖给你。

此模型生成的图像

未找到图像。