AstolfoMix-XL
详情
下载文件
关于此版本
模型描述
AstolfoMix-XL
"256c" 和 "215c" 由多种合并方法组成 (215a "DELLA" 和 215b "Git-Rebasin"),基于257(216)个被发现的SDXL模型(未过滤)。详情请见本文。前往HuggingFace模型页面预览,非“官方发布”前的试用版。本模型内容/理论不会重复SD1版本或SD2版本,以下内容专为SDXL设计。完整文档/资料请见GitHub。
使用 CFG++ / PAG / SEG 组合以获得更清晰的图像。
对于 CivitAI 用户:CFG 3.0,CLIP 跳过 2,默认 VAE。
(215c) 不需要质量标签,但过多标签也不会破坏效果。
(256c) 稍逊于 215c,因为其内容似乎更少聚焦于人类角色。
(255c) 它不会遵循你的提示。它适合作为训练的基础模型。这个模型比 SDXL1.0 更欠拟合。255c 已确认配方错误,且选择了错误的基础模型。
摘要
我推出 AstolfoMix-XL,这是一个专注于“探索合并选项”的合并模型,同时被困于合并流行模型并等待SD3的到来。目前它采用动漫风格。欢迎回来,Astolfo,你真可爱!
引言
AstolfoMix-XL 是我之前模型(SD1 / SD2)的“升级版”合并,旨在发现更多有用的想法,以扩展我的文章,并_复用_互联网上的宝贵内容(和概念)。草垛太大,我无法手动合并。借助专用合并器(如mergekit)自动执行流程且不保存中间模型,我期望它能从训练材料中生成更_通用但高质量_的内容。
相关工作
这很困难。这条学术路线究竟是复兴,还是倒退?
模型合并是集成学习的延伸话题,AI模型存在多种合并算法,且因大语言模型普遍庞大且训练成本过高,正在被正式讨论。许多合并算法已在论文的代码库中提出(DARE),或被遗忘(Git-Rebasin 中的 MergeMany),或未被记录(“旋转”与更多“矩阵运算”),与此同时,专用合并器(mergekit 或 supermerger)正在开发中。
基于一点信念(MDP=AR(1),即大语言模型合并可迁移至SD合并),我进行了大量实验(SD1 作为 ModelSoup,SD2 作为无对齐的模型选择,随后是PR、PR 和 PR,因为公开代码库中尚无实现),加上_一些运气_,我鼓起勇气“完成它”并发布。在几乎没有社区支持的情况下(尤其是大多数模型合并器在 NAI v3 后消失,或被微调热潮掩盖,或意识到MBW理论实际无效,它之所以有效仅因引入了仅通过优化循环调整的参数,而非艺术性),这非常困难。
例如,从 AnythingXL 发布的配方中,我可以解读为:“7个模型的平均值,每个模型占14.2857%,同时将最喜爱的模型加倍,即28.5714%”。而 PonyMagine 成功在自定义配方基础上应用了 DARE。
方法论
合并模型并不玄妙,只是门槛略高(魔改公式)而已。
我将在本平台单独展开讨论,或撰写一篇文章,或参考我在GitHub上的文章(还有这个),或在CivitAI上撰写独立文章(如果尚未完成)。
由于SD模型合并在这一层级缺乏讨论,我只能依靠仔细论证与洞察。通过对“相关工作”的研究(我反复阅读,因其接近机器学习/数学讨论),我预期算法修改将是必要的。
因此,我首先完成了原始实现(耗时数月),最终对继承的数学特性进行了分析。很快我发现,任务向量应被归一化(重缩放的子集),同时符号选择应基于恒等式而非符号运动,因为SD下的MDP如同RNN一样面临梯度问题。
同时,我没有资源去训练模型(硬件/时间/人力或兴趣),甚至无法进行全面评估(如团队 lycoris 和 deepghs)。我唯一能做的,是对模型进行主观的HTP测试,假设它能自然呈现其行为。因此你会看到“一个粉发男孩与一辆车互动,背景随机但充实”。
实验
(215a) 发现的模型、筛选过程、合并脚本(一键端到端!)和387行配方均已生成。
参数搜索
合并算法的参数通过随机从模型池中选取10%的模型(例如从192个中选20个)来观察效果。合并时间减少约20倍,但仍能代表最终结果的估算。
提示词
即使无提示词也有效。质量词真的有必要吗?
我测试过长提示词,效果良好。相反,我发布的多数图像仅由几个词构成,且无负面提示(因为我很少需要排除内容)。然而,当我添加质量标签时,可能产生更差甚至损坏的图像,因为_配方模型因相互矛盾的知识而彼此冲突_。
CFG / STEPS / 附加项
与SD1版本一样宽泛。目前我发现**“CFG 3.0 + PAG 1.0 + mimic 1.0 phi 0.3 + FreeU 默认”效果良好。“48步 Euler”**已足够生成,但我仍偏好256步 + 64高分辨率。
讨论
即使最先进的合并算法也无法从所有模型中学习所有概念,它不应替代训练模型/LoRAs,而更像为后续开发提供基础模型。更好的基础模型因社区误解或短视而被忽视。从SD1/NAIv1走来,我们学到了什么?
令人遗憾的是,或说是“最后一根钉子”,Pony之所以被接受,仅仅因为它具备NSFW能力,压倒了所有技术考量,使资源无法可持续。
我意识到整个过程关注度极低(相比基线模型,图像质量已有显著提升,且“光晕效应”减少),但我必须完成它,以在(艺术)历史中留下印记。我知道无人会关心开源模型的开发,因为激励太低,无论物质支持还是精神支持都极少。Animagine已不复存在,一些著名模型作者或不那么出名的也已离开。
我期望SD社区应,或被迫考虑将成千上万个LoRA重新合并回基础模型,以延续“艺术运动”。将来总有人需要大规模合并LoRA,甚至基础模型,这总得有办法吧。
极端条件下的伪随机性
在255c中,由于对模型权重进行极端归一化,“权重间的噪声”似乎重现,这类似于梯度消失问题在训练轨迹中的表现。这标志着本系列的终结,我本应正确训练模型……而我确实这么做了。终于,合并模型撞上了墙。
结论
新的合并器赋予我能力,继续在大量模型上研究新颖的合并算法,并保持模型结构一致且便捷。当我成功基于不同合并算法生成并测试模型后,我可能会更新本文。
附录
请参阅实验部分的配方。
- 我用于此混合的工作站(合并耗时36.2小时,DGMLA-216峰值内存使用量为1.4463.500TB,随模型总数扩展)。
许可证:Fair AI Public License 1.0-SD
更多详情,请参见ANIMAGINE XL 3.0 / Pony Diffusion V6 XL / NoobAI-XL 的许可证部分。





