AstolfoMix-SD2
详情
下载文件
关于此版本
模型描述
AstolfoMix-SD2
15个模型(12个UNET + 4个CLIP)的异构融合。详情请参见这篇文章。在“半官方发布”前,可前往HuggingFace模型页面预览。本版本内容/理论不重复SD1版本的内容,以下内容专属于SD2。
摘要
我推出AstolfoMix-SD2,这是一个专注于“打造一个实用的SD2.1模型”的融合模型,此前SD2及其微调变体(尤其是WD1.5)的历史可谓灾难性。当前它为动漫风格。她不是Astolfo,但依然如此可爱!
引言
SD2.1是验证原创理念的最佳试验场。SD2及其所有微调模型(尤其是WD1.5)的整个历史是一场彻头彻尾的悲剧。如果我的融合结果能从一堆完全无用的模型中衍生出合理的效果,我将发现更多独到的成果,并更接近真相。
相关研究
自WD1.5B2起,我认为问题出在“训练器缺陷”与“A1111运行时缺陷”上。那个时代的大多数模型都无法生成任何合理图像,除非使用演示案例中提及的提示词。截至231231,我已无法复现同一张图(2303年生成的)。除Replicant-V3.0及其变体外,即便是PonyDiffusion,我也无法用演示提示生成任何合理图像(多数用户并未察觉,因为他们是定向用户)。因此,必然存在改进空间。
尽管此前已有类似tryhard融合尝试过类似思路,但效果怪异(后来我发现必须包含某些关键提示),且确实存在来自父模型的实质性改进。一定有某些严重缺陷被混入了融合体,导致最终模型对概念理解能力极差。
方法论
与SD1“即使随机选取模型也能工作”不同,(谨慎的)模型选择是一个NP困难(O(N!))问题。然而,通过视觉检查进行模式识别(因总数仍为23),问题被简化为核心概念:“Replicant-V3 UNET + WD1.5B3 CLIP”。经过进一步匹配,本版AstolfoMix选出了10个UNet与4个CLIP/TE。
此次我将频繁使用stable-diffusion-webui-model-toolkit,因为需要持续提取并导入UNET/CLIP。它还将模型保存为FP16 safetensors格式——这是通用、可靠且节省磁盘空间的标准格式。目前我已生成80多个模型,数量庞大(O(N) 空间复杂度)
(图像与步骤略去,详见我的完整GitHub页面)我进行了数轮全局对比,逐步缩小模型范围,最终仅选出了已发现的SD2.1模型中的一半。
实验
与SD1版本相同。唯一区别是:我必须调整提示词,因为多数模型都标注为“动漫”或“写实”,AI不会像SD1那样混合风格。 由于实际模型结构差异,我遭遇了运行时错误、整个融合过程评分完全一致、以及持续的图像故障。我尝试了多种变通方案,甚至切换了模型选择。
讨论
与SD1版本相同。v-pred有效。标签问题仍可解决(我反对质量/风格标签,因为它们可能关联大量无关对象,导致基础模型缺乏灵活性。应使用LoRA/嵌入(如badhands/badprompt)来解决此问题)。
结论
直接试试我的模型吧!AstolfoMix仅代表我个人的“模型选择”与“特征提取”。在伟大的SDXL模型到来之前,每个人都可以使用“统一融合”方法创建属于自己的基础模型。同时,如果你没有充足资源,请不要浪费时间在高风险的MBW/微调上。
附录
使用的模型
由于CivitAI不支持表格形式,我重新排序列表如下。
UNets:
_202Artius V2.1 NSFW
_204hakoMayD
_206Mishi Anime
_210Quattro4Merge+i
_211Replicant-V3.0
_221RheaSilvia
_222MuaccaMix
_223hakoMayBoy
_224Hurricane
CLIP:
_213Cool Japan Diffusion 2.1.2
_215WD 1.5 Beta 3
_220Realgar-v2.1
发现的模型
_201AllWorkForkRowk
_203E621 Rising v2
_207NijiDiffusion
_209PVC v4
_212Pony Diffusion
_214WD 1.5 Beta 2
_216YiffAI





