NeoSD

详情

下载文件

模型描述

概述

本次完整微调旨在从根本上改进 SD1.5 模型,涵盖多角色展示、姿态多样性、稳定的身体结构以及附加信息。

基础模型为融合了 NAI2 元素的动漫风格模型,我计划通过数千张图像的多次小规模微调,逐步迭代至版本 1。我打算先创建若干基础模型作为原材料,随后改进学习方法,最终合并并调整它们。

虽部分支持高分辨率输出,但强烈不建议使用。

尽管未特别说明,所有样本均为通过 LCM 输出的低分辨率图像。

注意:由于这是 SD1.5,使用前请先明确你想要的输出内容。在许多情况下,质量提示反而是一种干扰。

目前我拥有五种微调材料,暂不再使用新的微调模型材料。我将把这些五种材料与现有材料结合,探索新的模型。

Qwen 的输出并不特别有趣,但稳定且很少出错,因此我计划以 0.3(可能需要扩展)作为基础,辅以 0.4 等 NSFW 元素。

与现有模型结合后,将生成类似 TeatimeDream Neo 的模型。

ver.0.32L

我尝试使用 LoRA 来补偿 0.32 中不稳定的部分。如今动漫图像相对稳定,但由于我在一个 LoRA 中加入了大量角色元素,导致出现了一些额外的 NSFW 元素。这是我在一段时间内一直使用的 LoRA 之一,但因为它是通过爬取 CIVITAI 的动漫图像和标题创建的,NSFW 元素过于强烈。我在使用前调整了层级,但校正时应用得过强,即便如此,部分图像仍不像标准动漫画风。

这并非大问题。理想情况下,应使用多个 LoRA 调整,但这样会产生一些有趣的效果。

ver.0.32

在检查 ver. 0.31 的数据时,我发现部分标题数据完全缺失。

某些图像的扩展名,或更准确地说,所引用文件的格式本身存在错误。我以为已修正了这些字符编码相关的小问题,但有些部分运行良好,有些部分则完全失效。此外,收敛速度比上次更低。我预计在约 150 轮后会稳定下来,但此处提取的是第 90 轮的数据。

令人失望的是,基础问题并未明显改善,质量也未见提升,但本版本修正了之前数据中的错误。

Ver. 0.31

上次我提到,0.3 系列主要基于 Qwen-image 的输出作为基础模型。然而,由于 0.3 的图像资源极少(即使改变种子,Qwen-image 的图像几乎不变),我增加了更多资源,重新构建了基础模型,从而诞生了 0.31 版本。虽然稳定,但 Qwen 图像略显单调,我尝试加入了一些变化。

事实上,0.3 版本曾以空前的收敛速度训练,但引入更多资源后,反而比预期更不稳定,身体结构和手指变得相当不稳定。

更意外的是,图像本身也不稳定。我原本希望产出稳定的动漫图像,但有时却呈现出半写实风格。尝试移除如“杰作”、“最佳质量”等提示词(在某些情况下,反而添加它们可能更好)。这可能是基础模型或标题仍存在遗留问题所致。

因此,0.32 和 0.33 版本的发布可能已提上日程。

尽管如此,我认为 0.31 是一种能作为 SD1.5 基础模型材料、生成此前未见过图像的模型。但由于它在微调后尚未调整完善,不建议单独使用。

与以往一样,此样本为原生 512x768 像素的 LCM 输出。中距离面部显然应使用 HiRes.Fix 或 Adetailer 处理,但本次未作任何处理。


ver.0.5

这是一个动作幅度较大的模型。尽管收敛情况尚可,但图像不稳定,最终训练了 100 轮。

ver.0.4

本版本使用了不同于以往的材料和更多图像,约使用了 10,000 张图像,训练了 60 轮。

学习收敛速度较慢,影响了身体结构和细节表现,但一旦效果正确,便能产出优美的图像。其材料源自与 0.1 和 0.2 相近的系列,因此产出图像风格类似。

它对不同提示的响应有明显优劣,可能具有一些特殊倾向。由于主要作为材料使用,我将在合并时考虑其如何利用。

ver.0.3

本模型基于 Qwen-image 的输出。此前有更早版本,但带有近乎可笑的 Qwen 风格,甚至连 SFW 元素都如此。0.3 版本本身已剔除这些元素,因此 Qwen 风格有所减弱。本次由于 Qwen 环境问题,VAE 出现故障,导致手指精度和色彩还原质量下降。但我仍认为,它作为 SD1.5 的新素材并不算差。

ver.0.1+0.2K

简单的调整未能让图像显得可爱,于是我加入了一些可爱的 LoRA(我通常不使用,因副作用强烈)。若效果良好,可直接使用,但手指及其他部分容易出错。是否应仅在 Adetailer 中应用于面部?(是否只需直接发布该 LoRA 即可?)

ver.0.1+0.2

合并示例。此为 ver.0.1 的构图与 ver.0.2 的角色及绘画风格的结合,轻度应用我常用的 LoRA 工具。我专注于中距离面部细节与背景,仅打磨了部分粗糙边缘,但认为已足够正常使用。

ver.0.2_38

本版本使用了与 ver.0.1 完全不同的材料系列(尽管存在大量相似图像)。我认为本版本在角色和动漫插画方面更稳定,但姿态多样性不如 ver.0.1。


ver.0.1_41

虽然表现尚可,但我认为 100 轮训练过度,因此以 41 轮重新制作了此版本,修订了材料并更改了标题。为降低轮次,我将材料数量增加了 1.5 倍(约 4,500 张图像),并尝试统一动漫艺术风格。细节略显粗糙,手指略不稳定,但面部细节可通过 HiRes.Fix 或 LoRA 轻松修正,应无大碍。是否需要更多轮次?相反,增加轮次时,身体结构似乎更容易变得不稳定。


ver.0.1

这是完全微调 100 轮后的动漫风格模型输出,是我第二个完整的微调模型。

相比第一次尝试,它更稳定,但整体完成度仍不足。或许通过合并调整会更好,但我将先尝试单独微调一段时间。

回顾过去,我不禁疑惑为何 EtudeFT 如此困难。或许问题出在基础模型本身。

此模型生成的图像

未找到图像。