ReDefine-Experimental

详情

下载文件

模型描述

注意:“实验性”意味着实验性。

版本 0.31

基础模型已从纯NAI2更改为合并模型。NAI2对提示的响应行为与通用SD1.5模型有很大不同。此举略微缩小了差距,同时也使得处理之前模型难以应对的提示成为可能。然而,仍存在一些完全难以处理的提示,因此它并非万能模型。

●采样器

推荐使用Euler a,但部分示例图像使用了Restart.lab采样器。最初,我寻找一种方法以使用Kohaku_lonyu_yog,因为在Blackwell上无法在A1111中使用它,因此引入了此方案。这是一种在采样步骤中间添加噪声并重新处理的采样器,它首先使用t2i正常渲染,然后从中间开始重复使用i2i生成。它并非无条件改善图像,但由于重启条件可任意设定,我认为值得引入。此外,使用Restart.lab采样器时,可以使用Euler a和Kohaku_LoNyu_Yog等算法设置重启。

https://yukitoki.blogspot.com/2023/12/webui-1111restartlabstable-diffusion.html

●输出分辨率

此次,我重新回到仅使用低分辨率512x768像素。这是因为输出速度快,缺陷更容易观察。从根本上说,ReDef系列追求的高分辨率与数据的定义相关,并非旨在输出大尺寸图像,而是包含更详细的信息。若选择大尺寸图像,将无法利用大部分数据所基于的512x512像素的学习内容,构图往往也会受限。在NAI2系列中,1024像素曾作为演示输出,但并不实用,因此将被弃用。

●质量提示

由于没有替代方案,我基于NAI2示例使用质量提示生成样本图像。然而,这有时会导致图像破裂。若提示对多人无效等情况,请调整质量提示。在图像严重崩溃的情况下,削弱质量提示常可解决问题。

版本 0.3(基于NAI2)

我曾为ReDef系列的第三个版本制作了多个原型,但每次都在发布前匆忙修改方向并重新开始。本次版本基于NovelAI v2,仅使用NAI2作为ckpt。

所有样本均为1024x1536像素(非HiRes.Fix),使用Euler a采样器输出20步,CFG比例为7。

ReDef系列原本旨在实现高分辨率输出。用于附加数据的LoRA最大尺寸约为1280像素,因此先前模型仅能支持至约640x960。由于基础模型不支持1024x1536,必须准备更多数据。

由于NAI2基于1024分辨率,本次仅使用NAI2进行尝试。当前完成度不高,数据仍显不足,但已确认其可作为基础模型使用。

存在的问题:

  • 无法与LCM正常配合确认
  • 质量提示是必需的

我个人不太喜欢,但总体而言,大多数人不会有问题(我以NAI2样本为参考,详情请见样本)。

NAI2的提示忠实度较低。未来需基于与现有模型的融合。手指和身体稳定性是永恒的问题。


版本 0.21SR

这是0.2版本的改进版,将常用(且有一定效果)的提示和所谓的负向嵌入(TI)合并入模型(二者作用相同)。

●提示合并

将提示转换为TI并合并入模型。本次仅包含正向提示,但负向提示也可用相同方式处理。对于大量使用装饰性质量提示的用户意义不大,但能提升简单提示的表达真实感。

●负向嵌入合并

TI的使用并不总是有效,此处我整合了相对无害的FastNegativeV2。我们也尝试过BadHand或UnrealDream等,但个人感觉效果并不理想。

这些略微提升了身体稳定性,尽管手指改善较细微,但有时能生成明显优美的手部。大脸型有所改善,但中远距离的面部表情未变或略有恶化,提示忠实度略有下降。总体而言,虽然图像更稳定,但更容易出现呆板、静止等乏味画面。

本次仅合并了±1.0,但通过调整似乎能更有效地使用。提示的“烧入”效果明显强于LECO和iLECO的概念强化(概念擦除尚未验证),未来我计划以基于概念的LoRA组替代它。

与先前样本一样,使用LCM LoRA进行7步低分辨率输出。


版本 0.2SR

这是一个半写实测试模型。与0.1版本不同,它基于多个模型的合并。许多组件与0.1版本相同,但结构更简单。新增元素中,仅有一种正在实际验证。两种新素材因未达到预期效果而未采纳,我将重新调整。

输出方式与前一版本相同,使用LCM LoRA进行7步(或8步)低分辨率输出。身体结构、手指及中距离面部稳定性不如0.1版本。此外,有时会出现过多NSFW元素。存在一些调整失误,这归因于增加了真人身体结构强化素材,而全身服装相关的素材则严重不足。


版本 0.1

这是近期我进行实验的一个模型示例。

所有样本均为7步低分辨率输出,使用LCM。

你也许会问,我是否仍在开发SD1.5?答案是肯定的,我仍在不断发现新可能。尽管格式存在局限,但可能性仍在扩展。

然而,即使推进到元素级别,仅靠合并也有其局限,而完整微调成本高昂,况且现在正值夏季。因此,本次实验的目的,是通过LoRA的额外学习,重新定义SD1.5中的人体结构。

本次模型展示了我所创建LoRA的测试过程,但并非最终版本。测试基于RM01等模型,并验证了新LoRA的效果。

除使图像变“可爱”的LoRA(本测试主题之一)外,我对面部或整体色彩几乎未做调整。仅因背景意外偏离,添加了少量BGEnhace,其余唯一操作是使用辅助LoRA将RM01图像转为动漫风格。

身体结构有时会严重崩溃。尽管本项目主要聚焦于改善手指,但积极学习困难角度也带来了若干负面效应。目前似乎仍缺乏足够的学习素材。

虽然男性形象并非完全不会出现,但预期中不应显示男性。无论场景是风景还是其他,女性形象总是会出现。

本次使用了约4000张图像。与完整微调相比,图像数量较少,但其中许多显示元素均为新学习内容。我可称其为“训练模型”,因此已在相应平台注册。此外,我还收集了数万张使用EtudeFT等工具的图像,计划对其进行分类、转换为LoRA、调整并整合至基础模型。本次我使用通用的RM01作为基础模型,同时也在为不同用途(如动漫绘图、照片)原型化专用的基础模型。

许多LoRA是以DoLAs(LyCORIS)形式创建的,本次我在准确合并LyCORIS时遇到较大困难。最终,我进行了11次拆分与合并,获得了相似结果。由于合并次数过多,图像细节也出现了一定退化。

此模型生成的图像

未找到图像。