FluffyRock
详情
下载文件
关于此版本
模型描述
基于Flux的FluffyRock继任者目前正在训练中。早期检查点在无审查、全自然语言模型领域展现出巨大潜力。
Chroma
[ e233-terminal-snr-vpred-e206 是原始vpred训练系列的最后一个版本。我将其放在这里以求“完整”。该vpred模型有一些更新的检查点,训练中有一些不同之处(我忘了具体改了什么)。如果Civitai允许,我稍后会尝试上传e257-terminal-snr-vpred-e11。 ]
[ 有一些更新的FR模型,特别是“minsnr”系列,但它们有些“过度处理”,我不推荐用于通用用途,Lodestone建议将其用于模型融合。一如既往,所有这些模型都可以在HF仓库中找到,如果你想尝试的话。 ]
这是部分常见/流行/新型FluffyRock模型的官方Civitai上传。此举主要为了方便其他帖子和模型能正确引用原始模型。
FluffyRock 是一个专注于兽迷题材的模型,对概念和风格有广泛的理解,并支持最高1088x1088的采样。由于正在进行多种不同实验,多个模型分支正在并行训练,每个分支的输出至少会与其它分支略有不同。
存在多个使用不同方法的模型分支。
一旦更新完成,将添加一份各分支及其差异的图表。
此处信息不完整。此内容将最终完善。
当前推荐版本:
我个人认为,vpred模型系列效果越来越好。需要额外设置才能正常使用,详见下文。
目前任何近期的terminal-snr epoch均已相当成熟,各检查点之间的变化不大,仅表现为对低频标签概念理解的逐步提升。
这通常是主观偏好,选择你最喜欢的即可。或与其他模型混合使用。随你所愿。:V
提示词:
使用e621标签,不带下划线,逗号分隔,顺序任意。
艺术家标签使用“by name”格式,不要包含通常存在的“(artist)”字样。
3m之前的模型无法理解元标签。3m之后的模型可能能理解元标签,但我尚未明确测试过。
基础SD1.5的自然语言理解能力基本已被“切除”。目前有多个项目正尝试重建类似于基础SD但更专注于兽迷艺术的自然语言理解能力。这些检查点目前尚不成熟,不适合通用用途,但你可以在Discord线程和HF中找到它们用于测试。
此处展示的大多数示例都几乎没有或完全没有负向提示。
请注意:使用任何FluffyRock vpred模型都需要额外设置:
使用提供的配置文件。
你需要使用cfg重缩放(cfg rescale)。
对于A1111(以及可能的Vlad分支),请使用CFG_Rescale_webui扩展。或者从A1111拉取cfg rescale的PR(除非它已被合并到上游)。希望未来这能成为A1111的内置功能。
在Comfy UI中也有实现方法,但我需要验证后再补充此处信息。
关于Civitai上传:
随着时间推移,将添加更多版本。如果你需要某个特定检查点上传,请留言。当我有时间上传并制作示例图像时,新模型将在此处上传。原始Hugging Face仓库始终为最新版本。
由于我们是一个小型非正式团队,我拥有最多的带宽和时间来维护上传工作。Lodestone Rock 训练了这些模型,其他人也在诸多方面提供了帮助。
由于Civitai的版本字符串长度限制以及网站机制(下载不使用原始上传文件名),检查点文件名与HuggingFace上的原始文件名不同。我已尽量在保持与原始名称足够接近以供识别的前提下,确保不同训练分支的文件名具有唯一性。每个检查点的完整原始文件名可在侧边栏的“关于此模型”中查看。
此处每个模型线的简要说明:
1088-megares:在高达1088px的高清数据集上训练。
在e27时被认为已完成,因性能已趋于稳定,训练重点转向其他分支。
1088-megares-offset-noise:与上述相同,但增加了使用偏移噪声的额外训练轮次。有助于增强图像明暗部分的动态光照范围,例如使暗部更暗。
在e27时被认为已完成,因性能已趋于稳定,训练重点转向其他分支。
1088-megares-offset-noise-3M:与上述相同,但使用了超过300万张图像的更大数据集。能够理解更多概念。
我认为不再继续训练额外检查点,而是将更多时间投入其他分支。
1088-megares-terminal-snr:目标与偏移噪声类似,但技术方法不同。重新调整噪声调度以强制实现零终端SNR。这与下面的vpred分支中进行的其他更改结合使用。
1088-megares-terminal-snr-vpred:于第20-21轮epoch从1088-megares-terminal-snr分叉而来。
这是一个实验性模型,使用v-预测(v-prediction)修复Stable Diffusion 1.5的噪声调度和采样步长缺陷。它通过四种方式实现:
重新调整噪声调度以强制实现零终端SNR。
使用v-预测进行模型训练。
将采样器改为始终从最后一个时间步开始。
重缩放无条件引导(CFG)以防止过度曝光(配置重缩放)。
这些修改基于论文《Common Diffusion Noise Schedules and Sample Steps are Flawed》。
模型实验表明多种可能的改进,包括但不限于:
对提示词的理解提升
更准确的色彩
显著增强的对比度
请注意:使用任何FluffyRock vpred模型都需要额外设置:
需使用配置文件和cfg重缩放。对于A1111(以及可能的Vlad分支),请使用CFG_Rescale_webui扩展或从A1111拉取cfg rescale的PR(除非它已被合并到上游)。
e6laion:另一项实验。
不是任何其他分支的分叉,完全独立。
在由e6、laion和booru组成的混合数据集上训练。它正在重新学习基础SD1.5曾具备的能力。同样使用vpred。仍处于高度实验阶段,训练轮次较少。尚未上传至此处。可从HuggingFace仓库下载。结果可能不稳定。
PolyFur:较新的项目,与e6laion类似,但额外使用了人工精选数据集,目标是重新引入自然语言提示,同时侧重于提升美学效果。
不是任何其他分支的分叉,完全独立。
每轮训练均有所改进,预计将于八月初在此处发布。同样使用vpred。目前即可从HuggingFace仓库下载。
SDXLVAE:对1088-megares-offset-noise-3M的实验性分叉,使用了SDXL VAE。
自动补全:
标签自动补全文件 —— 当前仅覆盖pre-3M数据集。我正在构建新版本,但需要手动校验和修正35,000个冲突标签。
为什么有两个轮次编号?
第一个数字是从训练开始以来的连续轮次。
第二个数字是从该特定分支分叉以来的轮次。
示例:fluffyrock-576-704-832-960-1088-lion-low-lr-e101-terminal-snr-vpred-e74
101:这是1088多分辨率训练开始以来的总轮次。
74:这是从terminal-snr分叉以来在tsnr分支上进行的轮次(vpred很可能在e20-e21时从tsnr分叉)。
故障排除:
输出效果差:
请勿在512x512分辨率下采样。请使用768或更高分辨率。超过1088可能会导致典型的SD1.x高分辨率异常。高分辨率修复及其他类似方法能轻松实现2K+分辨率。
提示一些艺术风格。使用“by [e6艺术家标签,不带下划线]”。为获得更好效果,可提示多个风格。使用A1111的提示词编辑功能创建独特风格效果极佳。
某些标签的概念虽被模型认知,但样本数量过少或样本中存在严重偏差。为该概念训练自定义LoRA通常能有效提升表现。
VPred故障排除:
输出仅为噪点/云雾: 缺少配置文件。
输出太暗: 提高cfg重缩放值。通常0.7-0.9效果最佳。
某些采样器可能无法正常工作,因为cfg重缩放支持尚未完善。请参阅Discord线程获取最新讨论。
训练LoRAs:
此前,e27被推荐为训练目标,因为其结果在当时更容易迁移到其他FR分支。此说法已过时。
根据我的经验,近期任何FR分支训练的LoRA在其他模型分支间均具有不错的可迁移性。但若以你计划采样的模型作为训练目标,效果最有可能最佳。
噪声偏移模型可能需要使用大于0的噪声偏移进行训练才能获得良好效果,但此类LoRA可能在不使用噪声偏移的其他模型上表现不佳。建议从0开始,检查结果。噪声偏移模型现已过时,你更应考虑更新的模型分支。
Terminal-SNR(非vpred)模型无需特殊设置。
vpred需要启用v_参数化进行训练。kohya_ss会警告在v1上使用此参数——忽略它,没人预料到有人会用v-prediction训练SD1.5。
在非vpred的FR模型上训练的LoRA大概率可正常工作。
请在Discord中寻求帮助。
链接与资源:
Hugging Face 仓库 包含所有模型分支的每个版本。完整克隆仓库需要超过1.5TB磁盘空间,已提前警告。
Furry Diffusion Discord服务器 及其 FR线程
LodestoneRock的Patreon 帮助支持他们的训练成本。
许可:WTFPL

由于Civitai的站内生成功能存在故障(至少对这些模型而言),我不得不将商业用途设置为错误值以禁用烦人的“创建”按钮。你可以在生成服务中使用这些模型,我们并不介意,但若它真能正常工作就更好了。:V
目前看来除vpred模型外,其他模型功能已恢复正常。



