WoolyFlux Alpha
详情
下载文件
关于此版本
模型描述
这是对以下研究的延续 https://civitai.com/articles/6792,使用我自己的数据集和方法。
我正在致力于创建一份关于 Flux 标注的更新指南,本工作是其中的一部分,将涵盖更细致的训练方法。
但目前,对于感兴趣的人,我将简要介绍我正在探索的方向以及我所取得的结果。
首先,似乎存在一个关于数据集中哪部分最重要的误解。许多人认为,不使用任何标注或仅使用简短触发词进行训练是最有效的方法,并且唯一真正提升效果的方式是堆叠更多高质量图像。
但实际上,我发现这种方法反而更容易导致过拟合,尤其是在重复使用的情况下。
这个想法几个月前始于 SDXL 时期,当时 WarAnakin 与我分享了他在这方面的研究结果。他通过多次反复试验发现,过拟合的主要原因并非图像过于相似,而是即使图像差异巨大,只要数据集中存在某张图像与另一张图像的标注相同或高度近似,就会对结果产生更直接、更显著的影响。
自此之后,我一直在 SDXL 上尝试各种不同方法,发现尽管 SDXL 相比 SD1.5 难以训练,但其结果显著提升,与模型中已有的现有数据契合度更高。
简单来说,与其在经典意义上使用重复,或完全随机地应用标注丢弃和标注打乱,我们的思路是借助工具(如 ChatGPT)为每张图像生成更多样化的标注版本,并为这些新标注创建对应的图像副本。
具体而言,我们会构建一个子集:一部分是无标注的图像副本,一部分仅含触发词,一部分使用标签标注,还有一部分使用自然语言描述标注。
在这个实验中,我们更进一步。
如果我们把数据集限制为仅 20 张独特图像,但为每张图像生成约 30 种不同标注(而不是 3 种),会发生什么?
于是,我们就来到了这里。经过 20 个周期后,我测试了哪些周期的生成结果最符合提示词、风格保持最稳定,发现第 7 个和第 16 个周期的组合效果最佳。
然而,这里有一个小问题:虽然结果令人鼓舞,但实验远未结束,而且我目前是使用 CIVITAI 的在线训练器进行的。因此,虽然我可以在本地训练,但为了更可控地继续这项研究,我希望将此资源设为“早期访问”,通过一次性的少量“点赞”交换来支持,直到达成目标,使研究能持续下去——至少我是这么想的。但我似乎没有获得设置该选项的权限。
下一步计划是扩展数据集,涵盖更多主题,例如将图像总数从 20 张增加到 40 张,但这次将覆盖更多人物、动物和物体。













