SDXL - Majestic Plastic Bag

致敬《美国美人》中真正的明星。我已经爱上这个网站的自动标签系统，它完全搞不懂这到底是什么鬼。

即将进入TL;DR，提前预警。

最初，这只是为了测试训练过程中会发生什么：需要什么样的数据集、图片质量（在这种情况下非常糟糕）、步数、什么让模型灵活或僵化等等。

经过一段时间，并使用基础模型输出的结果后，效果越来越好，直到我最终得到一个能完美生成漂浮塑料袋的模型——这完全不可接受。

20张图片 - 相同背景 - 低质量拍摄 - 650步 = 极度僵化，但非常贴近训练数据。即使没有提示，它也会自动添加砖墙、树叶和混凝土地板。有趣的是，车的型号/年代恰好符合电影拍摄的时代背景。不过我对普通老式美国车并不熟悉。

20张图片 + 10张更高品质的AI生成图片 - 1250步 = 更加灵活，但开始偏离原本意图。仍偏向于阴天时布满砖墙的街景。

诸如此类……持续了相当长一段时间。

我之所以不使用那些实际上会用于后续提示的图片来训练模型，是因为这有可能扼杀随机性。如果我之前训练“装甲”模型时，只用一张明确显示“一只重型装甲猫”的图片，那么每次你想要装甲猫时，模型几乎都会固执地偏向这张图，导致整体灵活性大大降低。但反过来，如果AI根本不知道你想要什么，有时反而有益。

我在最初发布的一个模型（Square Hammer）中就观察到了这一点：只有一张带月亮的图，一张带蝙蝠的图，但这些图片根本没有标注“月亮的照片”或“蝙蝠的照片”，模型却非常热衷于添加这些东西。虽然可以通过在负面提示中加入这些词来抵消，但这样做有点麻烦。

如果你训练一个关于“看起来像果冻豆的xxx”的概念，并在仅15张图片的数据集中加入一张外表像果冻豆的女性照片，其余14张是AI完全无法理解的、看起来像果冻豆的东西，那么模型会极度偏向于生成女性图像。图片的数量和多样性很重要，步数也同样关键——通常图片越多，所需步数也越多。

损失率是另一个因素。关于它是否重要，众说纷纭。我认为它重要，但最终取决于你的目标。仅根据我的观察：

15张图片，高质量拍摄，低损失率（如0.144）——只需少量步数即可完成，但即使在600步后也极度僵化。
15张图片，无标注，模型已知的概念，中等损失率（如0.444）——可能需要2000步，更灵活，但容易偏离核心概念。
15张图片，无标注，模型完全不理解的概念，高损失率（0.945）——需要荒谬多的步数，或者步数多少都无济于事，成功几率极低……但训练仍会捕捉到某些东西，也许只是微弱的一丝迹象，最终导向你意想不到的结果。

不过，我确实依赖SDXL自身解读某些内容的能力。在我看来，意外的结果才是最棒的。当然，如果你追求的是非常具体的东西，比如一个必须完全符合你设想的角色或概念，那又是另一回事，通常也更容易实现。

以上大部分都只是基于推测和观察。影响结果的因素太多，任何一个都可能决定成败。如果你深入研究一下，就会发现，就连开发AI模型及其整个系统的人，也未必真正理解自己创造的东西是如何运作的，或者它到底能做什么（这里指的是整个AI架构，而非你可以下载的某个具体模型）。

好吧，享受你那随机漂浮的塑料袋吧。