SDXL - Majestic Plastic Bag

详情

模型描述

致敬《美国美人》中真正的明星。我已经爱上这个网站的自动标签系统,它完全搞不懂这到底是什么鬼。

即将进入TL;DR,提前预警。

最初,这只是为了测试训练过程中会发生什么:需要什么样的数据集、图片质量(在这种情况下非常糟糕)、步数、什么让模型灵活或僵化等等。

经过一段时间,并使用基础模型输出的结果后,效果越来越好,直到我最终得到一个能完美生成漂浮塑料袋的模型——这完全不可接受。

20张图片 - 相同背景 - 低质量拍摄 - 650步 = 极度僵化,但非常贴近训练数据。即使没有提示,它也会自动添加砖墙、树叶和混凝土地板。有趣的是,车的型号/年代恰好符合电影拍摄的时代背景。不过我对普通老式美国车并不熟悉。

20张图片 + 10张更高品质的AI生成图片 - 1250步 = 更加灵活,但开始偏离原本意图。仍偏向于阴天时布满砖墙的街景。

诸如此类……持续了相当长一段时间。

我之所以不使用那些实际上会用于后续提示的图片来训练模型,是因为这有可能扼杀随机性。如果我之前训练“装甲”模型时,只用一张明确显示“一只重型装甲猫”的图片,那么每次你想要装甲猫时,模型几乎都会固执地偏向这张图,导致整体灵活性大大降低。但反过来,如果AI根本不知道你想要什么,有时反而有益。

我在最初发布的一个模型(Square Hammer)中就观察到了这一点:只有一张带月亮的图,一张带蝙蝠的图,但这些图片根本没有标注“月亮的照片”或“蝙蝠的照片”,模型却非常热衷于添加这些东西。虽然可以通过在负面提示中加入这些词来抵消,但这样做有点麻烦。

如果你训练一个关于“看起来像果冻豆的xxx”的概念,并在仅15张图片的数据集中加入一张外表像果冻豆的女性照片,其余14张是AI完全无法理解的、看起来像果冻豆的东西,那么模型会极度偏向于生成女性图像。图片的数量和多样性很重要,步数也同样关键——通常图片越多,所需步数也越多。

损失率是另一个因素。关于它是否重要,众说纷纭。我认为它重要,但最终取决于你的目标。仅根据我的观察:

  • 15张图片,高质量拍摄,低损失率(如0.144)——只需少量步数即可完成,但即使在600步后也极度僵化。
  • 15张图片,无标注,模型已知的概念,中等损失率(如0.444)——可能需要2000步,更灵活,但容易偏离核心概念。
  • 15张图片,无标注,模型完全不理解的概念,高损失率(0.945)——需要荒谬多的步数,或者步数多少都无济于事,成功几率极低……但训练仍会捕捉到某些东西,也许只是微弱的一丝迹象,最终导向你意想不到的结果。

不过,我确实依赖SDXL自身解读某些内容的能力。在我看来,意外的结果才是最棒的。当然,如果你追求的是非常具体的东西,比如一个必须完全符合你设想的角色或概念,那又是另一回事,通常也更容易实现。

以上大部分都只是基于推测和观察。影响结果的因素太多,任何一个都可能决定成败。如果你深入研究一下,就会发现,就连开发AI模型及其整个系统的人,也未必真正理解自己创造的东西是如何运作的,或者它到底能做什么(这里指的是整个AI架构,而非你可以下载的某个具体模型)。

好吧,享受你那随机漂浮的塑料袋吧。

此模型生成的图像

未找到图像。