Yellow Pearl AND Blue Pearl (Steven Universe)
详情
下载文件
模型描述
这是一个实验性模型,主要设计用于分析训练如何运作。
目标:理解基于文字的训练是如何工作的。为什么这很重要?我一直只使用触发词进行训练。
你真正需要知道的:
该模型认识两个角色——蓝珍珠和黄珍珠。我仅用这两个词训练了模型。
数据集中包含了它们分别和一起出现的图像。不知为何,模型有时会随机在一张图像中同时出现两个角色的元素。例如,你可能只想展示蓝珍珠,但她却穿上了黄珍珠的服装,或者黄珍珠莫名其妙地出现在背景中,而你并不希望如此。此外,我曾使用过“2girls”标签,但黄珍珠仍会以某种原因出现在背景中。这能通过文字修正吗?可能可以。我尚未对负面提示进行太多测试。
我保留数据集供下载,以便你自行分析。
我将提供该模型在CivitAI上训练的截图,如果你将来想训练一个或多个角色的模型,这些截图可能非常有用。
接下来,我会谈谈训练过程以及我本该怎么做。这种自我分析对你若想训练模型也可能有帮助。
由于我仅向模型指定了角色的名字,而未说明任何独特服装,你可以假设:若未指定服装,角色的衣着将随机生成。从技术上讲,你可能会得到校服,因为它们出现在训练集中,但大多数情况下,你会得到他们卡通中的传统服饰。如果我当时为他们的传统服装添加至少一两个标签,训练过程将会更加可控,但可能需要我手动写出这些词,因为提示中未包含这些词反而可能产生负面影响。不过我们可能永远无法得知了,因为当前版本已符合我的需求——我并不想再花500到700次计算资源去重新训练。
说实话,我已经训练过不少模型,但并未发布很多,因为其中很多都包含大多数人不愿应对的细微问题。
这个模型有其缺陷,但它出色地处理了最有趣的部分——风格多样性。由于我使用了相当大的数据集进行训练,幸运的是几乎所有图像都具有不同的风格,这帮助模型避免陷入单一风格。模型会记住相似性,如果某种风格在10次中出现了5次,它可能就不太容易简单地引入某个精美的LoRA。
最后,我给你一些想到的建议:
教会模型它还不知道的东西。它已经知道斗篷是什么样子,以及如何在风中飘动,但例如,你角色的角可能非常独特——你最好明确标注出来。模型会记住它看到的一切。我特别喜欢我亲爱的Almaz留给我的例子:这个人的名字就叫Almaz,这非常有力。但无论如何,如果你用1000张火柴盒图像训练模型,每根火柴都是彩色的,但仅有一张图中有一根是黑色的——模型就会记住那根黑色火柴。如果你没有标注颜色,模型就会持续为你生成黑色火柴,因为它记得一切。如果你训练时包含瑕疵,尤其是当你的角色是生成的,那就要敬畏神明——你只会让模型永远记住并绘制那些瑕疵。有时,最好重新思考你的数据集。在某些情况下,我甚至因为质量太差而放弃了某些想法。顺便说一句,质量有时确实很重要,有时甚至值得对图像进行上采样。但你需要考虑很多因素。例如,谈到图像分辨率时,你是否思考过训练中指定的分辨率意味着什么?事实是:如果图像大于指定尺寸,就会被压缩。你知道训练过程中使用的压缩方法吗?我个人甚至无法想象,所以如果你担心自己的工作,最好提前自行压缩所有图像。但如果你完全不了解发生了什么,那就干脆随它去。当训练变得更大、对你真正重要时,你自然会开始分析自己的错误。
我可以谈论更多训练中重要的参数,但也许最好为此专门设立一个部分。
哦,我差点忘了——角色胸前的宝石是一个独特元素。将其纳入训练本可能带来不同效果,并增加更多可控性,但我太懒了。:y
不用说,神经网络已经知道如何在没有你帮助的情况下脱掉角色的衣服。除非你的图像包含诸如胎记等独特元素,否则你无需专门教它绘制裸露的胸部。请记住,要获得一致的生成结果,你必须使用相同的提示——这意味着每个独特特征都是生成时的标记(token)。而标记通常不是无限的。或者,也许我忽略了什么,其实用100到200个词生成完全没有问题。
























