Humans
详情
下载文件
关于此版本
模型描述
该模型旨在生成普通人的照片级真实图像。大多数SD模型只能生成漂亮的人。这个模型不是那样的。你会看到痤疮、痣、凌乱的头发、歪斜的牙齿、皱纹,以及……普通人的样子。
简版:
有数千个触发词,可在 https://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d 找到,或按频率排序的列表见此处 https://gist.github.com/jaretburkett/41370fdf69b791d2b406f3fa538d4b32。最重要的是“face”这个词。数据集中很大一部分包含人脸,并且都标记为“face”。使用它来获得面部特写,不使用它则通常会生成远景或全身肖像。该模型在处理简单提示以及比普通SD模型更复杂的提示时表现优异。即使使用相同的提示,它也能在每次生成时产生大量不同的人物变化。模型在 [328, 512, 640, 768, 896] 多种长宽比的图像块上训练完成,无需高分辨率修复即可生成这些尺寸的图像。
详版:
数据集: 我已花费大约十年时间构建此数据集,包含约十万张(且持续增长)精心策划、平衡且标注的图像,旨在消除生成式AI模型中的偏见。多年来,该数据集被用于我所开发的多个产品,我决定用它来训练Stable Diffusion。数据集主要包含普通人,但也包含一些漂亮的人。我一直努力使其尽可能贴近普通人群的分布,这一点从该模型生成的图像中应能明显看出。数据集中包含大量人脸,并通过关键词“face”进行标注,以帮助触发或避免面部特写。约一半的数据仅为面部,我正在为版本2增加更多肖像、半身像和全身照以实现平衡。
标注: 标注工作过去部分由人工完成,但近年来主要依靠BLIP2。我创建了一套针对人物照片的自定义关键词列表,用于标注库,补充了标准的BLIP2描述。你可以在 https://gist.github.com/jaretburkett/cf8c224243834172fc13f72aaf49811d 找到该关键词列表。该列表主要借助GPT-4生成,我计划在版本2中手动筛选并改进。我亦计划很快公开我的标注代码,若你熟悉自定义推断器,也可以直接使用。标注过程的核心目标是全面描述人物。大多数SD模型仅能识别“老”、“年轻”、“男人”、“女人”、“发色”和可能的种族。我希望实现更细致的描述:如鼻型、颧骨深度、肤色、国籍、眼型、发型,以及非常微妙的细节——目前我对结果非常满意。该模型现已能识别人类面部的细微特征,这有助于创建嵌入(文本反转),因为模型已掌握如何生成这些面部独特特征,只需通过嵌入触发即可。
下一步计划: 这是版本1,实际上是一个alpha版本。我仍在持续改进,期待版本2能令人震撼。目前我已在训练并优化数据集。当前版本尚不完美,部分细节存在瑕疵:眼睛可能变形,牙齿也可能过于歪斜——这并非我期望的效果。消除这些错误需要时间,我计划持续改进,并为普通人的图像类型增加更多样化的内容。
你现有的LoRA和嵌入: 是的……你在只能生成漂亮人物的模型上训练的“漂亮人”LoRA,在这里不会以相同方式生效。你得到的很可能不是原定人物,而是他们的远房亲戚——这反而很有趣,不妨一试。




















