DALL-E 3-like Girls

详情

模型描述

数据集中的图像使用了非常简单的基于标签的提示进行标注,据我经验,这些提示在生成时在一定程度上解决了Qwen Image的低种子方差问题,即使使用基于标签的提示也是如此。

生成:

无需触发词。

非常简单的基于标签的提示示例:

detailed, two girls, tongue out, smile, night rave

数据集中常见的、可替换进提示中的更有用的提示词:

tongue out, puckered lips, laying down, on back, on stomach, ring light, asian, latina, african, 3d, animation

强烈推荐的设置:

  • 我建议你对每一个你喜欢的提示,都尝试使用两种LoRA:一种是训练了3000步的默认版本,另一种是3250步的版本。两者都表现良好,且差异明显。

  • 在提示中使用 detailed 总是更好的。

  • 生成分辨率为1328x1328总是优于1024x1024。

  • 尝试 euler-simple / euler ancestral-simple / lcm-simple,配合 shift 1/2/3/4。

  • 我在使用4步闪电LoRA构建快速Qwen Image工作流时,发现调整生成设置能轻松改变类似DALL-E 3风格的女孩形象,因此你应该能找到自己喜欢的风格设置。

我的设置:

我实际使用的是 Qwen Image Edit LoRA,它能产生一些更有趣的结果。你可以尝试不同的闪电LoRA版本

1328x1328, 4步, cfg 1, euler-simple, shift 1/2/3.1

我曾进行过少量非闪电模式的测试:2.5 cfg、50步表现尚可;在50步工作流的提示末尾添加官方推荐的 , Ultra HD, 4K, cinematic composition. 字符串也似乎效果不错。

局限性:

某些设置下可能会出现轻微的颗粒感,主要原因是所使用的特定闪电LoRA。

数据集中存在轻微的手部或身体恐怖模糊问题,可能会渗透到生成结果中。

3000步模型有时会出现奇怪的服装或纹身概念渗漏,但我认为该模型的DALL-E 3风格面部效果更好。

根据提示和设置,可能会出现某些液体洒在身体上的奇怪效果(尤其在1024x1024像素下),这可能源于一些未被完全标注的独特图像。

训练信息:

使用 ai-toolkit,配合此官方教程及其设置,学习率为0.0002,训练3500步。3500步会使LoRA过度训练,而3000步和3250步的检查点效果最佳。

约100张图像,大部分为1024x1024,使用简单的基于标签的标注。

如果你发现了有趣的生成设置组合,请在下方评论区分享!

此模型生成的图像

未找到图像。