DALL-E 3-like Girls
详情
下载文件
模型描述
数据集中的图像使用了非常简单的基于标签的提示进行标注,据我经验,这些提示在生成时在一定程度上解决了Qwen Image的低种子方差问题,即使使用基于标签的提示也是如此。
生成:
无需触发词。
非常简单的基于标签的提示示例:
detailed, two girls, tongue out, smile, night rave
数据集中常见的、可替换进提示中的更有用的提示词:
tongue out, puckered lips, laying down, on back, on stomach, ring light, asian, latina, african, 3d, animation
强烈推荐的设置:
我建议你对每一个你喜欢的提示,都尝试使用两种LoRA:一种是训练了3000步的默认版本,另一种是3250步的版本。两者都表现良好,且差异明显。
在提示中使用
detailed总是更好的。生成分辨率为1328x1328总是优于1024x1024。
尝试 euler-simple / euler ancestral-simple / lcm-simple,配合 shift 1/2/3/4。
我在使用4步闪电LoRA构建快速Qwen Image工作流时,发现调整生成设置能轻松改变类似DALL-E 3风格的女孩形象,因此你应该能找到自己喜欢的风格设置。
我的设置:
我实际使用的是 Qwen Image Edit LoRA,它能产生一些更有趣的结果。你可以尝试不同的闪电LoRA版本。
1328x1328, 4步, cfg 1, euler-simple, shift 1/2/3.1
我曾进行过少量非闪电模式的测试:2.5 cfg、50步表现尚可;在50步工作流的提示末尾添加官方推荐的 , Ultra HD, 4K, cinematic composition. 字符串也似乎效果不错。
局限性:
某些设置下可能会出现轻微的颗粒感,主要原因是所使用的特定闪电LoRA。
数据集中存在轻微的手部或身体恐怖模糊问题,可能会渗透到生成结果中。
3000步模型有时会出现奇怪的服装或纹身概念渗漏,但我认为该模型的DALL-E 3风格面部效果更好。
根据提示和设置,可能会出现某些液体洒在身体上的奇怪效果(尤其在1024x1024像素下),这可能源于一些未被完全标注的独特图像。
训练信息:
使用 ai-toolkit,配合此官方教程及其设置,学习率为0.0002,训练3500步。3500步会使LoRA过度训练,而3000步和3250步的检查点效果最佳。
约100张图像,大部分为1024x1024,使用简单的基于标签的标注。
如果你发现了有趣的生成设置组合,请在下方评论区分享!












