我认为对于这样一个概念,使用 Z-Image 已经达到了最佳效果。
训练备注:32/32,150 张图像,qwenvl3 非常详细的描述,0.0002
起始强度设为 0.8 左右,如果未看到正确细节则调高,如果出现“问题”则调低。