Chroma - Cinematic Atmosphere

详情

模型描述

V2.0

新增了约一百张图片,尝试通过多种主题、光线、构图和视角进行平衡。由于我希望它更具电影感,因此在更接近电影宽高比的设置下(取决于具体参数)能生成更佳的图像。

此外,由于这是一个对结果影响极大的因素,我使用了经过修改的 T5-Encoder。与其他声称更宽松但实际几乎无效的训练文本编码器不同,这个编码器能显著改变图像(即使使用相同的种子和设置)。这是一把双刃剑:它在生成过程中似乎比标准 T5 更少遇到问题,能更紧密地遵循正向和负向提示,因而更具灵活性,但也需要更谨慎地编写提示,以避免引入一些奇怪的伪影。我提这一点是因为你可能得不到相同的结果。

另一点,至少据我理解,这也是其他人 LoRA 的情况:如果 LoRA 没有在包含特定主题、艺术风格、类别标记等的数据集上训练过,那么除非你的提示中至少包含一个能触发该 LoRA 效果的词,否则它对输出毫无影响。由于我的大多数 LoRA 都没有类别标记,你可能需要在提示中加入类似“电影感”、“电影剧照”等词汇,或让提示本身“隐约”偏向电影风格。像 SDXL 这样的模型对此不太敏感,因为其文本编码器通常与图像一同训练;但基于 Flux 的模型仅训练 UNET 时,词元的嵌入仅停留在表面层次。

仍有一些地方需要修复和补充。


部分训练图像来自专业摄影 LoRA,但我希望将它们独立出来。目前尚未完成,调整 CFG 和步数涉及太多试错。我原本并未计划以当前状态发布,但它是一个我可以在此基础上继续完善的基座。我可能会偶尔使用它,以观察其不足之处——而这些不足确实不少。

根据提示和设置的不同,它倾向于生成低分辨率和模糊的图像。

90% 的图像并非来自电影,而是我主观认为具有“电影感”的图片,例如在视角和构图上。其中也包括一些我认为符合要求的插画和绘画作品。

此模型生成的图像

未找到图像。