LuminaYume (Lumina Image 2.0)

详情

模型描述

一、概述

本模型的训练目标不仅是生成逼真的人类图像,还能产出高质量的动漫风格图像。尽管针对特定数据集进行了微调,它仍保留了基础模型的大量知识。

主要特性:

  • 支持使用 Danbooru 标签生成动漫图像

  • 根据提示描述更准确地定位图像中物体的位置

  • 保留了基础模型的大部分原始知识

局限性:

对于 0.1 版本:

  • 图像内部的文本生成仍不准确

  • 输出的图像质量目前为中等水平,可能因提示而异。

  • 通过 Danbooru 标签对特定角色提示的理解有限。

二、模型组件:

  • 文本编码器:预训练的 Gemma-2-2B

  • VAE:来自 Flux.1 dev 的 VAE

  • 图像主干网络Lumina 主干网络的微调版本

  • 在包含以下内容的多样化 3000 万张图像数据集上训练:

    • 动漫图像(使用 Danbooru 标签标注)

    • 真实人物照片

    • 包含文字的图像

    • 具有详细空间注释的图像

三、文件信息

此一体化文件包含 VAE、文本编码器和图像主干网络的权重,完全兼容 ComfyUI 及其他支持自定义流程的系统。

如需通过 Hugging Face 的 diffusers 库使用本模型,请点击 此处 查看详细信息。

四、推荐设置

系统提示

  • 用于动漫(Danbooru 标签):

    • 你是一个高级助手,旨在利用 Danbooru 标签精准引导图像生成过程,根据用户提示生成高质量图像。

    • 你是一个根据用户提示和 Danbooru 标签生成高质量图像的助手。

  • 用于通用场景:

    • 你是一个旨在根据文本提示或用户提示生成具有卓越图文对齐质量图像的助手。

    • 你是一个根据文本提示生成具有最高图文对齐质量的高质量图像的助手。

推荐设置

  • CFG:3–6

  • 采样步数:40–50

  • 采样器:Euler a

五、备注与反馈

这是一个实验性版本,我计划在后续版本中持续改进。
欢迎提供反馈、建议和提示创意——您的支持将帮助我们使其更完善!

除英文提示外,本模型还支持中文和日文提示。

六、致谢

  • 感谢 narugo1992 对数据集的贡献。

  • 感谢 Alpha-VLLM 提供了出色的基座模型架构。

  • 感谢 AngelBottomless 及其团队分享他们关于 Lumina-Illustrious 的实验,这些工作为本项目提供了重要指导。

如果您希望支持我的工作,可通过 Ko-fi 进行捐助!

此模型生成的图像

未找到图像。