NetaYume Lumina (Neta Lumina/Lumina Image 2.0)
详情
下载文件
模型描述
一、简介
NetaYume Lumina 是一个文本到图像模型,基于由 Neta.art Lab 开发的高质量动漫风格图像生成模型 Neta Lumina 进行微调而来。它建立在由上海人工智能实验室的 Alpha-VLLM 团队 发布的开源基础模型 Lumina-Image-2.0 之上。
主要特性:
高质量动漫生成:生成具有清晰轮廓、鲜艳色彩和平滑阴影的详细动漫风格图像。
增强的角色理解:更好地捕捉角色,尤其是来自 Danbooru 数据集的角色,从而实现更连贯、准确的角色表现。
提升精细细节:更清晰地生成配饰、服装纹理、发型和背景元素。
二、信息
关于版本 1.0:
- 该模型基于
neta-lumina-beta-0624-raw版本的 NetaLumina 模型进行微调,使用了一个约一千万张图像的自定义数据集,在 8× NVIDIA B200 GPU 上训练了为期三周。
关于版本 2.0:
本版本包含两个子版本:
版本 2.0:
我将基础模型切换为 Neta Lumina v1,并使用由 e621 和 Danbooru 来源的图像组成的自定义数据集进行训练。该数据集采用多语言标注:30% 的图像使用日语标注,30% 使用中文(其中 50% 采用 Danbooru 风格标签,50% 为自然语言描述),其余 40% 使用自然英文描述。
在标注方面,我使用了 ChatGPT 及其他具备提示优化能力的模型以提升标签质量。此外,我未采用固定的 1024 分辨率训练,而是修改代码以支持多尺度训练,在训练过程中动态调整图像尺寸在 768 至 1536 之间。
备注:目前我仅通过基准测试评估了该模型,因此其完整能力仍有待验证。但根据我的初步测试,该模型在生成分辨率为 1312x2048 的图像时表现优异(详见我提供的示例图像)。
另外,经我测试,此版本的模型可生成最高达 2048x2048 分辨率的图像。
版本 2.0 Plus:
该模型在版本 2.0 的基础上进行微调,使用了更高品质图像的数据集。该数据集中每张图像均附有自然语言描述和 Danbooru 风格标签。
训练流程与版本 2 保持总体一致,但分为三个阶段:
前两个阶段冻结顶部 10 层,分别在 Danbooru 标注子集和自然语言标注子集上独立训练。
最后一阶段解冻所有层,在融合了 Danbooru 和自然语言标注的完整数据集上联合优化。
此版本减少了生成图像中“人工”或“AI感”外观的问题,同时提升了空间理解能力。例如,模型能够根据提示准确将角色置于图像的左侧或右侧(见示例)。此外,它在呈现特定艺术家风格方面也有适度提升。
你可以在此处找到 GGUF 量化版本:https://huggingface.co/Immac/NetaYume-Lumina-Image-2.0-GGUF
版本 3.0:
本版本引入了新的角色知识,并改进了此前无法生成的一些角色(我稍后将提供改进角色列表)。请注意,并非列表中的所有角色都能被生成,因为我旨在保留旧有知识,同时提升文本渲染、解剖结构(使用艺术家风格时,模型有时会产生不准确或不完美的解剖结构)、模型稳定性,以及一些其他秘密优化。
对于图像内文字生成,我推荐使用以下系统提示:“You are an image generation assistant if the prompt includes quoted or labeled on image text render it verbatim preserving spelling punctuation and case.
”,这有助于获得更佳效果。 以下链接为使用本版本生成的艺术风格示例图库:Artist Style Gallery。感谢 @LyloGummy 的贡献。
关于版本 3.5(预训练模型):
本版本为预训练模型(我不确定如何命名,但本质上是 Neta 团队先前工作的延续,基于 Neta Lumina v1.0 模型)。更明确地说,版本 2.0 Plus 和 3.0 均是从该预训练模型微调而来。我的工作流程是选取该预训练模型当时的最佳检查点并进行微调。
在本版本中,我也更新了我的数据集(仅更新 Danbooru 数据集,截至 9 月 3 日 00:00)。新数据集仅包含标签,因为我暂时无人协助验证自然语言提示。
总体而言,我对数据集的改动不大,仅用 Neta 团队的部分数据与旧数据合并更新。因此,模型生成的图像仍保持相似面貌。但如果你使用正确的触发提示,输出结果将有所不同。好消息是,它仍准确保留了所有先前知识(部分反风格已获得改进)。
此外,当前模型的默认风格趋于稳定,解剖结构和文本生成能力优于以往版本。
最后,此模型与我在 Hugging Face 上发布的测试版本不同。
本版本的 Diffusers 格式如下:duongve/NetaYume-Lumina-Image-2.0-Diffusers-v35-pretrained · Hugging Face
三、模型组件:
文本编码器:预训练的 Gemma-2-2B
VAE:来自 Flux.1 dev 的 VAE
图像主干:NetaLumina 主干 的微调版本
四、文件信息
此一体化文件包含 VAE、文本编码器和图像主干的权重,完全兼容 ComfyUI 及其他支持自定义管道的系统。
如仅需下载图像主干,请访问我的 Hugging Face 页面,其中包含分离文件及
.pth文件,便于你用于微调。
五、建议设置
如需更多细节并获得更优效果,请参考 Neta Lumina 提示手册。
六、备注与反馈
本模型为早期实验性微调发布版,我正积极改进未来版本。
您的反馈、建议和创意提示始终受欢迎——每一份贡献都有助于让该模型更出色!
七、如何在其他平台运行模型
您可通过 tensor.art 平台使用本模型。模型链接如下:https://tensor.art/models/898410886899707191
然而,为实现优化运行,我建议使用 tensor.art 的 Comfyflow(因其默认运行器缺乏配置,导致模型运行效果欠佳)。您可在该平台使用以下示例工作流:https://huggingface.co/duongve/NetaYume-Lumina-Image-2.0/blob/main/Lumina_image_v2_tensorart_workflow.json
八、致谢
感谢 narugo1992 对数据集的贡献。
感谢 Alpha-VLLM 和 Neta.art Lab 提供了卓越的基础模型架构。
如您希望支持我的工作,可通过 Ko-fi 进行捐助!




















