GAOGAO-LUMINA
详情
下载文件
关于此版本
模型描述
GAOGAO-LUMINA
NETA-LUMINA 的简单微调
它是什么?
简单来说:它基于 NETA-LUMINA 基础模型微调而来,在人工精选的 10,000 张图像上进行训练,这是最终成果。
它能做什么?
与 NETA-lumina 类似,但图像质量稍好,并为画面增添了更多细节。
为什么是 V0.1?
嗯……这很难说。在训练这个模型时,部署在云端的机器报错并失败了。我想我需要一些时间重新开始训练,同时也希望采用更科学、更合理的方法。
如何使用?
一句话概括:使用 1girl/1boy,后接自然语言。但我并不建议单独使用此模型;强烈建议与其他风格 LoRA 结合使用。使用标签在一定程度上有帮助,但无法释放模型的全部潜力。
如果你是第一次使用 NETA-lumina 模型,我建议你查阅 NETA.ART 编写的官方教程。与以往高度依赖标签的 SDXL(ILL/NOOB)或 SD1.5 不同,在 NETA-lumina 中,你的提示词应主要使用自然语言。
此外,这里提供的只是主模型文件,你仍需单独下载 VAE 和 gemma2。
未来计划?
首要目标是发布 1.0 版本。
支持我?
加入 QQ 群 1020622167 一起聊天。
以下是一些碎碎念。这些是关于 NETA-LUMINA 的常识与技巧,大多来自与他人的交流、我的观察以及他人的经验。可能存在不准确之处,欢迎在评论中分享你自己的体验或见解。
NETA-LUMINA 是一个自然语言模型,这意味着它对标签(tags)的支持其实非常低。尽管报告称标签占训练数据近 20%,但实际使用中,模型对标签的支持堪称灾难。一个更合理的解释是:由于 Lumina 使用 Gemma 作为文本编码器,而 Gemma 并非为解析标签而设计,你输入的标签会被 LLM 的分词器切分成极其细碎的短语。
在训练 LoRA 时,你确实可以使用纯标签进行训练,但代价是收敛速度极慢,且质量与投入严重不成比例(如果你非常富有,可以忽略这一点)。
系统提示词是必要的。它更像一个触发词。既然它在基础模型和 LoRA 的训练中始终存在,那么在生成时也没有理由将其移除。
关于艺术家标签,许多艺术家标签不响应或产生负面效果的原因如上所述:LLM 实际上没有这些艺术家名字的专属词元,训练时必然将其拆解。对于某些艺术家标签,它们可能只占用 2–3 个 token,这相对有利于风格拟合,因为分词器不会过度拆解。我的实际观察证实了这一点:token 数越少的艺术家标签,拟合效果越好。反之,一些艺术家标签因占用极长的 token 序列,导致拟合效果极差。
关于知识问题,NETA-LUMINA 实际上拥有广泛的知识,但由于各种原因,这些知识难以被有效调用。根据我的观察,这些权重可能过于混乱,LoRA 应能在这一方面提供帮助。




