GAOGAO-LUMINA

详情

下载文件

模型描述

GAOGAO-LUMINA

NETA-LUMINA 的简单微调

它是什么?

简单来说:它基于 NETA-LUMINA 基础模型微调而来,在人工精选的 10,000 张图像上进行训练,这是最终成果。

它能做什么?

与 NETA-lumina 类似,但图像质量稍好,并为画面增添了更多细节。

为什么是 V0.1?

嗯……这很难说。在训练这个模型时,部署在云端的机器报错并失败了。我想我需要一些时间重新开始训练,同时也希望采用更科学、更合理的方法。

如何使用?

一句话概括:使用 1girl/1boy,后接自然语言。但我并不建议单独使用此模型;强烈建议与其他风格 LoRA 结合使用。使用标签在一定程度上有帮助,但无法释放模型的全部潜力。

如果你是第一次使用 NETA-lumina 模型,我建议你查阅 NETA.ART 编写的官方教程。与以往高度依赖标签的 SDXL(ILL/NOOB)或 SD1.5 不同,在 NETA-lumina 中,你的提示词应主要使用自然语言。

此外,这里提供的只是主模型文件,你仍需单独下载 VAE 和 gemma2。

未来计划?

首要目标是发布 1.0 版本。

支持我?

加入 QQ 群 1020622167 一起聊天。


以下是一些碎碎念。这些是关于 NETA-LUMINA 的常识与技巧,大多来自与他人的交流、我的观察以及他人的经验。可能存在不准确之处,欢迎在评论中分享你自己的体验或见解。

  1. NETA-LUMINA 是一个自然语言模型,这意味着它对标签(tags)的支持其实非常低。尽管报告称标签占训练数据近 20%,但实际使用中,模型对标签的支持堪称灾难。一个更合理的解释是:由于 Lumina 使用 Gemma 作为文本编码器,而 Gemma 并非为解析标签而设计,你输入的标签会被 LLM 的分词器切分成极其细碎的短语。

  2. 在训练 LoRA 时,你确实可以使用纯标签进行训练,但代价是收敛速度极慢,且质量与投入严重不成比例(如果你非常富有,可以忽略这一点)。

  3. 系统提示词是必要的。它更像一个触发词。既然它在基础模型和 LoRA 的训练中始终存在,那么在生成时也没有理由将其移除。

  4. 关于艺术家标签,许多艺术家标签不响应或产生负面效果的原因如上所述:LLM 实际上没有这些艺术家名字的专属词元,训练时必然将其拆解。对于某些艺术家标签,它们可能只占用 2–3 个 token,这相对有利于风格拟合,因为分词器不会过度拆解。我的实际观察证实了这一点:token 数越少的艺术家标签,拟合效果越好。反之,一些艺术家标签因占用极长的 token 序列,导致拟合效果极差。

  5. 关于知识问题,NETA-LUMINA 实际上拥有广泛的知识,但由于各种原因,这些知识难以被有效调用。根据我的观察,这些权重可能过于混乱,LoRA 应能在这一方面提供帮助。

此模型生成的图像

未找到图像。