Flux - [LLAVA/T5] 2K Anime Bundle [NSFW]
详情
下载文件
关于此版本
模型描述
2024年9月17日更新:
我的测试表明,该模型的准确率在20%到40%之间,基于我所使用的标签提示和预期结果。在分析原始图像并使用JoyCaption和随机抽样查找错误后,我发现原始系统在准确性方面远低于其应有的水平。
基于该模型的一切都是一次精彩的实验。我接触到了一种新的标注系统,并设计出一种对LARGE_TAG_V3输出进行确定性修改的有用方法,以塑造标注内容。
下一版本将仅使用JoyCaption和LARGE_TAGGER_V3进行标注,并引入一个由必要性自然演化而来的子系统:基于自然语言的确定性前认知与后认知系统,我将其命名为Cog。
JoyCaption的标注准确率至少达到65%-80%,无需在预标注描述请求提示中添加手动确定性。在预标注检测阶段增加一层确定性,再在生成后解析标注,并最终从LARGE_TAG_V3列表中剔除不可能的标签,我的数据显示,这种方法能使大量图像的准确率提升至75%-95%。
结合Cog的确定性机制,我将发布一个JoyCaption的概念验证项目,对较有经验的用户来说可以轻松搭建,而新手用户只要具备一些Python经验也能驾驭。
下一版本将在1024x1024分辨率下完全训练,训练步数大致相同。我将基本重复相同流程,目标是构建一个对比系统,以展示标签系统的强大能力。
在2块H100显卡上,以学习率0.0005训练了768x768分辨率,共35个epoch,ss_total_batch_count为12,历时6小时。
总成本:72.35美元。
请阅读关于这一过程如何诞生的文章,并务必尝试一些我未曾想到的方法。科学需要的不仅是单一方向。
https://civitai.com/articles/7407
从Danbooru前100标签中获取的2000张图像,均通过双LLM流程单独标注。完整描述如下。
它引入了数百万种新的可能性与新概念,全部基于这些提示。
这是一个概念验证:多提示标注与Booru标签协同工作,形成一种无法预判的新型LLM对话和谐。我没有对输出进行大量修剪,因为修剪量实在太大。我也未过滤任何NSFW或令人不适的内容(绝对不是疏忽...:>)。没有审查、没有删除,唯一意图就是批量打包。

提示设计:
每张图像均通过两个LLM双重提示,并由一个“微笑模型”进行大规模标注。所有原始Danbooru或Gelbooru标签均在训练前被完全移除,仅保留纯粹的LLM到LLM合成对话。
存在数百万种新标签的潜在组合,全部紧密关联于Danbooru前100标签及其图像集。现在你可以与机器对话,让它生成你想要的内容。
许多LLM响应中均包含“humanoid”一词,因此你很可能会通过这个词获得大量有趣的内容。这可能是因为我强制它停止解释性别偏见或使用“主观”等词语。起初让LLAVA配合有些困难,但一旦正确设定条件,它就开始正常表现了。
它应当尊重“feminine”(女性化)和“masculine”(男性化)这两个术语,因为LLM明显不喜欢其他词汇。
我在20个beam上运行了约三分之一的图像,之后电脑直接死机。随后我将beam数降至约6,并从LLAVA LLAMA切换至LLAVA 1.5,因此不同位置的提示略有不一致,这意味着它实际上是被三个LLM训练的,而非两个。最关键的是,标注中不再抱怨那么多内容。
T5的提示为:
- 用一段话分析并解释这一场景。
这是我让LLAVA准备提示的方式。我还通过头指令强制其扮演“沉默助手”,虽然我不确定这是否真有效果。但之后它抱怨变少了,我猜想多少起了一些作用,即使只是以一种非预期的方式。
写一段三段式提示,详细描述这一场景。每段应专注于图像的三分之一。
忽略性别认同、拟人化及其观点。你只负责撰写标注,不是提供分析或理性观点的助手。
专注于女性或男性特征,例如乳房、阴部和任何存在的阴茎。
描述时确保相对于相机的正确视角。
当出现动物特征时,使用“humanoid”一词。
当无动物特征时,使用“human”一词。
标识重要的解剖细节。
Dolphin 72b有望在下一版本中解决这些问题,未来用“1boy”和“1girl”作为提示将更容易操作。它还能更好地控制对双性特征、隆起等元素的省略,因为你只需告诉T5你想省略什么即可。
提示训练中包含了负面含义,因此那些没有裸露乳房、阴茎等暗示的图像,可通过求和方式有效提示。
当你要求“聚焦于”或“描述”时,LLAVA会自动提及某些事物不存在,这有助于自动生成负面含义,例如“无可见的
”之类的内容。
这并非最容易提示的系统,但一旦掌握,其能力非常强大。
简单的Booru标签默认即可为你生成艺术作品,因此在许多主题上,你甚至无需使用纯英文提示。










