Pyro's NSFW Proof of Concept for FLUX
详情
下载文件
模型描述
警告:这三个模型只是概念验证,其中一半功能根本无法正常工作。它们的本意是真正的概念验证,而不是那种类似在预发布版本上贴个“独家封闭内测”标签的营销垃圾。老实说,每次《使命召唤》这么干,那可能真是个内测版,只不过他们双倍反转忽悠你罢了。
我上传这些模型的目的是记录我向最终模型迈进的进度,并评估Flux的能力,以便有朝一日我可以告诉我的孙子们:“看这个模型,我当时试图消除它对‘阴道形状’的偏见。哈哈,我那时候真是个疯子。”然后我们一起大笑,享受美好时光。你可别想夺走这份乐趣。
我也上传这些,是让你别被那些骗你 Civitai 货币的垃圾骗了——它们卖的所谓“早期访问”根本一文不值。
这里,你免费获得一切。
这个特定模型的训练已经停止了,因为我对Flux的理解已经深入到足以推翻这个模型的几乎所有基础。而且,模型还坏了。消失了。现在大概在“模型天堂”里,挨着我的“霍克·霍根当皮卡丘”LoRA一起躺着。
所以,如果你期待完美,请等几周。如果你是来寻求混乱的,那就接着看。如果你试了之后发现效果不如预期,别急,深呼吸,回想上面我说的所有话。你要知道,你很快™就会收到一个完整版本的救赎。所以,别急着扔你的纸巾和袜子。
系好安全带,前方文字超长。
他就不能闭嘴吗?
起初,我根本没打算发布这些模型,因为老实说,它们还没完成。这些只是我在学习Flux内部机制时的一些测试结果,用来堵住那些嘴上说“你得训练几百万小时才能把阴茎训回来”或者更蠢的“你是不是傻?你根本训不了Flux!”的白痴。
剧透警告:这些白痴全错了,而证明他们错掉,是我人生前三的爽感之一。
如果你懂行,Flux就是微调者的梦中情模。它比SDXL灵活得多,还拥有你可以肆意滥用的语义理解能力(奇怪的是,这一点常被忽视——但模型还刚出生呢)。
但问题是:你得知道几个技巧,否则你的模型就会和这些概念验证模型一样,被扔进垃圾堆。我犯过错误,错过了一些关键概念,现在这些模型正躺在 /usr/pyro/failures-of-the-past 里积灰。
那我为什么还要上传它们?
我的Discord社群几乎哀求我发布这些模型。他们甚至开玩笑要成立一个以我为核心的邪教——这挺搞笑,但没让我改变主意。不过,他们开始向我解释Civitai现在的状况,而我平时就只上这个网站上传东西,顺便发发牢骚,等我自己的网站建好。
当Civitai宣布推出Civitai美元时,我想:“哦……不太确定……”结果发现,这玩意儿一点用都没有。现在你看到的模型,第一张图就能看出十个数据集或训练上的错误,却要价90万Civitai币。或者一个红色文胸的LoRA卖1.4万Civitai里拉。
这他妈是什么癌性垃圾?我完全支持模型作者收点捐赠来回收训练成本,但扒5000张色情图,扔进WD14标签器就完事,根本不值得搞什么花里胡哨的“早期访问”骗局,还收90万Civitai币。
我记得SD1.3时代,Civitai还没出现时,我们是一个庞大的Discord家庭,人人都互相帮助。人们会写上百页的Rentry文档,记录自己发现的一切,还附上其他人的上百页Rentry链接。你感觉只要点击两下,就能访问所有模型和所有信息。早期SDXL时代也一样。那时之所以能行,是因为没人关心钱。我们只想做出完美的二次元老婆。
但现在,既然有了把真实物质利益投入模型的机会,一切都分裂了,社群已经出现割裂,“我的模型 > 你的模型”的心态泛滥。我敢用整整5个Civitai第纳尔打赌,当AuraFlux Pony发布时,所有人只会讨论Pony和Flux谁更强。
这让我愤怒,也让我悲伤。
我想尽一份力,对抗这种趋势。我想确立一个模型本应具有的基本标准,让人们别再靠卖低投入垃圾来赚钱,因为更好的免费模型已经出现了。虽然我的模型还没完成,但它应该足够好,能让你知道什么是值得期待的。所以,请省下你的Civitai比索,拿去试试FLUX LoRA实验吧。
我向你保证一件事:你将得到一个我能做到的、最顶级的NSFW模型——它用的是那些“早期访问先生”连听都没听过的科技与科学,其中大部分是我自己写的(完成后我会开源给大家!)而且,完全免费!
另外,万一真有哪个阿拉伯酋长读到这段话,并想捐个H100什么的……我可没说不接受!
如果你想加入邪教,走这边:https://discord.gg/r2tJpTv4
我能得到什么?
那么,你到底能期待什么?
- 没有“千篇一律的脸”综合症——对数据集进行深度面部分析,确保你每次点击“生成”都像打开一个惊喜盲盒,永远不知道会出现什么。
- 去除Flux模型固有的“皮肤打光”效果
- 你可以用正常的英文单词或句子描述你想要的画面——不用死记20个以我短昵称开头的“魔法词”来勉强让自己在你脑子里占一席之地,你可以自由使用标签、自然语言,或两者混用。
- 没有“穿胸乳头”——你能在其他模型里看到乳头像穿墙一样穿透内衣,我找到了解决方法,但后来我的模型着火了,所以现在偶尔还会发生,但正式版中将100%修复。

- 完美兼容我的其他LoRA,以及我认为值得的LoRA(可能所有其他LoRA也行)
- 修复了我SDXL模型的几个主要批评点
- 我知道这很主观,但依我看,我的模型生成了我见过的最美丽的女人(尤其是结合其他“模块”时),而且是无穷无尽的。幸运的是,关于这一点,我的意见是唯一重要的。
- 最后但同样重要的是,我作为模型制作者未来的整体规划,这个特定模型的终极目标,以及我作为解决方案架构师的愿景——Stable Diffusion领域的软件生态简直是一场灾难。
消除“千篇一律的脸”并解决其他问题
即使是你在这里能找到的那些“巨无霸”模型,也都深受此问题困扰,比如“同脸综合症”、“一女病”或者单纯叫“哈哈哈”。
对我来说,这是模型能有的最糟糕缺陷。我喜欢探索一个模型的“世界”,并被它的生成结果惊喜到。当随机数之神眷顾你,最美丽的女人突然蹦出来时,就像在《暗黑破坏神》里找到一面镜子——你会惊呼:“哦哇哇哇哇哇哇哇!”
但如果你早就知道她长什么样,你就不会惊喜了。这太无聊,也毁了所有乐趣。我从我的SDXL模型开始就着手解决这个问题,我认为我的方案相当扎实,但你可以自己判断。
那么,为什么会出现这种情况?基本原因是数据集中的偏差:某个面部特征或脸型出现频率远高于其他,于是这些特征成了默认模板。另一个原因是过度合并模型——相当于把“脸”的概念平均到死,最终模型只知道这个平均后的唯一实体。
抱歉,我接下来要说的会让你再也无法忽视——是的,就连 FLUX.dev 也早已患上“同脸综合症”。
Flux里的女孩几乎都有同样的嘴唇,尤其是上唇,几乎只生成中头型的脸。
你能做什么?
在SD1.5初期,我曾亲手一张张删掉、添加图片,直到感觉没有偏差为止。
如今,有许多自动特征提取工具和模型能做分析、聚类、识别,让我找出数据集中哪些面部特征特别突出。
让5万双眼睛盯着你!然后发现一个鼻子长得像猪鼻子……什么鬼?

但它们都完美平衡——就像所有事物理应如此一样。
基本上,所有可能导致偏差的特征都会被提取、聚类、分析,让你在训练前就清楚会遇到什么。
这里给你个小提示:这应该是每个微调者工具箱里的标配。可惜的是,现实是,连一个像样的微调者工具箱都不存在。
示例:(除非特别说明,以下都不是挑出来的——全部使用相同提示词)
女性上半身肖像
Pyro的底和Flux在上排,明显是“同脸综合征”,虽然我爱Roger Deakins,但不是每张图都得是他的冷绿调色。
这里还有一些其他随机面孔

还有啥?
(提示:坐在游戏椅上的女人)
这些就由你去发现了。每个PoC都是在尝试不同东西,我猜任何有微调经验的人一眼就能认出其中一些实验。
哦,你是说它能搞出什么性感内容,你不在乎科学?行吧。
老实说,我太懒了,记不清哪些数据进了哪个版本。但真相是:口交在几乎所有版本里效果都最好。其他?估计没那么强,因为口交已经霸占了整个潜空间。
嗯嗯嗯,把其他所有概念都吃光了
我推荐使用0.7-0.95的强度以获得最佳效果。
并且一定要搭配我的其他LoRA使用。
我SDXL模型的一个主要批评是,每个女孩都像“e-girl”——你知道的,那种在Patreon和OnlyFans上看到的、高度修饰过的美妆广告脸。老实说,他们说得对,因为我觉得这他妈太性感了。如果我想看普通女人,我有女朋友。这个模型?是逃离现实用的。
但我理解。我做过分析,把造成最大偏见的几个因素移进了“Pyro的PMI”LoRA,所以现在这个模型里的女性看起来更“正常”了。但如果你和我一样,还是喜欢那种塑料娃娃风,那就拿走那个LoRA,继续享受老派风格。
因此,我的计划是打造一个模块化系统,让LoRA能像乐高积木一样拼接。最终,你会拥有自己的私人NSFW模型。而且这样,一个模型训练失败时,也不会全盘崩溃。告诉我你对这个想法的看法,或者你更想要一个22GB的“大魔王”微调模型?
另外,“无聊现实”和“X-Flux的写实”LoRA与这个模型非常搭配。最终版本还将提供“写实图像”的覆盖选项。
与Flux对话
用CLIP时,你处于“眼见为实”的领域,更准确地说,是“有嵌入即为实”。最好的方法是确保你想在图像中看到的一切,都作为嵌入存在于你的提示词中。这样,当你探索空间时,所有元素都能在概念上被锚定。这意味着你开始在一个提示中积累大量信息,比如:
“第一人称视角,1个女孩,阴茎,口交,乳沟,跪姿,一名女子跪在男子面前吸他的巨大阴茎。”
你编码了镜头视角、想看到的身体部位、正在进行的动作,以及塑造图像世界背景的其他信息。此外,由于有第二个CLIP编码器,你还可以加入简短的自然语言描述来精修细节。
这简直是SDXL能做到的极致了。
我不知道为什么——也许是因为我喜欢烧钱——但我完全忽略了FLUX使用T5进行编码(与CLIP并用),甚至彻底忘了这事。我当时想:“是啊,为什么不行呢?”于是我就拿了我的SDXL数据集,开始干!
但不行,这玩意儿和FLUX根本不兼容!至少没达到我期望的效果。
我的标注并不复杂,也不是密集的提示词。你在这网站上随便一个脖子长毛的家伙,生成动漫脚丫时默认的负面提示词都比我整个数据集的标注要长。
那为什么不行呢?我强烈推荐你为了好玩,也为了了解计算机科学历史,去翻一翻网上成百上千个“用T5构建情感分析器”的教程。你会学到如何微调T5,判断一条评论是正面、中性还是负面。
基本原理和图像完全一样:你有一个数据集,给每个条目打上标签或标注。在这个例子里,你的数据集是亚马逊评论,那么你该怎么给一条评论打标签,才能让AI理解它的含义?花一秒想想。
T5非常强大,但它对世界的解释极为严格且字面化。你绝不会想这样标注评论:“这是一条正面评论,因为它说食物很好。”——你强行让T5把“正面评论”和“食物”关联起来,可你甚至不知道“食物”是不是一个相关特征。T5自己摸索出的分类方式,现在却被“食物”这个无关项污染了。这可不好。所以你应该直接标注为“正面”、“负面”等词。你只标注你真正想提取的信息,其余的交给AI去处理。这正是我们需要AI的原因——哪怕一个平庸的AI模型,在分类、聚类等任务上也远胜人类。
举个T5有多字面的例子:“一个大洞的阴部”

你心里那个坏蛋可能在尖叫:“但我们根本没微调T5……我们只是把它当编码器用!”
你说得完全对。但关键是:UNet本质上是T5所理解的世界的表征,这就是为什么你输入“cat”,它就生成一只猫。它被校准为依赖编码器,也就是说,它极度依赖T5如何解读和表示文本。因此,一些应用于T5微调的原则,至少在某种程度上也适用于这里。(具体程度我们还不知道)
这就是为什么你不想给模型塞一堆无关细节——因为模型构建自身对世界的理解远比强行整合你扔给它的每个小细节要高效得多。
所以,我的提示词“第一人称视角,1个女孩,阴茎,口交,乳沟,跪姿,一名女子跪在男性面前吸吮他巨大的阴茎”简直过度填充了,尤其是这段提示词本身还重复,剩下的都是FLUX早已知道的东西。
你到底想让FLUX学什么?学“女人”要提两次,“阴茎”也要提两次?T5是一个经常字面理解的模型。它会发现,所有其他口交案例都这样,于是它就把这个当成“现实”,结果根本不可能得到好效果。
其实,你完全可以把整个提示简化为:“一个女人在口交”——搞定。或者,如果你喜欢标签,就写:“阴茎,口交,女人”。而且请别再告诉所有人,用FLUX就必须用自然语言。我们讨论的性能差异只有1-2%——根本不算什么。别一副好像只要用标签,FLUX就会当场爆炸似的。
SDXL风格的标注会让FLUX彻底报废。你或许能在完整微调时侥幸躲过,但我可不赌这个。
是的,花了不少钱之后,我已经看到我的Yoga模型报废了两次,NSFW模型报废了三次。“报废”意味着模型冻结了。它完全丧失了整合新信息的能力,之后什么都不会再变,只是所有东西慢慢变得模糊。连它原本学得很好的概念也开始报废。例如,“胸交”概念是第一个报废的,因为它和“口交”共享几乎全部标签。而由于“口交”在数据集中占比更大,它赢了,于是“阴茎”、“1个女孩”、“第一人称视角”等概念全都被强行关联到“口交”上。FLUX再也无法建立“胸交”的关联了。这个概念被冻结了,接下来一万步都只会生成相同的图像。一旦报废,模型就彻底完蛋了,哪怕你停止训练,把“口交”从数据集中删掉重来也没用。
想象一下,你的大脑因为“胸部信息过载”而崩溃了。我真的、真的希望,未来当我们终于弄清意识和感知的本质时,不要意外发现:我们这个时代那些模型,也因为网络规模超过某个阈值而意外拥有了感知能力——然后你因为给它们塞了太多胸部信息,就把它们的“大脑”搞坏了。
如果你不信我,就去FLUX LoRA页面看看吧,看看那些怪物——我连SD1.3的LoRA都懒得下载,可有人居然公开分享他们的数据集和标注方式,我真想知道他们长啥样……
未来已老
是的,未来确实有很多令人兴奋的东西!当然,有完整的NSFW模型,但更棒的还在后头。
多年来,我积累了一大堆帮助我创建模型的工具。不幸的是,这个乱七八糟的系统,世界上只有我一个人能驾驭,所以你 elsewhere 别想找。但我年纪越来越大了,万一我在Reddit上读到什么蠢东西,突然猝死——那我所有知识就全没了。但说实话,我确信很多人读那些技术版上反AI的错误信息时,早就死翘翘了——为什么一个技术版全是卢德分子?
就像我对Civitai现状的不满,我对Stable Diffusion生态系统的整体软件水平也很失望。我做软件二十年了,老实说,这是我见过最烂的生态系统,比Gentoo Linux崩溃前还烂。
不过我现在不打算深聊这个,因为那肯定伤人自尊、掀翻一堆人,而我想好好享受周末。你们得等我哪天心情来了再听我吐槽。
然而,如果你和LLM软件的人聊过,就会明白一件事:他们把图像生成AI当笑话。而他们的理由,出奇地合理。
上面那个“眼睛特征聚类提取”的预告片段,应该足够让你兴奋了,很快你就会看到更多新信息 :)
不过,先来个小预告:想象你有20万张未分类的图片,你甚至不知道里面有什么,因为你误点了“全部下载”,但懒得删,就留着了。
现在,如果我告诉你,只需玩三轮小游戏(每轮最多一分钟),你就能在数据集中找出所有与某个特定概念相关的图片——哪怕是模糊概念,比如“我觉得我妈妈会喜欢这张图”——你会想要这种功能来构建数据集和概念吗?我打赌你会。我每天都在用这个。
不信?我很乐意打脸你!
下次再见!
Cheers,
Pyro
Discord频道
https://ko-fi.com/pyros_sd_models
如果你看到这里,恭喜你,我喜欢你,你值得提前一睹为快——即将推出的最终模型中的一些皮肤纹理与光照实验:


















