Pony V7 base

详情

下载文件

模型描述

Pony V7 是一个基于 AuraFlow 架构的多功能角色生成模型。它支持多种风格和物种类型(人形、兽形、野生形等),并通过自然语言提示处理角色互动。

虚构作品

首先,让我向您介绍 Fictional —— 我们的多模态平台,AI 角色通过文字、图像、语音(以及即将推出的视频)活了起来。由 PonyV7、V6、Chroma、Seedream 4 等先进模型驱动,Fictional 让您能够发现、创建并互动那些拥有自己生活与故事的角色。

Fictional 同时也是推动如 V7 等模型开发的基础。如果您对多模态 AI 角色的未来充满期待,请在 iOS 或 Android 上下载 Fictional,帮助塑造我们的未来!

iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app

联系我们

如果您对 Fictional 和 Pony 模型有任何疑问,请加入我们的 Discord 服务器。

重要模型信息

很抱歉让您久等了,自 V6 发布以来,图像生成模型的格局发生了巨大变化。请查阅 这篇文章,了解为何 V7 及后续模型的发布耗时如此之久。

模型提示

该模型支持广泛的风格与美学,但提供了一个倾向性默认提示模板:

特殊标签,图像的事实描述,图像的风格描述,附加内容标签

特殊标签

score_X, style_cluster_x, source_X - 警告:V7 的提示可能不稳定,请参阅文章,我们正在开发 V7.1 来解决此问题。

图像的事实描述

对图像中所描绘内容的描述,不包含任何风格性指示。两个建议:

  • 在进入细节之前,先用一个短语描述您希望在图像中呈现的内容

  • 提及角色时使用格式:

<物种> <性别> <名称> 来自 <来源>

例如:“兽形兔子女性 Lola Bunny 来自《空中大灌篮》”。

该模型能够识别许多知名及冷门的角色和系列。

图像的风格描述

关于图像媒介、拍摄类型、光线等的任何信息(更多详情待 Captioning Colab 发布)。

标签

V7 在自然语言提示和标签的混合数据上进行了训练,能够理解两者。因此,大多数情况下使用正常语言描述预期结果即可,不过您也可以在主提示后添加一些标签以增强效果。

Captioning Colab

为了更好地理解 V7 的提示方式,我们即将发布一个包含 V7 所有 Captioning 模型的 Captioning Colab。

待定(下周)

支持的推理设置

V7 支持 768px 至 1536px 的分辨率。建议在推理时使用更高分辨率,并至少设置 30 步。

与 V6 相比的亮点

  • 对提示的理解能力大幅提升,尤其在空间信息和多个角色方面

  • 背景支持显著增强——无论是背景生成还是角色与背景的结合

  • 原生具备更强的写实能力

  • 能够生成极暗或极亮的图像

  • 分辨率最高可达 1536x1536 像素

  • 扩展的角色识别能力(部分 V6 中能识别的角色可能识别率下降,但整体知识库大幅扩展)

特别感谢

技术细节

该模型在约 1000 万张经过美学评级并从超过 3000 万张图像中精选出的图像上进行了训练,动漫/卡通/兽迷/小马数据集比例约为 1:1,安全/适度/明确评级比例也约为 1:1。所有图像均被人工标注并配有高质量详细说明。

所有图像在训练中均使用了其标注和标签。艺术家姓名已被移除,源数据根据我们的“选择加入/退出”计划进行了筛选,所有不当的明确内容均已过滤。

局限性

  • 该模型不支持文本生成,其文本生成能力相比基础 AuraFlow 有所下降

  • 特殊标签(包括质量标签)的表现相比 V6 弱得多,例如 score_9 在某些提示下未必产生更好结果。我们正在开发 V7.1 来改进这一点

  • 小细节,尤其是面部,可能因艺术风格而显著退化,这是由于过时的 VAE 和训练不足所致,我们正在 V7.1 中努力改善

LoRA 训练

我们推荐使用 SimpleTuner 进行 LoRA 训练,并参考 此指南

请耐心等待 diffusers 支持、Comfy 工作流和训练指南的发布。

下载(预计 10 月 24 日上线)

Diffusers

Safetensor

GGUF:待定

Comfy 工作流:待定

商业 API

我们通过独家合作伙伴 FAL.ai 提供 商业 API

许可证

本模型采用 Pony 许可证 授权。

简而言之,除非您提供推理服务或应用、公司年收入超过 100 万美元,或用于专业视频制作,否则您可以商业使用本模型及其输出。如您使用 官方商业 API,则不受上述限制。

如需商业使用本模型,请发送邮件至 [email protected] 联系我们。

CivitAiHugging Face 已获得明确的商业推理授权。

此模型生成的图像

未找到图像。