AnySomniumXL

详情

模型描述

[自豪推出 AnySomniumXL v3,一款 SDXL 模型]

您可以通过 Ko-Fi 支持我

本 SDXL 模型采用 2D(卡通风格)训练,基于基础 SDXL 模型(SDXL Base v1.0),并辅以文本编码器训练,以生成符合自然语言描述的 2D 风格,同时避免产生 SDXL Base 原有的写实风格。

该模型使用了来自多种来源的超过 133,000 张精选图像进行训练。数据集通过筛选图像构建:仅保留美学评分在 17 至 50 之间(为保持卡通风格而非过于写实,评分基于我们专有的美学评分机制)的图像,并剔除带有文字或水印(如签名、漫画/动漫图像)的图像。因此,美学评分低于 17 或高于 50 的图像,以及带有水印或文字的图像,均被排除。

AnySomniumXL v3 技术规格:

  • 每个 Epoch 训练 16 次(结果基于 AnySomniumXL 使用 Epoch 16)

  • 由专有多模态 LLM 进行标注,优于 LLaVA

  • 使用 1280x1280 的桶尺寸进行训练

  • 打乱标签:是

  • Clip Skip:2

  • 使用 2 块 NVIDIA A100 80GB 进行训练

本数据集的构建技术结合了 CLIP 模型与 christophschuhmann 的 MLP 评分方法,并经我们修改,使用 VIT-L/14 生成 -1 至 100 的美学评分,并添加了我们自主研发的水印检测功能。

成就:

✓ 默认即可生成更多符合自然语言描述的 2D 模型,无需过多使用正向或负向提示词

✓ 在无 adetailer 或修复功能的情况下,生成的手指质量普遍优于平均 Stable Diffusion 模型

✓ 无需负向提示词即可生成更真实的 2D 风格

✓ 不会生成带有随机水印或文字的图像

局限性:

✓ 人物手持武器或物品时的姿势偶尔不够准确

✓ 仍需更广泛的数据集进行训练

✓ 文本编码器仍存在一些缺陷,有改进空间

✓ 无法正确生成文字

✓ 该模型针对人类或变异人类优化,非人类题材(如 SCP、小马等)可能无法达到预期效果

AnySomniumXL v3 使用建议:

由于 AnySomniumXL v3 在 1280x1280 分辨率下训练,其在多方面比例可能与标准 SDXL 模型不同。

最佳分辨率(可自由切换横竖版):

  • 1280x1280

  • 1472x1088

  • 1152x1408

  • 1536x1024

  • 1856x832

  • 1024x1600

更多版本将陆续发布,采用更广泛的数据集和训练更好的文本编码器。我们的目标是为训练创建最大规模、最洁净的数据集。建议在 Automatic1111 WebUI 上使用本模型。

此模型生成的图像

未找到图像。