AnySomniumXL
详情
下载文件
关于此版本
模型描述
[自豪推出 AnySomniumXL v3,一款 SDXL 模型]
您可以通过 Ko-Fi 支持我
本 SDXL 模型采用 2D(卡通风格)训练,基于基础 SDXL 模型(SDXL Base v1.0),并辅以文本编码器训练,以生成符合自然语言描述的 2D 风格,同时避免产生 SDXL Base 原有的写实风格。
该模型使用了来自多种来源的超过 133,000 张精选图像进行训练。数据集通过筛选图像构建:仅保留美学评分在 17 至 50 之间(为保持卡通风格而非过于写实,评分基于我们专有的美学评分机制)的图像,并剔除带有文字或水印(如签名、漫画/动漫图像)的图像。因此,美学评分低于 17 或高于 50 的图像,以及带有水印或文字的图像,均被排除。
AnySomniumXL v3 技术规格:
每个 Epoch 训练 16 次(结果基于 AnySomniumXL 使用 Epoch 16)
由专有多模态 LLM 进行标注,优于 LLaVA
使用 1280x1280 的桶尺寸进行训练
打乱标签:是
Clip Skip:2
使用 2 块 NVIDIA A100 80GB 进行训练
本数据集的构建技术结合了 CLIP 模型与 christophschuhmann 的 MLP 评分方法,并经我们修改,使用 VIT-L/14 生成 -1 至 100 的美学评分,并添加了我们自主研发的水印检测功能。
成就:
✓ 默认即可生成更多符合自然语言描述的 2D 模型,无需过多使用正向或负向提示词
✓ 在无 adetailer 或修复功能的情况下,生成的手指质量普遍优于平均 Stable Diffusion 模型
✓ 无需负向提示词即可生成更真实的 2D 风格
✓ 不会生成带有随机水印或文字的图像
局限性:
✓ 人物手持武器或物品时的姿势偶尔不够准确
✓ 仍需更广泛的数据集进行训练
✓ 文本编码器仍存在一些缺陷,有改进空间
✓ 无法正确生成文字
✓ 该模型针对人类或变异人类优化,非人类题材(如 SCP、小马等)可能无法达到预期效果
AnySomniumXL v3 使用建议:
由于 AnySomniumXL v3 在 1280x1280 分辨率下训练,其在多方面比例可能与标准 SDXL 模型不同。
最佳分辨率(可自由切换横竖版):
1280x1280
1472x1088
1152x1408
1536x1024
1856x832
1024x1600
更多版本将陆续发布,采用更广泛的数据集和训练更好的文本编码器。我们的目标是为训练创建最大规模、最洁净的数据集。建议在 Automatic1111 WebUI 上使用本模型。





