ThinkDiffusionXL
详情
下载文件
模型描述
ThinkDiffusionXL (TDXL)
ThinkDiffusionXL 是我们致力于打造一款顶级模型的成果,它能实现令人惊叹的写实效果,同时具备足够的多样性,无需成为提示词大师,也能生成各种风格和主题的高质量图像。
您可以在 ThinkDiffusion 上直接找到预加载的该模型。
如果您对它感到满意,请留下评价,这将鼓励我们继续创作并改进它。
模型工作细节
数据来源:TDXL 在超过 10,000 张涵盖写实、数字艺术、动漫等多样图像上进行训练。数据集中最小分辨率为 1365x2048,但许多图像的分辨率高达 4622x6753。整个数据集总计占用 42GB。
训练过程:我们进行了 180 万步的训练。作为对比,Juggernaut 为 60 万步,RealVisXL 为 34.8 万步。
人工标注图像:每张图像均经过人工精心标注,显著提升了模型在极简提示下生成精准、高质量结果的能力。
NSFW 能力:模型包含 1,000 多张经过精心筛选的 NSFW 图像。
我们的想法
细节与质量:大多数现实类 XL 模型在细节表现上存在缺陷,尤其是在背景以及眼睛、牙齿、皮肤等基本特征上。我们相信,TDXL 凭借其庞大且高质量的数据集,在这些方面表现更优。相比之下,Juggernaut 的图像素材量约为 TDXL 的一半,而 RealVisXL 仅有 1,700 张图像。最终,TDXL 拥有远超它们的“知识量”。
更低的偏见:我们确保每种风格、性别等类别使用的图像数量均衡。在过去几个月测试的其他模型中,普遍存在某种偏见,例如偏向肖像拍摄、性别偏见、特定种族偏好等。例如,Juggernaut 在特写镜头方面存在偏见,且其电影式光影效果极为突出;RealVisXL 也偏向肖像拍摄。而 TDXL 可以按您所愿生成:风景、中景、全身、特写、肖像、侧面、背面、动态镜头、电影感……无论您需要什么,都不会因为模型偏见而被固定导向某一方向。
通用基础模型:得益于其庞大且均衡的高质量数据集,TDXL 可作为未来微调训练的基础模型。您可以在此基础上朝完全不同的方向进行微调,添加 LoRA 补充缺失概念,或使用更多均衡高质量数据进行额外训练。










