ADetailer foot_yolov8x.pt

V3 开发通知

时间：2025年5月11日
大家好，

继近期的一些讨论之后，我想简要更新一下备受期待的V3脚部模型，以及新的手部和面部/头部分割模型的进展。

我知道许多人对此充满期待，而我也同样急切地想把这些模型交到你们手中！以下是目前的进展：

数据集稳固，欢迎补充独特样本：构成V3（以及新手部/面部模型）基础的超过1000张图像的综合数据集已准备就绪。我有信心它涵盖了广泛的情景，以确保强大的检测能力。不过，如果你恰好拥有或知道一些展示独特姿势、角度或构图的图像，认为它们可能有益且当前数据集中代表性不足，请随时分享你的建议！ 我很乐意查看。如果是我遗漏但能提升模型表现的场景，我愿意额外选取并标注几幅精心挑选的图像。尽管当前基础已非常扎实，但多一两个独特的样本不会打乱流程，反而可能进一步优化模型。
标注流程优化以追求精度：在初步尝试了SAM等自动化工具后，我决定为每张图像采用完全手动标注的方式。虽然SAM提供了起点，但高质量分割掩码所需的精度（避免影响背景或留下伪影）意味着逐点手动描边是最有效的方法。这确保了掩码达到尽可能高的准确性，而这正是我在V3中追求质量提升的关键所在。这过程确实繁琐，但至关重要！
细致标注正在进行中：目前，手动标注数据集中每一个脚、手和面部/头部的细节工作已成为我的首要任务。这是一场马拉松，而非短跑，因为每个元素都需要仔细勾勒。
V3脚部模型是优先事项：正如我所提及的，我的承诺是V3脚部分割模型将是我发布的下一个模型。所有LoRA和检查点训练都已暂停，直到V3完成并上传——这正是我全力推进这一细致标注阶段的动力！一旦完整数据集标注完毕，脚部模型将首先进行训练和发布，随后是手部和面部/头部模型。
流程文档正在编写中：对于对细节感兴趣的朋友，我正在详细记录整个过程——从标注工具的艰难配置（真的是一场冒险！）、标注策略，到最终这些yolo-seg模型的训练流程。我希望未来能分享这些信息，或许能为其他进入分割模型训练领域的人提供帮助。

因此，通往V3的旅程已全面展开！这是一个复杂且耗时的项目，尤其在转向高精度分割并扩大范围之后，但我们的目标是交付显著提升、值得等待的模型。

再次感谢你们非凡的耐心与支持。我会继续专注于质量，并在有重大进展时及时分享更新！

V1/V2

感谢 sp00ns 的指南：
训练自定义 Adetailer 模型 | Civitai
我使用 yolov8x 创建了一个自定义脚部模型。

sp00ns 提供的脚部模型很有帮助，但我希望尝试自己制作一个。

ComfyUI 工作流：

我知道许多用户使用 ComfyUI，并在使模型正常工作时遇到困难。因此，我专门为你们重新安装了 ComfyUI，并设计了一个初步的工作流，不仅适用于 v2.0 脚部模型，也适用于手部和面部模型。请自由调整设置以获得最佳效果。只需将下方固定图片拖入你的 ComfyUI 窗口，即可复现生成该图像所使用的精确参数。（我也会将这张图片的固定版本发布在 v2.0 模型页面上）

版本 1.0 和 2.0 是 BBOX 模型，因此请确保将它们放置在 ~\ComfyUI\models\ultralytics\bbox 文件夹中。使用 SAM 模型意味着它实际上可以作为 SEG 模型工作——至少这是我所理解的。此外，请确保安装 FaceDetailer 插件以及 UltralyticsDetectorProvider 节点，以使这一切正常运行。

祝你顺利使用~

版本 1.0：

我曾尝试使用 AutoDistiller 和 Grounded SAM 自动标注这1000张图像，但部分失败了，因为它有时会将手误判为脚。（而且我讨厌 Colab，因为在那里工作总会被提前终止）
因此，我使用 Mac 上的 RectLabel 逐张手动标注，然后在我的 PC 上花费约8小时训练 YOLO 模型。

虽然我原计划训练500个周期，但训练提前结束，系统判定第93个周期为最佳结果。

我加入了大量自己生成的图像，以及一些图库图像：包括动漫、3D模型、写实图像；男女不同肤色；各种穿鞋与赤脚的配置。但仍有某些情况它处理不佳，例如非常规姿势（如旋转90度的图像），以及脚作为画面主体的图像。我猜测，这是因为绝大多数训练图像中脚只占画布的一小部分，因此对脚部特写的训练不足。另一方面，我的初衷是用此模型优化那些容易被忽视的脚部，例如在全身图中脚仅占极小画布空间的情况。

简而言之，此版本在处理站立姿势、尤其是全身图中的脚部时表现极佳，但在其他场景中可能表现不佳。

版本 2.0：

我注意到我在版本1中误标了训练/验证文件夹——我的训练文件夹实际是验证文件夹，反之亦然。我随后更正了名称，但仅凭此操作并假设像版本1一样100个周期就足够，却引发了其他问题：模型开始将整个身体误判为脚。这白白浪费了3小时。于是我将周期设为200，将大量旧的验证图像移入训练集，并新增约160张图像（使用 RectLabel 手动逐张标注）。这次经过12小时训练，系统判定第148个周期为最佳版本，这就是本版。

据我测试，它在各种配置下检测脚部的表现远优于 v1.0，极少出错；能检测脚底；能检测旋转90度的脚；基本能检测非常规姿势的脚——具体取决于姿势。

不过，我也发现一些问题：它偶尔会将手、膝盖或其他物体误判为脚，但置信度低于真实脚部。若出现此类情况，建议将 Adetailer 检测设置中的检测模型置信度阈值至少提高到 0.5。

对于脚部占据画布大部分面积的图像，有时能完整检测，有时仅部分检测，有时只检测一只脚而忽略另一只。可以说，这个模型本不是为这类图像设计的，即使训练集中包含此类图像，因为该模型的作用是裁剪整个画布以聚焦目标（脚），从而集中大量图像生成资源来优化/修改脚部。如果脚已是图像主体，占据画布50%或以上，那么此模型在优化目标方面实际上作用有限。你当然仍可尝试使用它，但根据使用方式，它可能带来更多问题而非解决方案。

安装：

只需将文件移至 ~\stable-diffusion-webui\models\adetailer 文件夹，然后重启 WebUI。它肯定也能在 ComfyUI 中运行；但我尚未在 ComfyUI 中测试过我已测试过，并有对应工作流，见上图。当然，你需要在 Automatic 1111 中安装 ADetailer 扩展，或在 ComfyUI 中安装等效的 FaceDetailer 和 UltralyticsDetectorProvider 才能使用。

提示：你可以在 Automatic 1111 中通过前往：设置 > ADetailer > 最大模型数，来增加 ADetailer 模型数量。

注意：Civitai 似乎没有 ADetailer 相关分类，因此我将其设为检查点——尽管它并非检查点。关于剪枝/完整版和精度设置，我随意选择了默认值。

另外，如今 Stable Diffusion 在至少竖版构图中对脚部的生成效果已相当不错，因此我很难为竖版找到合适的使用场景。于是我用该模型在示例中绘制了 Tharja 的脚趾甲。但此模型在横版构图中将特别有用，因为这类图像中的脚部通常质量较低。

模型类型	其他
基础模型	Other
发布时间	2/13/2024

ADetailer foot_yolov8x.pt

详情

下载文件

关于此版本

模型描述