ADetailer foot_yolov8x.pt
세부 정보
파일 다운로드
이 버전에 대해
모델 설명

V3 개발 공지
시기: 2025년 5월 11일
안녕하세요, 모두에게,
최근 논의들을 바탕으로, 기대가 큰 V3 발 모델과 손, 얼굴/머리용 새로운 세그멘테이션 모델의 진행 상황을 간단히 공유드리고자 합니다.
여러분 중 많은 분이 기대하고 계시며, 저도 이 모델들을 손에 넣는 순간을 매우 기다리고 있습니다! 현재 상황은 다음과 같습니다:
데이터셋이 견고하며, 고유한 추가 자료를 환영합니다: V3(및 새로운 손/얼굴 모델)의 기반이 될 1,000장 이상의 포괄적인 데이터셋이 완성되었습니다. 이 데이터셋은 다양한 시나리오를 포괄하여 강력한 탐지 성능을 보장할 것이라 확신합니다. 그럼에도 불구하고, 여러분이 특이한 포즈, 각도, 또는 구성 방식을 보여주는 이미지를 보유하고 계시거나, 그런 이미지가 현재 데이터셋에 부족할 수 있다고 생각하신다면, 자유롭게 제안해 주세요! 제가 검토해 드릴 수 있습니다. 제가 놓쳤던 시나리오이고 추가 가치가 있다면, 몇 장 더 신중하게 선별하여 데이터를 확장하고 주석을 달겠습니다. 현재 기반은 이미 매우 견고하지만, 추가적인 고유한 예시 하나둘은 프로세스에 방해가 되지 않으며, 모델의 정밀도를 더욱 향상시키는 데 도움이 될 수 있습니다.
정밀도를 위한 주석 작업 프로세스 최적화: 초기에 SAM과 같은 자동 도구를 시도해 보았으나, 고품질 세그멘테이션 마스크를 생성하기 위해 필요한 정밀도(배경을 손상시키거나 아티팩트를 남기지 않음)를 고려해, 모든 이미지에 대해 완전히 수동 주석 작업을 진행하기로 결정했습니다. SAM은 시작점으로 유용했지만, 점 단위로 정밀하게 수동 트레이싱하는 것이 가장 효과적인 방법입니다. 이는 V3에서 목표로 하는 품질 향상에 필수적인 마스크 정확도를 보장합니다. 분명히 번거롭지만, 제대로 완성하기 위해 반드시 필요한 과정입니다!
세심한 주석 작업 진행 중: 데이터셋 내 모든 발, 손, 얼굴/머리에 대한 수동 주석 작업이 현재 제 주요 작업입니다. 이는 빠르게 끝나는 스프린트가 아니라 마라톤이며, 각 요소를 신중하게 경계선을 그려야 합니다.
V3 발 모델이 최우선 과제입니다: 앞서 언급했듯이, V3 발 세그멘테이션 모델이 제가 다음으로 출시할 첫 번째 모델입니다. 모든 LoRA 및 체크포인트 훈련은 V3 완성 및 업로드 전까지 일시 중단됩니다. 이는 제가 이 세심한 주석 작업을 끝내도록 하는 동기입니다! 전체 데이터셋 주석이 완료되면, 발 모델이 먼저 훈련되고 출시되며, 그 다음에 손 및 얼굴/머리 모델이 이어집니다.
프로세스 문서화 진행 중: 세부 과정에 관심이 있으신 분들을 위해, 주석 도구 설정(정말로 그건 모험처럼 느껴졌습니다!)부터 주석 전략, 그리고 최종적으로 이 YOLO-seg 모델들의 훈련 프로세스까지 전체 과정을 상세히 기록하고 있습니다. 향후 이 정보를 공유할 계획이며, 세그멘테이션 모델 훈련에 도전하는 다른 분들께 도움이 되기를 바랍니다.
따라서, V3로 가는 여정은 이미 시작되었습니다! 정밀 세그멘테이션과 확장된 범위로 인해 이 프로젝트는 복잡하고 시간이 많이 걸리지만, 목표는 기존보다 훨씬 향상된 모델을 제공하여 기다림의 가치를 입증하는 것입니다.
끊임없는 인내와 지지에 다시 한번 감사드립니다. 저는 품질에 집중할 것이며, 다음 주요 업데이트가 생기면 즉시 공유하겠습니다!

V1/V2
sp00ns님의 가이드 덕분입니다:
Training a Custom Adetailer Model | Civitai
저는 yolov8x를 사용하여 맞춤형 발 모델을 제작했습니다.
sp00ns님이 제공해 주신 발 모델은 도움이 되었지만, 저도 직접 만들어보고 싶었습니다.
ComfyUI 워크플로우:

여러분 중 많은 분이 ComfyUI를 사용하시며 모델을 제대로 작동시키는 데 어려움을 겪고 계신다는 것을 알고 있습니다. 그래서 여러분을 위해 ComfyUI를 다시 설치하고, 버전 2.0 발 모델뿐 아니라 손과 얼굴 모델을 위한 간단한 워크플로우를 구성했습니다. 원하는 결과를 얻기 위해 설정은 자유롭게 조정해 주세요. 위 이미지와 유사한 고정된 이미지를 ComfyUI 창으로 드래그하시면, 해당 이미지를 생성할 때 사용된 정확한 파라미터를 재현할 수 있습니다. (저는 이 이미지의 고정 버전을 v2.0 모델 페이지에도 게시할 예정입니다.)
버전 1.0과 2.0은 BBOX 모델이므로, 반드시 ~\ComfyUI\models\ultralytics\bbox 폴더에 배치해 주세요. SAM 모델과 함께 사용하면, 이는 효과적으로 SEG 모델처럼 작동합니다—少なくとも 제 생각에는 그렇습니다. 또한, 이 모델을 작동시키려면 FaceDetailer 팩과 UltralyticsDetectorProvider 노드도 반드시 설치해 주세요.
좋은 결과 얻으세요!
버전 1.0:
AutoDistiller와 Grounded SAM을 사용하여 1,000장의 이미지를 자동으로 라벨링해 보았지만, 일부 실패했습니다. 손을 발로 잘못 인식하는 경우가 있었고(또한 Colab은 작업이 중간에 끊겨서 제대로 작업할 수 없어 싫습니다).
그래서 저는 맥에서 RectLabel을 사용하여 모든 이미지를 수동으로 하나하나 라벨링한 후, PC에서 YOLO 모델을 약 8시간 동안 훈련했습니다.
500 에포크를 계획했지만, 조기 종료되었고 최적의 결과는 93번째 에포크에서 나왔습니다.
자신이 생성한 이미지와 일부 스톡 이미지를 포함했습니다. 애니메이션, 3D 모델, 사실적인 이미지; 남성과 여성, 다양한 피부색, 신발 착용/무신발 상태를 모두 포함했습니다. 하지만 여전히 몇 가지 어려움이 있습니다. 예를 들어, 90도 회전된 이미지나 발이 주된 구성 요소인 이미지 같은 비정형적인 포즈는 잘 인식하지 못합니다. 제 추측으로는, 대부분의 훈련 이미지에서 발이 캔버스의 작은 비율을 차지했기 때문에, 발의 클로즈업에 대한 훈련이 부족했기 때문입니다. 반면, 제 목적은 전체 이미지에서 발이 미미한 비중을 차지할 때(예: 전체 신체 촬영) 발을 보정하는 데 이 모델을 사용하는 것이었습니다.
요약하면, 이 버전은 특히 전체 신체 촬영에서 서 있는 자세의 발을 매우 잘 처리합니다. 하지만 그 범위를 벗어난 발에는 어려움을 겪습니다.
버전 2.0:
버전 1.0에서 훈련/검증 폴더를 잘못 라벨링했음을 발견했습니다. 훈련 폴더가 실제로 검증 폴더였고 그 반대였습니다. 이름을 수정했지만, 버전 1.0처럼 100 에포크 이내로 끝날 것이라 예상했더니 다른 문제가 발생했습니다—전체 신체를 발로 잘못 인식하기 시작했습니다. 이로 인해 3시간이 허비되었습니다. 에포크를 200으로 늘리고, 이전 검증 이미지 중 많은 부분을 훈련 폴더로 이동시켰으며, 새로운 이미지 약 160장을 추가했습니다(모든 이미지를 RectLabel로 수동으로 라벨링). 이번에는 12시간 후, 148번째 에포크가 최고의 결과임을 판단했습니다. 이것이 바로 이 버전입니다.
테스트 결과, 버전 2.0은 버전 1.0보다 다양한 발의 형태를 훨씬 더 잘 인식하며, 발바닥도 인식하고, 90도 회전된 발도 인식하며, 비정형적인 포즈의 발도 대부분 인식합니다(포즈에 따라 다름).
하지만 몇 가지 문제점도 발견했습니다. 가끔 손, 무릎, 기타 물체를 발로 잘못 인식하는데, 이 경우 신뢰도는 실제 발보다 낮습니다. 이런 일이 발생하면, Adetailer 감지 설정에서 감지 모델 신뢰도 임계값을 최소 0.5로 올리는 것을 권장합니다.
캔버스의 대부분을 차지하는 발 이미지에서는, 때로는 완전히 인식하고, 때로는 부분적으로 인식하며, 때로는 한 발만 인식하고 다른 발은 인식하지 못합니다. 이 모델은 훈련 데이터셋에 그런 이미지를 포함했지만, 본래 목적은 캔버스 전체를 잘라내어 발에 집중하고, 그 발을 세밀하게 보정하는 데 있습니다. 만약 이미 발이 캔버스의 50% 이상을 차지하는 주요 대상이라면, 이 모델은 대상의 보정에 별다른 도움을 주지 못합니다. 원하신다면 여전히 사용할 수 있지만, 사용 방식에 따라 오히려 문제를 야기할 수 있습니다.
설치:
파일을 ~\stable-diffusion-webui\models\adetailer 폴더로 이동시킨 후, 웹UI를 재시작하세요. 분명히 ComfyUI에서도 작동합니다. 하지만 제가 그곳에서 테스트하지는 않았습니다. 테스트해 보았고, 위 이미지에 워크플로우가 있습니다. 물론, 이 모든 것을 작동시키려면 Automatic 1111의 ADetailer 확장 프로그램 또는 ComfyUI의 FaceDetailer 및 UltralyticsDetectorProvider가 필요합니다.
팁: Automatic 1111에서 ADetailer 모델 수를 늘리려면: 설정 > ADetailer > 최대 모델 수로 이동하세요.
참고: Civitai에는 ADetailer 관련 항목이 명확한 카테고리가 없어, 저는 이를 체크포인트로 설정했습니다. 실제로는 체크포인트가 아니지만요. 프루닝 여부나 정밀도 설정 등은 제가 원하는 대로 설정했습니다.
또한, 요즘 안정적인 디퓨전은 특히 세로 비율의 이미지에서 발을 꽤 잘 생성합니다. 그래서 세로 비율의 좋은 사용 사례를 찾는 데 어려움을 겪었고, 대신 예시 이미지에서 타르자의 발톱을 그려보았습니다. 하지만 이 모델은 제가 일반적으로 사용하는 것처럼 가로 비율의 이미지에서 특히 유용할 것입니다. 왜냐하면 가로 비율의 이미지에서는 발의 품질이 일반적으로 매우 낮기 때문입니다.




















