ADetailer foot_yolov8x.pt
詳細
ファイルをダウンロード
このバージョンについて
モデル説明

V3 開発のお知らせ
時期:2025年5月11日
みなさんへ、
最近の議論を受けて、待ち望まれていたV3フットモデルや、手と顔/頭部の新しいセグメンテーションモデルの進捗状況について、簡潔にご報告します。
みなさんも楽しみにされていること、私も同じく早く皆さんの手に届けたいと思っています!現状をお伝えします:
データセットは堅牢で、独自の追加も可能:V3(および新しい手・顔モデル)の基盤となる1000枚以上の画像データセットは既に準備完了しました。多様なシナリオをカバーし、堅牢な検出を実現できる自信があります。ただし、あなたが持っている、または知っているユニークなポーズ・角度・構成の画像で、現在のデータセットに不足している可能性があるものをご存知であれば、ぜひご提案ください! 私もその画像を確認します。私が見落としていたが価値のあるシナリオであれば、さらにいくつかの選別された画像を追加してアノテーションすることも可能です。現在の基盤は非常に強固ですが、追加のユニークなサンプルが数枚あってもプロセスに支障をきたすことはなく、むしろモデルの精度向上に貢献します。
精密なアノテーションワークフローを最適化:SAMなどの自動ツールでの初期検証後、すべての画像に対して完全手動でのアノテーションを行う方針を決定しました。SAMはスタートポイントとして有用でしたが、高品質なセグメンテーションマスク(背景への影響やアーティファクトの排除)を実現するには、点単位での丁寧な手動トレースが最適な方法です。これにより、V3で目指す品質向上に不可欠な、最高レベルのマスク精度を確保できます。確かに手間はかかりますが、正確さのためには不可欠です!
丁寧なアノテーションを進行中:データセット内のすべての足、手、顔/頭部の詳細な手動アノテーションが、現在の最優先課題です。これは短距離走ではなくマラソンであり、各要素を丁寧にトレースする必要があります。
V3フットモデルが最優先:前述の通り、V3フットセグメンテーションモデルを次のリリース対象とします。私のすべてのLoRAおよびチェックポイントのトレーニングは、V3が完成してアップロードされるまで中断しています——これが、この丁寧なアノテーションフェーズを乗り切る原動力です!データセット全体のアノテーションが完了次第、まずフットモデルをトレーニング・リリースし、その後に手と顔/頭部モデルを順次リリースします。
プロセスのドキュメント作成中:細部に興味のある方のために、アノテーションツールの設定(本当に大変な作業でした!)からアノテーション戦略、そしてこれらのYOLO-Segモデルのトレーニングプロセスまで、すべてを詳細に記録しています。今後、この情報を共有できれば、セグメンテーションモデルのトレーニングに挑戦される他の人にとって役立つはずです。
よって、V3への道のりはすでに始まっています!精度の高いセグメンテーションへの移行と対象範囲の拡大により、複雑で時間がかかるプロジェクトですが、その先にあるのは、待つ価値のある大幅な品質向上です。
これまでの驚異的な忍耐とサポートに改めてお礼申し上げます。品質に集中し続け、次の大きな進捗があれば、すぐにご報告します!

V1/V2
sp00ns氏のガイドに感謝:
Training a Custom Adetailer Model | Civitai
私はyolov8xを用いてカスタムフットモデルを作成しました。
sp00ns氏が提供してくれたフットモデルは役立ちましたが、自作してみたいと考えました。
ComfyUIワークフロー:

多くのみなさんがComfyUIを利用していること、そしてモデルの動作に苦労していることを知っています。そこで、私自身がComfyUIを再インストールし、バージョン2.0のフットモデルだけでなく、手や顔用の簡易ワークフローを構築しました。ご自身の目的に合わせて設定を調整して、よい結果を出してみてください。下の固定画像を、上記の画像と同様にComfyUIウィンドウにドラッグすることで、その画像を生成するために使用されたパラメータを再現できます。(私もこの画像の固定バージョンをv.2.0モデルページに掲載します)
バージョン1.0と2.0はBBOXモデルであるため、必ず ~\ComfyUI\models\ultralytics\bbox フォルダに配置してください。SAMモデルを使用すると、実質的にSEGモデルとして機能していると私は考えています。また、このワークフローを動作させるには、FaceDetailerパックとUltralyticsDetectorProviderノードもインストールしてください。
よい検出を!
バージョン1.0:
AutoDistillerとGrounded SAMを用いて1000枚の画像を自動ラベリングしようとしましたが、手を足と誤認識するなど、部分的に失敗しました。(また、Colabはジョブが途中で終了してしまい、作業が進まないので大嫌いです)
そのため、MacでRectLabelを用いてすべての画像を手作業で丁寧にラベリングし、その後PCでYOLOモデルを約8時間トレーニングしました。
当初は500エポックを予定していましたが、途中で最適な結果が93エポック目で得られたため、そこで終了しました。
自作画像とストック画像を多数使用し、アニメ、3Dモデル、写真風、男性・女性、さまざまな肌の色、靴を履いた状態と素足の状態を網羅しました。しかし、依然として対応しづらいケースがあります:90度回転した画像や、足が構図の主役となっている画像です。おそらく、トレーニング画像のほとんどがキャンバスの小さな部分に足が写っているものだったため、足のアップショットへのトレーニングが十分でなかったと考えられます。一方で、私はこのモデルを、全身写真で足がキャンバスのほんの一部にしかならないような、通常は無視されがちな足のリファインに使用することを目的としています。
簡単に言うと、このバージョンは特に全身写真における立ち姿の足に対して非常に優れていますが、それ以外の状況では苦手です。
バージョン2.0:
バージョン1では、トレーニングフォルダと検証フォルダを間違えてラベリングしていたことに気づきました。実際にはトレーニングフォルダが検証フォルダになっており、その逆も同様でした。名称を修正しましたが、バージョン1と同様に100エポックで済むだろうと過信したため、全身を足と誤認識する問題が発生し、3時間の作業が無駄になりました。エポック数を200に増やし、古い検証画像の多くをトレーニングフォルダに移動し、新たに約160枚の画像(すべてRectLabelで手動ラベリング)を追加しました。この度は12時間のトレーニングの後、148エポック目が最良と判断されたため、これがバージョン2.0です。
テストした結果、バージョン1.0に比べてさまざまな配置の足をはるかに正確に検出できます:足の裏も検出可能、90度回転した足も検出可能、そして不自然なポーズの足も(ポーズによるが)大半を検出できます。
ただし、いくつかの問題も確認されています。たとえば、手や膝、他の物体を足と誤認識することがありますが、その信頼度は本物の足より低めです。このような状況が発生した場合は、Adetailer検出設定の検出モデル信頼度スレッショルドを0.5以上に上げることをお勧めします。
キャンバスの大部分を占める足の画像では、検出される場合、部分的に検出される場合、片方だけ検出される場合があります。実際、このモデルはこのような画像を意図して設計されていません。トレーニングデータにこのような画像が含まれていたとしても、このモデルの目的は、足をターゲットに全体のキャンバスを切り抜き、足のリファインに多くの画像生成リソースを割くことです。もし足がすでに画像の主役で、キャンバスの50%以上を占めている場合、このモデルはターゲットのリファインにほとんど役立ちません。それでもご希望があれば使用できますが、使用方法によっては問題が増える可能性があります。
インストール方法:
ファイルを ~\stable-diffusion-webui\models\adetailer フォルダに移動し、WebUIを再起動してください。ComfyUIでも動作することは確認済みです(上記画像にワークフローを記載)。ただし、Automatic1111ではADetailer拡張、ComfyUIではFaceDetailerとUltralyticsDetectorProviderが必要です。
ヒント:Automatic1111では、設定>ADetailer>Max modelsでADetailerモデルの数を増やすことができます。
注意:CivitaiにはADetailer向けのカテゴリが存在しないため、私はこれをチェックポイントとして分類しています(実際にはそうではありません)。プリューンや精度設定などは、適当に設定しました。
また、最近のStable Diffusionはポートレートアスペクト比での足の生成が十分に優れているため、ポートレート用途としての有効なユースケースを見つけにくかったです。そのため、例示画像ではTharjaのつま先のネイルを塗るのにこのモデルを使用しました。しかし、このモデルは私が普段使うようなランドスケープアスペクト比で特に有効です。なぜなら、ランドスケープでは足の品質が低くなりがちだからです。













