打标 - 批量反推
세부 정보
파일 다운로드
모델 설명
원클릭 패키지: 20240922 / 20240923 / 20241011
- 20241011_jc는 JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip에 해당합니다.
- 20241011_wd는 WD14-Batch_20241010_1453_00b0af07.zip에 해당합니다.
- 20240923_wd_2는 wd14-tagger-standalone_eff5dd41.zip에 해당합니다.
- 20240922_wd는 wdv3-batch-vit-tagger_27892e24.zip에 해당합니다.
- 20240922_jt는 joytag-batch_fbd67196.zip에 해당합니다.
- 20240920_jc는 joy-caption-batch_3abeaedf.zip에 해당합니다.
워크플로우: 20240909
20241011
ChatGPT 프로그래밍을 위한 결과물:
https://github.com/SGN-EARTH/WD14-Batch
wd-eva02-large-tagger-v3 및 wd-vit-tagger-v3 포함, 기본적으로 wd-eva02-large-tagger-v3 사용.
파일 이름: WD14-Batch_20241010_1453_00b0af07.zip
파일 크기: 1.52 GB (1,634,922,203 바이트)
실제 점유 공간: 1.80 GB
MD5: 3184C6FCB830BDB9CFFC2E307BA159DB
SHA1: 0026C42868C30A4FD1B30AFFCF93E1EC6CB0AF07
CRC32: 87D20904
https://github.com/SGN-EARTH/JoyCaption-Pre-Alpha-Batch
Meta-Llama-3.1-8B-bnb-4bit 및 Meta-Llama-3.1-8B 포함, 기본적으로 Meta-Llama-3.1-8B 사용.
파일 이름: JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
파일 크기: 22.6 GB (24,289,098,531 바이트)
실제 점유 공간: 28.8 GB
MD5: 091B95F624FB7FA9FBA8F4C406EDB4E8
SHA1: 93FEBC123C7683211D8BC4B36264EFD9C8E4207A
CRC32: 3184CCE2
20240923
파일을 다시 업로드했습니다. 7-zip 명령줄로 파일을 압축하면 이전보다 파일 크기가 약간 줄어듭니다.
7z a -tzip -mx=3 -mm=Deflate -mfb=32 -mpass=1 -mmt=16 -mtc=off -snl
파일 이름: wdv3-batch-vit-tagger_27892e24.zip
파일 크기: 3.05 GB (3,276,890,333 바이트)
실제 점유 공간: 5.64 GB
MD5: 258154EB8FA5F5CB54C70DBD73D1B918
SHA1: 27AFFE0A5E942409317661C3AA526F9BCE892E24
CRC32: 74642B7B
파일 이름: joytag-batch_fbd67196.zip
파일 크기: 2.76 GB (2,967,319,456 바이트)
실제 점유 공간: 4.94 GB
MD5: 1643EB2F9DC38C7D86D71DB5E4EF1C42
SHA1: FB41FCEC1781F369B49C064CF173D56F99D67196
CRC32: 043EDA1D
파일 이름: joy-caption-batch_3abeaedf.zip
파일 크기: 10.6 GB (11,465,193,889 바이트)
실제 점유 공간: 13.9 GB
MD5: B400006D28EE76AF67D89F14F59E0432
SHA1: 3A23FAE5A79D938744871E7A4394B27E16BEAEDF
CRC32: BA9D55C0
파일 이름: wd14-tagger-standalone_eff5dd41.zip
파일 크기: 6.98 GB (7,501,150,905 바이트)
실제 점유 공간: 8.38 GB
MD5: 5878151167DEDDDBC0FB6E1222F2045C
SHA1: EFE0382F28ECFDDD62E3570163FE4A14D7F5DD41
CRC32: DDED6CCB
압축 시 심볼릭 링크가 유지되어 일부 시스템에서는 완전히 압축을 풀 수 없을 수 있습니다. 해제 도구에 관리자 권한을 부여한 후 압축 해제를 시도해 보세요.
시작 메뉴 -> 7-zip -> (우클릭 - 더 많은 옵션 - 관리자 권한으로 실행) -> 파일 찾기 -> 우클릭 해제
개인적으로 joytag 사용을 권장하지 않습니다. 일부 이미지에서 남성을 여성으로 잘못 인식하거나 불필요한 단어가 추가됩니다. 각 이미지의 태그를 모두 수동으로 검토하고 확인한다면 정말 뛰어나죠→_→
wd14-tagger-standalone
https://github.com/corkborg/wd14-tagger-standalone
이미지를 input 폴더에 넣고 run2.bat을 실행하세요. 또는 python run.py -h를 실행하여 사용법을 확인하세요.
패키지에 다음 모델이 포함되어 있습니다:
wd14-vit.v1
SmilingWolf/wd-v1-4-vit-tagger
wd14-vit.v2
SmilingWolf/wd-v1-4-vit-tagger-v2
wd14-convnext.v1
SmilingWolf/wd-v1-4-convnext-tagger
wd14-convnext.v2
SmilingWolf/wd-v1-4-convnext-tagger-v2
wd14-convnextv2.v1
SmilingWolf/wd-v1-4-convnextv2-tagger-v2
wd14-swinv2-v1
SmilingWolf/wd-v1-4-swinv2-tagger-v2
wd-v1-4-moat-tagger.v2
SmilingWolf/wd-v1-4-moat-tagger-v2
wd-v1-4-vit-tagger.v3
SmilingWolf/wd-vit-tagger-v3
wd-v1-4-convnext-tagger.v3
SmilingWolf/wd-convnext-tagger-v3
wd-v1-4-swinv2-tagger.v3
SmilingWolf/wd-swinv2-tagger-v3
wd-vit-large-tagger-v3
SmilingWolf/wd-vit-large-tagger-v3
wd-eva02-large-tagger-v3
SmilingWolf/wd-eva02-large-tagger-v3
z3d-e621-convnext-toynya
toynya/Z3D-E621-Convnext
z3d-e621-convnext-silveroxides
silveroxides/Z3D-E621-Convnext
mld-caformer.dec-5-97527
deepghs/ml-danbooru-onnx
mld-tresnetd.6-30000
deepghs/ml-danbooru-onnx
...또는 wd-joy-caption-cli를 시도해 보세요. 이 도구는 WD14 및 JoyCaption을 통합했습니다.
20240922
일명 원클릭 패키지.
wdv3-batch-vit-tagger
https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger
run2.bat을 실행한 후 브라우저에서 작업하세요.
약간의 매개변수 수정: 【Hide rating tags】 및 【Character tags first】 버튼이 기본으로 체크됨; 실행 시 자동으로 브라우저 열림.
실제 점유 공간: 5.64GB
파일 이름: wdv3-batch-vit-tagger.zip
파일 크기: 3.37 GB (3,629,678,604 바이트)
MD5: 06A39A326055D4F38107A56C99D7CFCA
SHA1: 441A76087458EE93765E029947E64C5AF7F5377B
CRC32: 41B9B143
joytag-batch
https://github.com/MNeMoNiCuZ/joytag-batch
이미지를 input 폴더에 넣고 run2.bat을 실행하세요.
약간의 수정:
# batch.py
import sys
# 현재 디렉토리를 sys.path에 추가
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
실제 점유 공간: 4.94GB
파일 이름: joytag-batch.zip
파일 크기: 2.76 GB (2,967,319,429 바이트)
MD5: B4C1AE347A9F81DEA7422B18F6454F65
SHA1: 430C5A370D609F771B386BDFE072CE768136DD07
CRC32: 88AC5CC9
20240920
일명 원클릭 패키지.
원본 프로젝트 joy-caption-batch는 저와 관련이 없습니다. 프로젝트 문제는 해당 개발자에게 문의하세요. 저는 단지 열심히 보이는 중국 대륙의 인터넷 사용자일 뿐입니다.
디렉토리를 다른 경로나 다른 컴퓨터로 이동해도 실행 가능합니다. GPU 메모리 사용량은 약 9.1GB이며, RTX3060_12G 및 RTX2080Ti_22G에서 정상 실행 테스트 완료. 다른 환경은 직접 테스트해 주세요.
실제 점유 공간: 13.9GB, 압축 후 18.5GB는 파일 링크 문제로 인한 것입니다.
파일 이름: joy-caption-batch.zip
파일 크기: 18.5 GB (19,935,163,190 바이트)
MD5: 999699AEF755D1487EB3DD4DCF7161E6
SHA1: 9B560FBFA79DFF0BD1EA169F06781CD6F3A09FD9
CRC32: 10BC9D3F
사용 방법:
이미지를 input 폴더에 넣고 run2.bat을 실행하거나, run.bat을 실행한 후 python batch.py를 실행하세요.
batch2.py는 ChatGPT가 오프라인 모델을 사용하도록 개조한 버전입니다. batch.py는 HF_HOME 환경 변수를 설정하여 모델을 다운로드했지만, 때로는 여전히 huggingface에 요청을 보냅니다.
가장 좋은 방법은 완전히 인터넷을 끊고 실행하거나, huggingface에 접속할 수 있는 네트워크 환경에서 실행하는 것입니다. 그래도 안 되면 python batch2.py를 실행하세요. 또는 HF_ENDPOINT 환경 변수를 설정해 보세요.
간단한 이동용 패키지 제작 절차:
( SSSVIP 멤버십 / 좋아요, 구독, 공유 / 다른 클라우드 스토리지로 변경 / XXXX! XXXX! XXXX! )
- 파일 가져오기
git clone https://github.com/MNeMoNiCuZ/joy-caption-batch.git
- 다운로드
https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
https://bootstrap.pypa.io/get-pip.py
- 설치 시작
python-3.11.9-embed-amd64.zip를 python 폴더에 압축 해제하고, get-pip.py를 python 폴더에 복사한 후, python 폴더를 joy-caption-batch 폴더로 이동;
run.bat을 실행하고 python python\get-pip.py를 실행;
python\python311._pth 파일을 편집하여 import site가 있는 줄의 # 기호를 제거하고 저장.
- 의존성 설치
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
python -m pip install -r requirements.txt
run.bat 내용
@echo off
cd /d %cd%
:: cd /d %~dp0
set DIR=%cd%
:: https://www.python.org/ftp/python/
:: https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
:: https://bootstrap.pypa.io/get-pip.py
set PATH=%DIR%\python;%DIR%\python\Scripts;%PATH%;
:: set PATH=%DIR%\git\bin;%DIR%\python;%DIR%\python\Scripts;%PATH%;
set PY_LIBS=%DIR%\python\Scripts\Lib;%DIR%\python\Scripts\Lib\site-packages
set PY_PIP=%DIR%\python\Scripts
set PIP_INSTALLER_LOCATION=%DIR%\python\get-pip.py
set HF_HOME=%DIR%\hf
:: set HF_ENDPOINT=https://hf-mirror.com
:: set HUGGINGFACE_HUB_DISABLE_CACHE=1
:: pip 설치 후 사용 불가 시, %DIR%\python\pythonXXX._pth에서 import site 주석 제거 시도
:: python 스크립트가 현재 디렉토리를 sys.path에 추가
:: import os
:: import sys
:: sys.path.append(os.path.dirname(os.path.abspath(__file__)))
:: 임시 캐시 경로
set PIP_CACHE_DIR=%DIR%\cache
:: 캐시. off: 비활성화, on: 활성화
:: set PIP_NO_CACHE_DIR=off
:: 패키지 인덱스 URL
set PIP_INDEX_URL=https://mirrors.cloud.tencent.com/pypi/simple
:: https://pypi.org/simple
:: https://mirrors.163.com/pypi/simple/
:: https://mirrors.cloud.tencent.com/pypi/simple
:: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
:: python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
:: 추가 패키지 인덱스 URL
:: set PIP_EXTRA_INDEX_URL=https://pypi.org/simple
:: 패키지 인덱스 요청 타임아웃. 단위: 초.
set PIP_TIMEOUT=10
:: 더 자세한 디버그 정보
:: set PIP_VERBOSE=1
cmd /k
이 방식은 많은 python 프로젝트에 적용 가능합니다.
또는 이 방법도 확인해 보세요:
통합 패키지? 당신도 만들 수 있습니다. AI 프로젝트 패키징, CUDA 패키징, CUDNN 패키징, TensorRT 패키징, FFMPEG 패키징, AI 프로젝트 통합 패키지 제작
https://www.bilibili.com/video/BV1jMyeYrErW/
20240909
압축 파일에는 네 개의 파일이 포함되어 있습니다. JoyCaption_WD14-JoyTag_Batch_XX: WD14, JoyTag 또는 JoyCaption을 사용하여 일괄 입력/출력 추론. 입력/출력 노드만 다름.
- WD14-ClipInterrogator-JoyTag-JoyCoption-MiniCPMv2-CogFlorence2-InternVL2.json: 한 장의 이미지에 이 모든 도구를 사용해 추론합니다.
- JoyCaption_WD14-JoyTag_Batch_V1.json: 한 번 실행 시 새 이미지 하나를 입력. 몇 장을 실행할지 ComfyUI 실행 배치 수를 조정. 한 그룹 실행 후 다음 그룹으로 이동. 모든 그룹 실행 후 다음 이미지로 이동. 노드는 텍스트를 출력하며, 파일명은 이미지 이름과 동일.
- JoyCaption_WD14-JoyTag_Batch_V2.json: 한 번 실행 시 모든 이미지 인덱스를 출력. 하나의 노드 실행 후 다음 노드로 이동. 모든 그룹 실행 후 다음 그룹으로 이동. 노드는 텍스트를 출력.
- JoyCaption_WD14-JoyTag_Batch_V3.json: (V2와 동일) 노드는 이미지와 텍스트를 모두 출력하며, 출력된 이미지와 텍스트는 동일한 디렉토리에 위치.
V2 및 V3의 WD14 노드 패널은 이미지가 많을수록 더 길어집니다.
WD14
https://github.com/pythongosssss/ComfyUI-WD14-Tagger
(pysssss.json을 편집하여 wd-vit-large-tagger-v3 및 wd-eva02-large-tagger-v3를 추가 가능)
ClipInterrogator
https://github.com/unanan/ComfyUI-clip-interrogator
JoyCaption / Florence / MiniCPM
https://github.com/StartHua/Comfyui_CXH_joy_caption
JoyTag
https://github.com/StartHua/Comfyui_joytag
JoyCaption / JoyTag
https://github.com/aidenli/ComfyUI_NYJY
InternVL2
https://github.com/leeguandong/ComfyUI_InternVL2
JoyCaption만 사용하여 추론할 경우 https://github.com/MNeMoNiCuZ/joy-caption-batch를 시도해 보세요. ComfyUI 환경에 종속되지 않으며 속도가 매우 빠릅니다. 저자는 또한 여러 추론 도구를 제공합니다.
joy-caption-batch 설치는 다음과 같은 단계입니다:
1. git clone https://github.com/MNeMoNiCuZ/joy-caption-batch
2. venv_create.bat 실행 ...
3. venv_activate.bat 실행
4. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
모든 모델을 자동으로 다운로드하는(huggingface) 노드의 경우, HF_HOME 환경 변수를 설정하는 것이 좋습니다. (특히 ClipInterrogator의 경우) 모델과 함께 이동하기 편리합니다.
(ComfyUI 내에서 실행할 경우, 루트 디렉토리의 run_nvidia_gpu.bat 파일의 첫 번째 줄에 set HF_HOME=huggingface를 추가하세요.)
joy-caption-batch에서는 초기 환경 설정 후 venv_activate.bat에 set HF_HOME=hf를 추가할 수 있습니다. 또는 다음 내용의 새 배치 파일을 추가할 수 있습니다:
@echo off
cd %cd%
set HF_HOME=hf
set VENV_PATH=venv
:: set VENV_PATH=%cd%\venv
echo.
echo Activating virtual environment...
call "%%VENV_PATH%%\Scripts\activate"
echo Virtual environment activated.
echo %cd%
cmd /k python batch.py
pause
일부 매개변수를 사용자 정의하려면 batch.py를 수정하세요.
LOW_VRAM_MODE: True로 설정하면 저메모리 모드 사용
TEMPERATURE: 예측의 무작위성을 제어. 낮은 값은 출력을 더 집중적이고 결정론적으로, 높은 값은 무작위성을 증가
TOP_K: 각 단계에서 가능한 상위 K개의 선택만 샘플링 영역으로 제한. 낮은 값은 출력을 더 결정론적으로, 높은 값은 더 다양한 결과 허용
MAX_NEW_TOKENS: 생성할 최대 토큰 수. 생성 텍스트 길이를 제한.
저는 다음 세 가지 매개변수만 수정했습니다:
LOW_VRAM_MODE = True
TEMPERATURE = 0.35
MAX_NEW_TOKENS = 1024
기타 추론 도구:
https://github.com/smthemex/ComfyUI_Pic2Story
https://github.com/shadowcz007/comfyui-mixlab-nodes (추론 노드도 포함)
ollama 노드를 사용하여 다양한 대형 모델과 상호작용하여 이미지 설명을 생성하는 것도 가능합니다.

