打标 - 批量反推

세부 정보

파일 다운로드

모델 설명

기분에 따라 업데이트

원클릭 패키지: 20240922 / 20240923 / 20241011

  • 20241011_jc는 JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip에 해당합니다.
  • 20241011_wd는 WD14-Batch_20241010_1453_00b0af07.zip에 해당합니다.
  • 20240923_wd_2는 wd14-tagger-standalone_eff5dd41.zip에 해당합니다.
  • 20240922_wd는 wdv3-batch-vit-tagger_27892e24.zip에 해당합니다.
  • 20240922_jt는 joytag-batch_fbd67196.zip에 해당합니다.
  • 20240920_jc는 joy-caption-batch_3abeaedf.zip에 해당합니다.

워크플로우: 20240909


20241011

ChatGPT 프로그래밍을 위한 결과물:

https://github.com/SGN-EARTH/WD14-Batch

wd-eva02-large-tagger-v3 및 wd-vit-tagger-v3 포함, 기본적으로 wd-eva02-large-tagger-v3 사용.

파일 이름: WD14-Batch_20241010_1453_00b0af07.zip
파일 크기: 1.52 GB (1,634,922,203 바이트)
실제 점유 공간: 1.80 GB
MD5: 3184C6FCB830BDB9CFFC2E307BA159DB
SHA1: 0026C42868C30A4FD1B30AFFCF93E1EC6CB0AF07
CRC32: 87D20904

https://github.com/SGN-EARTH/JoyCaption-Pre-Alpha-Batch

Meta-Llama-3.1-8B-bnb-4bit 및 Meta-Llama-3.1-8B 포함, 기본적으로 Meta-Llama-3.1-8B 사용.

파일 이름: JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
파일 크기: 22.6 GB (24,289,098,531 바이트)
실제 점유 공간: 28.8 GB
MD5: 091B95F624FB7FA9FBA8F4C406EDB4E8
SHA1: 93FEBC123C7683211D8BC4B36264EFD9C8E4207A
CRC32: 3184CCE2

20240923

파일을 다시 업로드했습니다. 7-zip 명령줄로 파일을 압축하면 이전보다 파일 크기가 약간 줄어듭니다.

7z a -tzip -mx=3 -mm=Deflate -mfb=32 -mpass=1 -mmt=16 -mtc=off -snl
파일 이름: wdv3-batch-vit-tagger_27892e24.zip
파일 크기: 3.05 GB (3,276,890,333 바이트)
실제 점유 공간: 5.64 GB
MD5: 258154EB8FA5F5CB54C70DBD73D1B918
SHA1: 27AFFE0A5E942409317661C3AA526F9BCE892E24
CRC32: 74642B7B

파일 이름: joytag-batch_fbd67196.zip
파일 크기: 2.76 GB (2,967,319,456 바이트)
실제 점유 공간: 4.94 GB
MD5: 1643EB2F9DC38C7D86D71DB5E4EF1C42
SHA1: FB41FCEC1781F369B49C064CF173D56F99D67196
CRC32: 043EDA1D

파일 이름: joy-caption-batch_3abeaedf.zip
파일 크기: 10.6 GB (11,465,193,889 바이트)
실제 점유 공간: 13.9 GB
MD5: B400006D28EE76AF67D89F14F59E0432
SHA1: 3A23FAE5A79D938744871E7A4394B27E16BEAEDF
CRC32: BA9D55C0

파일 이름: wd14-tagger-standalone_eff5dd41.zip
파일 크기: 6.98 GB (7,501,150,905 바이트)
실제 점유 공간: 8.38 GB
MD5: 5878151167DEDDDBC0FB6E1222F2045C
SHA1: EFE0382F28ECFDDD62E3570163FE4A14D7F5DD41
CRC32: DDED6CCB

압축 시 심볼릭 링크가 유지되어 일부 시스템에서는 완전히 압축을 풀 수 없을 수 있습니다. 해제 도구에 관리자 권한을 부여한 후 압축 해제를 시도해 보세요.

시작 메뉴 -> 7-zip -> (우클릭 - 더 많은 옵션 - 관리자 권한으로 실행) -> 파일 찾기 -> 우클릭 해제

개인적으로 joytag 사용을 권장하지 않습니다. 일부 이미지에서 남성을 여성으로 잘못 인식하거나 불필요한 단어가 추가됩니다. 각 이미지의 태그를 모두 수동으로 검토하고 확인한다면 정말 뛰어나죠→_→

wd14-tagger-standalone

https://github.com/corkborg/wd14-tagger-standalone

이미지를 input 폴더에 넣고 run2.bat을 실행하세요. 또는 python run.py -h를 실행하여 사용법을 확인하세요.

패키지에 다음 모델이 포함되어 있습니다:

wd14-vit.v1
SmilingWolf/wd-v1-4-vit-tagger

wd14-vit.v2
SmilingWolf/wd-v1-4-vit-tagger-v2

wd14-convnext.v1
SmilingWolf/wd-v1-4-convnext-tagger

wd14-convnext.v2
SmilingWolf/wd-v1-4-convnext-tagger-v2

wd14-convnextv2.v1
SmilingWolf/wd-v1-4-convnextv2-tagger-v2

wd14-swinv2-v1
SmilingWolf/wd-v1-4-swinv2-tagger-v2

wd-v1-4-moat-tagger.v2
SmilingWolf/wd-v1-4-moat-tagger-v2

wd-v1-4-vit-tagger.v3
SmilingWolf/wd-vit-tagger-v3

wd-v1-4-convnext-tagger.v3
SmilingWolf/wd-convnext-tagger-v3

wd-v1-4-swinv2-tagger.v3
SmilingWolf/wd-swinv2-tagger-v3

wd-vit-large-tagger-v3
SmilingWolf/wd-vit-large-tagger-v3

wd-eva02-large-tagger-v3
SmilingWolf/wd-eva02-large-tagger-v3

z3d-e621-convnext-toynya
toynya/Z3D-E621-Convnext

z3d-e621-convnext-silveroxides
silveroxides/Z3D-E621-Convnext

mld-caformer.dec-5-97527
deepghs/ml-danbooru-onnx

mld-tresnetd.6-30000
deepghs/ml-danbooru-onnx

...또는 wd-joy-caption-cli를 시도해 보세요. 이 도구는 WD14 및 JoyCaption을 통합했습니다.


20240922

일명 원클릭 패키지.

wdv3-batch-vit-tagger

https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger

run2.bat을 실행한 후 브라우저에서 작업하세요.

약간의 매개변수 수정: 【Hide rating tags】 및 【Character tags first】 버튼이 기본으로 체크됨; 실행 시 자동으로 브라우저 열림.

실제 점유 공간: 5.64GB

파일 이름: wdv3-batch-vit-tagger.zip
파일 크기: 3.37 GB (3,629,678,604 바이트)
MD5: 06A39A326055D4F38107A56C99D7CFCA
SHA1: 441A76087458EE93765E029947E64C5AF7F5377B
CRC32: 41B9B143

joytag-batch

https://github.com/MNeMoNiCuZ/joytag-batch

이미지를 input 폴더에 넣고 run2.bat을 실행하세요.

약간의 수정:

# batch.py
import sys
# 현재 디렉토리를 sys.path에 추가
sys.path.append(os.path.dirname(os.path.abspath(__file__)))

실제 점유 공간: 4.94GB

파일 이름: joytag-batch.zip
파일 크기: 2.76 GB (2,967,319,429 바이트)
MD5: B4C1AE347A9F81DEA7422B18F6454F65
SHA1: 430C5A370D609F771B386BDFE072CE768136DD07
CRC32: 88AC5CC9

20240920

일명 원클릭 패키지.

원본 프로젝트 joy-caption-batch는 저와 관련이 없습니다. 프로젝트 문제는 해당 개발자에게 문의하세요. 저는 단지 열심히 보이는 중국 대륙의 인터넷 사용자일 뿐입니다.

디렉토리를 다른 경로나 다른 컴퓨터로 이동해도 실행 가능합니다. GPU 메모리 사용량은 약 9.1GB이며, RTX3060_12G 및 RTX2080Ti_22G에서 정상 실행 테스트 완료. 다른 환경은 직접 테스트해 주세요.

실제 점유 공간: 13.9GB, 압축 후 18.5GB는 파일 링크 문제로 인한 것입니다.

파일 이름: joy-caption-batch.zip
파일 크기: 18.5 GB (19,935,163,190 바이트)
MD5: 999699AEF755D1487EB3DD4DCF7161E6
SHA1: 9B560FBFA79DFF0BD1EA169F06781CD6F3A09FD9
CRC32: 10BC9D3F

사용 방법:

이미지를 input 폴더에 넣고 run2.bat을 실행하거나, run.bat을 실행한 후 python batch.py를 실행하세요.

batch2.py는 ChatGPT가 오프라인 모델을 사용하도록 개조한 버전입니다. batch.py는 HF_HOME 환경 변수를 설정하여 모델을 다운로드했지만, 때로는 여전히 huggingface에 요청을 보냅니다.

가장 좋은 방법은 완전히 인터넷을 끊고 실행하거나, huggingface에 접속할 수 있는 네트워크 환경에서 실행하는 것입니다. 그래도 안 되면 python batch2.py를 실행하세요. 또는 HF_ENDPOINT 환경 변수를 설정해 보세요.


간단한 이동용 패키지 제작 절차:

( SSSVIP 멤버십 / 좋아요, 구독, 공유 / 다른 클라우드 스토리지로 변경 / XXXX! XXXX! XXXX! )

  1. 파일 가져오기
git clone https://github.com/MNeMoNiCuZ/joy-caption-batch.git
  1. 다운로드
https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip

https://bootstrap.pypa.io/get-pip.py
  1. 설치 시작
python-3.11.9-embed-amd64.zip를 python 폴더에 압축 해제하고, get-pip.py를 python 폴더에 복사한 후, python 폴더를 joy-caption-batch 폴더로 이동;

run.bat을 실행하고 python python\get-pip.py를 실행;

python\python311._pth 파일을 편집하여 import site가 있는 줄의 # 기호를 제거하고 저장.
  1. 의존성 설치
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

python -m pip install -r requirements.txt

run.bat 내용

@echo off

cd /d %cd%
:: cd /d %~dp0

set DIR=%cd%

:: https://www.python.org/ftp/python/
:: https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
:: https://bootstrap.pypa.io/get-pip.py

set PATH=%DIR%\python;%DIR%\python\Scripts;%PATH%;
:: set PATH=%DIR%\git\bin;%DIR%\python;%DIR%\python\Scripts;%PATH%;
set PY_LIBS=%DIR%\python\Scripts\Lib;%DIR%\python\Scripts\Lib\site-packages
set PY_PIP=%DIR%\python\Scripts
set PIP_INSTALLER_LOCATION=%DIR%\python\get-pip.py

set HF_HOME=%DIR%\hf
:: set HF_ENDPOINT=https://hf-mirror.com
:: set HUGGINGFACE_HUB_DISABLE_CACHE=1

:: pip 설치 후 사용 불가 시, %DIR%\python\pythonXXX._pth에서 import site 주석 제거 시도

:: python 스크립트가 현재 디렉토리를 sys.path에 추가
::      import os
::      import sys
::      sys.path.append(os.path.dirname(os.path.abspath(__file__)))

:: 임시 캐시 경로
set PIP_CACHE_DIR=%DIR%\cache

:: 캐시. off: 비활성화, on: 활성화
:: set PIP_NO_CACHE_DIR=off

:: 패키지 인덱스 URL
set PIP_INDEX_URL=https://mirrors.cloud.tencent.com/pypi/simple
:: https://pypi.org/simple
:: https://mirrors.163.com/pypi/simple/
:: https://mirrors.cloud.tencent.com/pypi/simple
:: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

:: python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

:: 추가 패키지 인덱스 URL
:: set PIP_EXTRA_INDEX_URL=https://pypi.org/simple

:: 패키지 인덱스 요청 타임아웃. 단위: 초.
set PIP_TIMEOUT=10

:: 더 자세한 디버그 정보
:: set PIP_VERBOSE=1

cmd /k

이 방식은 많은 python 프로젝트에 적용 가능합니다.


또는 이 방법도 확인해 보세요:

통합 패키지? 당신도 만들 수 있습니다. AI 프로젝트 패키징, CUDA 패키징, CUDNN 패키징, TensorRT 패키징, FFMPEG 패키징, AI 프로젝트 통합 패키지 제작

https://www.bilibili.com/video/BV1jMyeYrErW/


20240909

압축 파일에는 네 개의 파일이 포함되어 있습니다. JoyCaption_WD14-JoyTag_Batch_XX: WD14, JoyTag 또는 JoyCaption을 사용하여 일괄 입력/출력 추론. 입력/출력 노드만 다름.

  • WD14-ClipInterrogator-JoyTag-JoyCoption-MiniCPMv2-CogFlorence2-InternVL2.json: 한 장의 이미지에 이 모든 도구를 사용해 추론합니다.
  • JoyCaption_WD14-JoyTag_Batch_V1.json: 한 번 실행 시 새 이미지 하나를 입력. 몇 장을 실행할지 ComfyUI 실행 배치 수를 조정. 한 그룹 실행 후 다음 그룹으로 이동. 모든 그룹 실행 후 다음 이미지로 이동. 노드는 텍스트를 출력하며, 파일명은 이미지 이름과 동일.
  • JoyCaption_WD14-JoyTag_Batch_V2.json: 한 번 실행 시 모든 이미지 인덱스를 출력. 하나의 노드 실행 후 다음 노드로 이동. 모든 그룹 실행 후 다음 그룹으로 이동. 노드는 텍스트를 출력.
  • JoyCaption_WD14-JoyTag_Batch_V3.json: (V2와 동일) 노드는 이미지와 텍스트를 모두 출력하며, 출력된 이미지와 텍스트는 동일한 디렉토리에 위치.

V2 및 V3의 WD14 노드 패널은 이미지가 많을수록 더 길어집니다.


WD14

https://github.com/pythongosssss/ComfyUI-WD14-Tagger

(pysssss.json을 편집하여 wd-vit-large-tagger-v3 및 wd-eva02-large-tagger-v3를 추가 가능)

ClipInterrogator

https://github.com/unanan/ComfyUI-clip-interrogator

JoyCaption / Florence / MiniCPM

https://github.com/StartHua/Comfyui_CXH_joy_caption

JoyTag

https://github.com/StartHua/Comfyui_joytag

JoyCaption / JoyTag

https://github.com/aidenli/ComfyUI_NYJY

InternVL2

https://github.com/leeguandong/ComfyUI_InternVL2


JoyCaption만 사용하여 추론할 경우 https://github.com/MNeMoNiCuZ/joy-caption-batch를 시도해 보세요. ComfyUI 환경에 종속되지 않으며 속도가 매우 빠릅니다. 저자는 또한 여러 추론 도구를 제공합니다.

joy-caption-batch 설치는 다음과 같은 단계입니다:

1. git clone https://github.com/MNeMoNiCuZ/joy-caption-batch

2. venv_create.bat 실행 ...

3. venv_activate.bat 실행

4. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

모든 모델을 자동으로 다운로드하는(huggingface) 노드의 경우, HF_HOME 환경 변수를 설정하는 것이 좋습니다. (특히 ClipInterrogator의 경우) 모델과 함께 이동하기 편리합니다.

(ComfyUI 내에서 실행할 경우, 루트 디렉토리의 run_nvidia_gpu.bat 파일의 첫 번째 줄에 set HF_HOME=huggingface를 추가하세요.)

joy-caption-batch에서는 초기 환경 설정 후 venv_activate.bat에 set HF_HOME=hf를 추가할 수 있습니다. 또는 다음 내용의 새 배치 파일을 추가할 수 있습니다:

@echo off

cd %cd%

set HF_HOME=hf

set VENV_PATH=venv

:: set VENV_PATH=%cd%\venv

echo.

echo Activating virtual environment...

call "%%VENV_PATH%%\Scripts\activate"

echo Virtual environment activated.

echo %cd%

cmd /k python batch.py

pause

일부 매개변수를 사용자 정의하려면 batch.py를 수정하세요.

LOW_VRAM_MODE: True로 설정하면 저메모리 모드 사용

TEMPERATURE: 예측의 무작위성을 제어. 낮은 값은 출력을 더 집중적이고 결정론적으로, 높은 값은 무작위성을 증가

TOP_K: 각 단계에서 가능한 상위 K개의 선택만 샘플링 영역으로 제한. 낮은 값은 출력을 더 결정론적으로, 높은 값은 더 다양한 결과 허용

MAX_NEW_TOKENS: 생성할 최대 토큰 수. 생성 텍스트 길이를 제한.

저는 다음 세 가지 매개변수만 수정했습니다:

LOW_VRAM_MODE = True

TEMPERATURE = 0.35

MAX_NEW_TOKENS = 1024

기타 추론 도구:

https://github.com/smthemex/ComfyUI_Pic2Story

https://github.com/shadowcz007/comfyui-mixlab-nodes (추론 노드도 포함)

ollama 노드를 사용하여 다양한 대형 모델과 상호작용하여 이미지 설명을 생성하는 것도 가능합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.