打标 - 批量反推 | Fast SD Model

一键包：20240922 / 20240923 / 20241011

20241011_jc 对应 JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
20241011_wd 对应 WD14-Batch_20241010_1453_00b0af07.zip
20240923_wd_2 对应 wd14-tagger-standalone_eff5dd41.zip 。
20240922_wd 对应 wdv3-batch-vit-tagger_27892e24.zip 。
20240922_jt 对应 joytag-batch_fbd67196.zip 。
20240920_jc 对应 joy-caption-batch_3abeaedf.zip 。

工作流：20240909

20241011

面向 ChatGPT 编程的产物：

包含 wd-eva02-large-tagger-v3 和 wd-vit-tagger-v3 ，默认使用 wd-eva02-large-tagger-v3 。

文件名称: WD14-Batch_20241010_1453_00b0af07.zip
文件大小: 1.52 GB (1,634,922,203 字节)
实际占用：1.80 GB
MD5: 3184C6FCB830BDB9CFFC2E307BA159DB
SHA1: 0026C42868C30A4FD1B30AFFCF93E1EC6CB0AF07
CRC32: 87D20904

https://github.com/SGN-EARTH/JoyCaption-Pre-Alpha-Batch

包含 Meta-Llama-3.1-8B-bnb-4bit 和 Meta-Llama-3.1-8B ，默认使用 Meta-Llama-3.1-8B 。

文件名称: JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
文件大小: 22.6 GB (24,289,098,531 字节)
实际占用：28.8 GB
MD5: 091B95F624FB7FA9FBA8F4C406EDB4E8
SHA1: 93FEBC123C7683211D8BC4B36264EFD9C8E4207A
CRC32: 3184CCE2

20240923

重新上传文件。使用 7-zip 命令行打包文件，文件大小会比之前的少上一些。

7z a -tzip -mx=3 -mm=Deflate -mfb=32 -mpass=1 -mmt=16 -mtc=off -snl

文件名称: wdv3-batch-vit-tagger_27892e24.zip 文件大小: 3.05 GB (3,276,890,333 字节) 实际占用：5.64 GB MD5: 258154EB8FA5F5CB54C70DBD73D1B918 SHA1: 27AFFE0A5E942409317661C3AA526F9BCE892E24 CRC32: 74642B7B 文件名称: joytag-batch_fbd67196.zip 文件大小: 2.76 GB (2,967,319,456 字节) 实际占用：4.94 GB MD5: 1643EB2F9DC38C7D86D71DB5E4EF1C42 SHA1: FB41FCEC1781F369B49C064CF173D56F99D67196 CRC32: 043EDA1D 文件名称: joy-caption-batch_3abeaedf.zip 文件大小: 10.6 GB (11,465,193,889 字节) 实际占用：13.9 GB MD5: B400006D28EE76AF67D89F14F59E0432 SHA1: 3A23FAE5A79D938744871E7A4394B27E16BEAEDF CRC32: BA9D55C0

文件名称: wd14-tagger-standalone_eff5dd41.zip 文件大小: 6.98 GB (7,501,150,905 字节) 实际占用：8.38 GB MD5: 5878151167DEDDDBC0FB6E1222F2045C SHA1: EFE0382F28ECFDDD62E3570163FE4A14D7F5DD41 CRC32: DDED6CCB

因压缩时保留了符号链接，某些系统可能无法完整解压，可尝试先给解压缩工具管理员权限再解压。

开始菜单 -> 7-ip -> （右键 - 更多 - 以管理员身份运行）-> 找到文件 -> 右键解压

个人不建议使用 joytag 。有些图男的能识别成女的，有些还带上多余的单词。如果打标每张图都审核确认一番，那就很牛逼→_→

wd14-tagger-standalone

https://github.com/corkborg/wd14-tagger-standalone

把图片丢 input 里，运行 run2.bat 。或者运行 python run.py -h 查看使用帮助。

包已包含以下模型： wd14-vit.v1 SmilingWolf/wd-v1-4-vit-tagger wd14-vit.v2 SmilingWolf/wd-v1-4-vit-tagger-v2 wd14-convnext.v1 SmilingWolf/wd-v1-4-convnext-tagger wd14-convnext.v2 SmilingWolf/wd-v1-4-convnext-tagger-v2 wd14-convnextv2.v1 SmilingWolf/wd-v1-4-convnextv2-tagger-v2 wd14-swinv2-v1 SmilingWolf/wd-v1-4-swinv2-tagger-v2 wd-v1-4-moat-tagger.v2 SmilingWolf/wd-v1-4-moat-tagger-v2 wd-v1-4-vit-tagger.v3 SmilingWolf/wd-vit-tagger-v3 wd-v1-4-convnext-tagger.v3 SmilingWolf/wd-convnext-tagger-v3 wd-v1-4-swinv2-tagger.v3 SmilingWolf/wd-swinv2-tagger-v3 wd-vit-large-tagger-v3 SmilingWolf/wd-vit-large-tagger-v3 wd-eva02-large-tagger-v3 SmilingWolf/wd-eva02-large-tagger-v3 z3d-e621-convnext-toynya toynya/Z3D-E621-Convnext z3d-e621-convnext-silveroxides silveroxides/Z3D-E621-Convnext mld-caformer.dec-5-97527 deepghs/ml-danbooru-onnx

mld-tresnetd.6-30000 deepghs/ml-danbooru-onnx

。。。或者试试 wd-joy-caption-cli 集成了 WD14 和 JoyCaption 。

20240922

所谓的一键包。

wdv3-batch-vit-tagger

https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger

运行 run2.bat 后在浏览器内操作。

修改了一点点参数：【Hide rating tags】和【Character tags first】按钮默认勾选；运行自动打开浏览器。

文件实际占用 5.64GB

文件名称: wdv3-batch-vit-tagger.zip
文件大小: 3.37 GB (3,629,678,604 字节)
MD5: 06A39A326055D4F38107A56C99D7CFCA
SHA1: 441A76087458EE93765E029947E64C5AF7F5377B
CRC32: 41B9B143

joytag-batch

https://github.com/MNeMoNiCuZ/joytag-batch

把图片丢 input 里，运行 run2.bat 。

修改了一点点：

# batch.py
import sys
将当前目录添加到sys.path
sys.path.append(os.path.dirname(os.path.abspath(file)))

文件实际占用 4.94GB 。

文件名称: joytag-batch.zip
文件大小: 2.76 GB (2,967,319,429 字节)
MD5: B4C1AE347A9F81DEA7422B18F6454F65
SHA1: 430C5A370D609F771B386BDFE072CE768136DD07
CRC32: 88AC5CC9

20240920

所谓的一键包。

原始项目 joy-caption-batch 和我没有关联，有项目的问题可以找大佬问。我只是一位假装热心的大陆网友。

目录迁移到其他路径或其他电脑仍能运行。显存占用 9.1 GB 左右，RTX3060_12G 和 RTX2080Ti_22G 测试能正常运行，其他自己测试。

文件实际占用 13.9GB ，压缩后占用 18.5GB 是文件链接的毛病。

文件名称: joy-caption-batch.zip
文件大小: 18.5 GB (19,935,163,190 字节)
MD5: 999699AEF755D1487EB3DD4DCF7161E6
SHA1: 9B560FBFA79DFF0BD1EA169F06781CD6F3A09FD9
CRC32: 10BC9D3F

怎么使用：

把图片丢 input 目录内，运行 run2.bat 或者运行 run.bat 后再执行 python batch.py 。

batch2.py 是让 ChatGPT 改造成了使用离线模型。batch.py 配置了 HF_HOME 模型也下载完成了，有时候运行时还是请求 huggingface 。

~~最好完全断网再运行，或保证网络能访问 huggingface ，再不行就运行 python batch2.py ，也可以尝试配置环境变量 HF_ENDPOINT 。~~

简单创建跑路包流程：

（开个 SSSVIP 会员 / 三连了，求发！我什么都可以做！ / 换个网盘吧 / XXXX！XXXX！XXX！）

1.获取文件

git clone https://github.com/MNeMoNiCuZ/joy-caption-batch.git

2.下载

https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip

https://bootstrap.pypa.io/get-pip.py

3.开始安装

解压 python-3.11.9-embed-amd64.zip 到 python 目录，把 get-pip.py 丢 python 目录中，然后把 python 目录移动到 joy-caption-batch 目录内；
运行 run.bat ，执行 python python\get-pip.py ；
编辑 python\python311._pth 把 import site 所在行开头的 # 符号去除，保存文件。

4.安装依赖

python -m pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu124

python -m pip install -r requirements.txt

run.bat 内容

@echo off
cd /d %cd%
:: cd /d %~dp0
set DIR=%cd%
:: https://www.python.org/ftp/python/
:: https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
:: https://bootstrap.pypa.io/get-pip.py
set PATH=%DIR%\python;%DIR%\python\Scripts;%PATH%;
:: set PATH=%DIR%\git\bin;%DIR%\python;%DIR%\python\Scripts;%PATH%;
set PY_LIBS=%DIR%\python\Scripts\Lib;%DIR%\python\Scripts\Lib\site-packages
set PY_PIP=%DIR%\python\Scripts
set PIP_INSTALLER_LOCATION=%DIR%\python\get-pip.py
set HF_HOME=%DIR%\hf
:: set HF_ENDPOINT=https://hf-mirror.com
:: set HUGGINGFACE_HUB_DISABLE_CACHE=1
:: 安装 pip 后不可使用时，可尝试编辑 %DIR%\python\pythonXXX._pth 去掉 import site 的注释
:: python 脚本将当前目录添加到 sys.path
::      import os
::      import sys
::      sys.path.append(os.path.dirname(os.path.abspath(file)))
:: 包临时缓存路径
set PIP_CACHE_DIR=%DIR%\cache
:: 缓存。off 禁用，on 启用
:: set PIP_NO_CACHE_DIR=off
:: 包索引 URL
set PIP_INDEX_URL=https://mirrors.cloud.tencent.com/pypi/simple
:: https://pypi.org/simple
:: https://mirrors.163.com/pypi/simple/
:: https://mirrors.cloud.tencent.com/pypi/simple
:: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
:: python -m pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu124
:: 额外包索引 URL
:: set PIP_EXTRA_INDEX_URL=https://pypi.org/simple
:: 请求包索引超时时间。单位：秒。
set PIP_TIMEOUT=10
:: 更详细的调试信息
:: set PIP_VERBOSE=1
cmd /k

这个创建方式适用于很多 python 项目。

或者看看这个方式：

整合包？你也能做,打包AI项目,打包CUDA,打包CUDNN,打包TensorRT,打包FFMPEG,AI项目整合包制作

https://www.bilibili.com/video/BV1jMyeYrErW/

20240909

压缩包内包含四个文件。JoyCaption_WD14-JoyTag_Batch_XX ：使用 WD14、JoyTag 或 JoyCoption 批量输入输出反推，仅输入输出节点不一样。

WD14-ClipInterrogator-JoyTag-JoyCoption-MiniCPMv2-CogFlorence2-InternVL2.json ：单一张图使用那么多的工具反推。
JoyCaption_WD14-JoyTag_Batch_V1.json ：执行一次会输入一张新的图片，想要跑几张就修改 ComfyUI 执行的批次数量。跑完一组后会进入下一组。所有组跑完后进入下一张。节点会输出文本，文本文件名称为图片名称。
JoyCaption_WD14-JoyTag_Batch_V2.json ：执行一次会把索引图片都输出，跑完一个节点后会进入下一个节点，跑完一组后会进入下一组。节点会输出文本。
JoyCaption_WD14-JoyTag_Batch_V3.json ：（同V2）节点会输出图片和文本，输出的图片和文本处于同一目录内。

V2 和 V3 的 WD14 节点面板会越界，图片越多面板拉得越长。

WD14

https://github.com/pythongosssss/ComfyUI-WD14-Tagger

（编辑 pysssss.json 可以再加入 wd-vit-large-tagger-v3 和 wd-eva02-large-tagger-v3）

ClipInterrogator

https://github.com/unanan/ComfyUI-clip-interrogator

JoyCaption / Florence / MiniCPM

https://github.com/StartHua/Comfyui_CXH_joy_caption

JoyTag

https://github.com/StartHua/Comfyui_joytag

JoyCaption / JoyTag

https://github.com/aidenli/ComfyUI_NYJY

InternVL2

https://github.com/leeguandong/ComfyUI_InternVL2

如果仅使用 JoyCaption 反推，可以试试 https://github.com/MNeMoNiCuZ/joy-caption-batch ，完全脱离 Comfyui 环境，速度很快。作者也有好几个用于反推的工具。

安装 joy-caption-batch 大概是这些流程：

1，git clone https://github.com/MNeMoNiCuZ/joy-caption-batch 2，运行 venv_create.bat … 3，运行 venv_activate.bat

4，pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu121

对于各种自动下载模型（huggingface）的节点，最好设置环境变量 HF_HOME 。方便带着模型跑路（特别是 ClipInterrogator ）。

（如果是 Comfyui 里可以编辑根目录 run_nvidia_gpu.bat 在首行添加 set HF_HOME=huggingface 。）

在 joy-caption-batch 中可以在完成初始环境后编辑 venv_activate.bat 添加 set HF_HOME=hf 环境变量。或者新增一个批处理，内容如下：

@echo off cd %cd% set HF_HOME=hf set VENV_PATH=venv :: set VENV_PATH=%cd%\venv echo. echo Activating virtual environment… call “%%VENV_PATH%%\Scripts\activate” echo Virtual environment activated. echo %cd% cmd /k python batch.py

pause

自定义某些参数可以修改编辑 batch.py

LOW_VRAM_MODE：为 True 使用低显存模式 TEMPERATURE：控制预测的随机性。较低的值使输出更集中且确定性更强，而较高的值则增加随机性。 TOP_K：将采样池限制为每一步最可能的前 K 个选项。较低的值使输出更具确定性，而较高的值则允许更多的多样性

MAX_NEW_TOKENS：生成的最大令牌数。这限制了生成文本的长度。

个人仅修改了这三个参数：

LOW_VRAM_MODE = True
TEMPERATURE = 0.35
MAX_NEW_TOKENS = 1024

其他反推工具：

https://github.com/smthemex/ComfyUI_Pic2Story

https://github.com/shadowcz007/comfyui-mixlab-nodes （也有反推节点）

使用 ollama 节点跟各种大模型扯皮输出图片描述也不是不行。

모델 유형	기타
기본 모델	Other
게시일	2024-10-11

打标 - 批量反推

세부 정보

파일 다운로드 (1)

모델 설명