打标 - 批量反推 | Fast SD Model

ワンクリックパック：20240922 / 20240923 / 20241011

20241011_jc は JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip に対応
20241011_wd は WD14-Batch_20241010_1453_00b0af07.zip に対応
20240923_wd_2 は wd14-tagger-standalone_eff5dd41.zip に対応
20240922_wd は wdv3-batch-vit-tagger_27892e24.zip に対応
20240922_jt は joytag-batch_fbd67196.zip に対応
20240920_jc は joy-caption-batch_3abeaedf.zip に対応

ワークフロー：20240909

20241011

ChatGPTによるプログラミングの成果物：

wd-eva02-large-tagger-v3 と wd-vit-tagger-v3 を含み、デフォルトでは wd-eva02-large-tagger-v3 を使用します。

ファイル名: WD14-Batch_20241010_1453_00b0af07.zip
ファイルサイズ: 1.52 GB (1,634,922,203 バイト)
実際の使用量：1.80 GB
MD5: 3184C6FCB830BDB9CFFC2E307BA159DB
SHA1: 0026C42868C30A4FD1B30AFFCF93E1EC6CB0AF07
CRC32: 87D20904

https://github.com/SGN-EARTH/JoyCaption-Pre-Alpha-Batch

Meta-Llama-3.1-8B-bnb-4bit と Meta-Llama-3.1-8B を含み、デフォルトでは Meta-Llama-3.1-8B を使用します。

ファイル名: JoyCaption-Pre-Alpha-Batch_20241010_1331_93e4207a.zip
ファイルサイズ: 22.6 GB (24,289,098,531 バイト)
実際の使用量：28.8 GB
MD5: 091B95F624FB7FA9FBA8F4C406EDB4E8
SHA1: 93FEBC123C7683211D8BC4B36264EFD9C8E4207A
CRC32: 3184CCE2

20240923

ファイルを再アップロード。7-zip コマンドラインでパッキングしたため、以前よりもファイルサイズが少し小さくなっています。

7z a -tzip -mx=3 -mm=Deflate -mfb=32 -mpass=1 -mmt=16 -mtc=off -snl

ファイル名: wdv3-batch-vit-tagger_27892e24.zip
ファイルサイズ: 3.05 GB (3,276,890,333 バイト)
実際の使用量：5.64 GB
MD5: 258154EB8FA5F5CB54C70DBD73D1B918
SHA1: 27AFFE0A5E942409317661C3AA526F9BCE892E24
CRC32: 74642B7B

ファイル名: joytag-batch_fbd67196.zip
ファイルサイズ: 2.76 GB (2,967,319,456 バイト)
実際の使用量：4.94 GB
MD5: 1643EB2F9DC38C7D86D71DB5E4EF1C42
SHA1: FB41FCEC1781F369B49C064CF173D56F99D67196
CRC32: 043EDA1D

ファイル名: joy-caption-batch_3abeaedf.zip
ファイルサイズ: 10.6 GB (11,465,193,889 バイト)
実際の使用量：13.9 GB
MD5: B400006D28EE76AF67D89F14F59E0432
SHA1: 3A23FAE5A79D938744871E7A4394B27E16BEAEDF
CRC32: BA9D55C0

ファイル名: wd14-tagger-standalone_eff5dd41.zip
ファイルサイズ: 6.98 GB (7,501,150,905 バイト)
実際の使用量：8.38 GB
MD5: 5878151167DEDDDBC0FB6E1222F2045C
SHA1: EFE0382F28ECFDDD62E3570163FE4A14D7F5DD41
CRC32: DDED6CCB

圧縮時にシンボリックリンクが保持されているため、一部のシステムでは完全に展開できない可能性があります。その場合は、展開ツールに管理者権限を与えてから展開してください。

スタートメニュー → 7-zip → (右クリック → もう少し → 管理者として実行) → ファイルを探す → 右クリックして展開

個人的には joytag の使用は推奨しません。男性を女性と認識するケースがあり、余計な単語が付加されることもあります。もしすべての画像をチェックしてラベルを確認するなら、それは非常に優秀→_→

wd14-tagger-standalone

https://github.com/corkborg/wd14-tagger-standalone

画像を input フォルダに置き、run2.bat を実行してください。または、python run.py -h を実行して使用方法を確認してください。

パッケージには以下のモデルが含まれています：

wd14-vit.v1
SmilingWolf/wd-v1-4-vit-tagger

wd14-vit.v2
SmilingWolf/wd-v1-4-vit-tagger-v2

wd14-convnext.v1
SmilingWolf/wd-v1-4-convnext-tagger

wd14-convnext.v2
SmilingWolf/wd-v1-4-convnext-tagger-v2

wd14-convnextv2.v1
SmilingWolf/wd-v1-4-convnextv2-tagger-v2

wd14-swinv2-v1
SmilingWolf/wd-v1-4-swinv2-tagger-v2

wd-v1-4-moat-tagger.v2
SmilingWolf/wd-v1-4-moat-tagger-v2

wd-v1-4-vit-tagger.v3
SmilingWolf/wd-vit-tagger-v3

wd-v1-4-convnext-tagger.v3
SmilingWolf/wd-convnext-tagger-v3

wd-v1-4-swinv2-tagger.v3
SmilingWolf/wd-swinv2-tagger-v3

wd-vit-large-tagger-v3
SmilingWolf/wd-vit-large-tagger-v3

wd-eva02-large-tagger-v3
SmilingWolf/wd-eva02-large-tagger-v3

z3d-e621-convnext-toynya
toynya/Z3D-E621-Convnext

z3d-e621-convnext-silveroxides
silveroxides/Z3D-E621-Convnext

mld-caformer.dec-5-97527
deepghs/ml-danbooru-onnx

mld-tresnetd.6-30000
deepghs/ml-danbooru-onnx

。。。あるいは、wd-joy-caption-cli を試してみてください。これは WD14 と JoyCaption を統合したものです。

20240922

いわゆるワンクリックパック。

wdv3-batch-vit-tagger

https://github.com/Ketengan-Diffusion/wdv3-batch-vit-tagger

run2.bat を実行し、ブラウザで操作してください。

パラメータを少し変更：【Hide rating tags】と【Character tags first】ボタンをデフォルトでチェック済みに；実行時に自動でブラウザを開くようにしました。

実際の使用量：5.64GB

ファイル名: wdv3-batch-vit-tagger.zip
ファイルサイズ: 3.37 GB (3,629,678,604 バイト)
MD5: 06A39A326055D4F38107A56C99D7CFCA
SHA1: 441A76087458EE93765E029947E64C5AF7F5377B
CRC32: 41B9B143

joytag-batch

https://github.com/MNeMoNiCuZ/joytag-batch

画像を input フォルダに置き、run2.bat を実行してください。

少し変更：

# batch.py
import sys
# 現在のディレクトリをsys.pathに追加
sys.path.append(os.path.dirname(os.path.abspath(__file__)))

実際の使用量：4.94GB

ファイル名: joytag-batch.zip
ファイルサイズ: 2.76 GB (2,967,319,429 バイト)
MD5: B4C1AE347A9F81DEA7422B18F6454F65
SHA1: 430C5A370D609F771B386BDFE072CE768136DD07
CRC32: 88AC5CC9

20240920

いわゆるワンクリックパック。

オリジナルプロジェクト joy-caption-batch とは関係ありません。プロジェクトに関する問題は作者にご質問ください。私はただ熱心を装う中国のネットユーザーにすぎません。

ディレクトリを別のパスや別のPCに移動しても動作します。VRAM使用量は約9.1GB。RTX3060_12G および RTX2080Ti_22G で正常に動作を確認済み。その他の環境はご自身でテストしてください。

実際の使用量：13.9GB。圧縮後のサイズ18.5GBはファイルリンクの問題です。

ファイル名: joy-caption-batch.zip
ファイルサイズ: 18.5 GB (19,935,163,190 バイト)
MD5: 999699AEF755D1487EB3DD4DCF7161E6
SHA1: 9B560FBFA79DFF0BD1EA169F06781CD6F3A09FD9
CRC32: 10BC9D3F

使用方法：

画像を input フォルダに置き、run2.bat を実行するか、run.bat を実行した後に python batch.py を実行してください。

batch2.py は ChatGPT によってオフラインモデルを使用するように改造されたものです。batch.py では HF_HOME 環境変数を設定してモデルをダウンロード済みですが、実行時にはまだ HuggingFace にリクエストを送信する場合があります。

最善の方法は完全にネットワークを切断して実行すること、または HuggingFace へのアクセスが可能なネットワーク環境で実行することです。それでもダメなら python batch2.py を実行してください。また、環境変数 HF_ENDPOINT を設定することも試してみてください。

簡単な「逃げパック」作成手順：

（SSSVIP会員になる / 三連して！ / 別のクラウドストレージに変えて！ / XXXX！XXXX！XXX！）

ファイルを取得

git clone https://github.com/MNeMoNiCuZ/joy-caption-batch.git

ダウンロード

https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip

https://bootstrap.pypa.io/get-pip.py

インストール開始

python-3.11.9-embed-amd64.zip を python ディレクトリに展開し、get-pip.py を python ディレクトリに置く。その後、python ディレクトリを joy-caption-batch ディレクトリ内に移動する。

run.bat を実行し、python python\get-pip.py を実行する。

python\python311._pth を編集し、import site の行の先頭にある # を削除してファイルを保存する。

依存関係のインストール

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

python -m pip install -r requirements.txt

run.bat の内容

@echo off

cd /d %cd%
:: cd /d %~dp0

set DIR=%cd%

:: https://www.python.org/ftp/python/
:: https://www.python.org/ftp/python/3.11.9/python-3.11.9-embed-amd64.zip
:: https://bootstrap.pypa.io/get-pip.py

set PATH=%DIR%\python;%DIR%\python\Scripts;%PATH%;
:: set PATH=%DIR%\git\bin;%DIR%\python;%DIR%\python\Scripts;%PATH%;
set PY_LIBS=%DIR%\python\Scripts\Lib;%DIR%\python\Scripts\Lib\site-packages
set PY_PIP=%DIR%\python\Scripts
set PIP_INSTALLER_LOCATION=%DIR%\python\get-pip.py

set HF_HOME=%DIR%\hf
:: set HF_ENDPOINT=https://hf-mirror.com
:: set HUGGINGFACE_HUB_DISABLE_CACHE=1

:: pip をインストール後、使用できない場合は %DIR%\python\pythonXXX._pth を編集し、import site のコメントを外してください

:: Python スクリプトが現在のディレクトリを sys.path に追加
::      import os
::      import sys
::      sys.path.append(os.path.dirname(os.path.abspath(__file__)))

:: パッケージの一時キャッシュパス
set PIP_CACHE_DIR=%DIR%\cache

:: キャッシュ。off で無効、on で有効
:: set PIP_NO_CACHE_DIR=off

:: パッケージインデックスURL
set PIP_INDEX_URL=https://mirrors.cloud.tencent.com/pypi/simple
:: https://pypi.org/simple
:: https://mirrors.163.com/pypi/simple/
:: https://mirrors.cloud.tencent.com/pypi/simple
:: https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

:: python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

:: その他のパッケージインデックスURL
:: set PIP_EXTRA_INDEX_URL=https://pypi.org/simple

:: パッケージインデックスのタイムアウト時間。単位：秒。
set PIP_TIMEOUT=10

:: より詳細なデバッグ情報
:: set PIP_VERBOSE=1

cmd /k

この作成方法は多くの Python プロジェクトに適用可能です。

あるいは、この方法も見てみてください：

統合パック？あなたにもできます。AIプロジェクトをパッケージ化、CUDAをパッケージ化、CUDNNをパッケージ化、TensorRTをパッケージ化、FFMPEGをパッケージ化、AIプロジェクト統合パックの作成

https://www.bilibili.com/video/BV1jMyeYrErW/

20240909

圧縮ファイルには4つのファイルが含まれています。JoyCaption_WD14-JoyTag_Batch_XX：WD14、JoyTag、またはJoyCaptionを使用して、一括入力・出力の逆推論を実行。入力・出力ノードのみ異なります。

WD14-ClipInterrogator-JoyTag-JoyCoption-MiniCPMv2-CogFlorence2-InternVL2.json：1枚の画像にこれらのツールをすべて使用して逆推論します。
JoyCaption_WD14-JoyTag_Batch_V1.json：1回の実行で新しい画像1枚を入力し、実行回数をComfyUIのバッチ数で調整します。1組が終了すると次の組へ進み、すべての組が終了したら次の画像へ進みます。ノードはテキストを出力し、ファイル名は画像名になります。
JoyCaption_WD14-JoyTag_Batch_V2.json：1回の実行ですべての画像を出力し、1つのノードが終了したら次のノードへ進み、1組が終了したら次の組へ進みます。ノードはテキストを出力します。
JoyCaption_WD14-JoyTag_Batch_V3.json：（V2と同様）ノードは画像とテキストを出力し、出力された画像とテキストは同一ディレクトリにあります。

V2とV3のWD14ノードパネルは、画像が増えるほど長くなります。

WD14

https://github.com/pythongosssss/ComfyUI-WD14-Tagger

（pysssss.json を編集すると、wd-vit-large-tagger-v3 および wd-eva02-large-tagger-v3 を追加できます）

ClipInterrogator

https://github.com/unanan/ComfyUI-clip-interrogator

JoyCaption / Florence / MiniCPM

https://github.com/StartHua/Comfyui_CXH_joy_caption

JoyTag

https://github.com/StartHua/Comfyui_joytag

JoyCaption / JoyTag

https://github.com/aidenli/ComfyUI_NYJY

InternVL2

https://github.com/leeguandong/ComfyUI_InternVL2

JoyCaption の逆推論のみを使用する場合は、https://github.com/MNeMoNiCuZ/joy-caption-batch を試してみてください。ComfyUI環境から完全に独立しており、高速です。作者は複数の逆推論ツールを提供しています。

joy-caption-batch のインストール手順は以下の通り：

1. git clone https://github.com/MNeMoNiCuZ/joy-caption-batch

2. venv_create.bat を実行...

3. venv_activate.bat を実行

4. pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

モデル（huggingface）を自動ダウンロードするノードの場合は、環境変数 HF_HOME を設定するのが最善です（特に ClipInterrogator で重要）。

（ComfyUI の場合は、ルートディレクトリの run_nvidia_gpu.bat の先頭に set HF_HOME=huggingface を追加できます。）

joy-caption-batch では、初期環境構築後に venv_activate.bat に set HF_HOME=hf を追加できます。または、次の内容の新しいバッチファイルを作成できます：

@echo off

cd %cd%

set HF_HOME=hf

set VENV_PATH=venv

:: set VENV_PATH=%cd%\venv

echo.

echo Activating virtual environment...

call "%%VENV_PATH%%\Scripts\activate"

echo Virtual environment activated.

echo %cd%

cmd /k python batch.py

pause

いくつかのパラメータをカスタマイズしたい場合は、batch.py を編集してください。

LOW_VRAM_MODE：True にすると低VRAMモードを使用

TEMPERATURE：予測のランダム性を制御。低い値は出力を集中させ決定論的にする。高い値はランダム性を増加させる。

TOP_K：各ステップで最も可能性の高い上位K個のオプションのみをサンプリング対象にする。低い値は出力を決定論的に、高い値は多様性を増やす。

MAX_NEW_TOKENS：生成できる最大トークン数。生成テキストの長さを制限する。

個人的には以下の3つのパラメータのみ変更しました：

LOW_VRAM_MODE = True

TEMPERATURE = 0.35

MAX_NEW_TOKENS = 1024

その他の逆推論ツール：

https://github.com/smthemex/ComfyUI_Pic2Story

https://github.com/shadowcz007/comfyui-mixlab-nodes （逆推論ノードもあり）

ollama ノードを使ってさまざまな大モデルとやりとりし、画像の説明を生成することも可能です。

モデルタイプ	その他
ベースモデル	Other
公開日	9/20/2024

打标 - 批量反推

詳細

ファイルをダウンロード

モデル説明