Dataset Caption Tool for Comfyui

13.08.
小さなバグを修正

更新日：2025年9月8日

以前のワークフローでは画像ローダーに問題があったため、エラーなく画像を読み込むカスタムノードを自作しました。

今回は、GPTをキャプション生成に使用し、カスタム指示も併用しています。

オープンソースのVLMに置き換えることも可能ですが、全体的にGPTが最も優れています。

2024年10月24日更新：Joytagキャプションを追加

2024年4月29日更新：ビジョンモデルをMoondream2からllavaに変更しました。

llavaモデルを使用するには、Ollamaをインストールする必要があります。これにより、llavaをローカルで実行でき、ComfyUIはローカルAPI経由でllavaと通信できます。
Ollama GitHub：

2024年3月25日更新：誤ったカウントを引き起こしていたバグを修正しました。

Comfy Moondream Caption（ComfyUI用データセットキャプションツール）

Comfy Moondream Captionへようこそ。ローカルのLMMを使用して画像にキャプションを生成するためのツールです。以下の手順に従って開始してください：

このワークフローは、最大9999枚までの画像データセットに対応しています。

画像フォルダーの選択：

「folder_path」オプションに移動し、画像が格納されているフォルダーを選択してください。画像はサポートされている形式（例：PNG、JPEG）であることを確認してください。

命名規則：

選択したフォルダー内の画像は、順番に番号付けされている必要があります（例："0001.png"、"0002.png" など）。この番号付けは正しく処理するために不可欠です。

バッチキャプションの有効化：

バッチキャプションを有効にするには、Comfy UIの「Extra Options」セクションに移動してください。

「Auto Queue」を選択して、選択したフォルダー内のすべての画像に対してキャプションを生成します。

キャプションの生成：

フォルダーとオプションを設定したら、「Que Prompt」ボタンをクリックしてキャプション生成プロセスを開始します。

Comfy Moondream Captionは、フォルダー内の各画像を分析し、キャプションを生成します。

後処理：

キャプション生成プロセスが完了したら、開始インデックスを手動で0にリセットしてください。これにより、次回のデータセット処理の際にツールが先頭から処理を再開します。

追加のデータセットでの繰り返し：

さらに分析するデータセットがある場合は、新しい画像が含まれるフォルダーを選択して同じ手順を繰り返してください。

インストール：

このワークフローを設定するには、Kijaiが開発したComfyUI Moondreamカスタムノードが必要です。以下から入手できます：https://github.com/kijai/ComfyUI-moondream