The Snap Machine

詳細

ファイルをダウンロード

モデル説明

Snap Machineは、画像とそれに適したソーシャルメディア用キャプションを生成する完全に自立したComfyUIワークフローです。まず画像を生成し、次にBLIPで画像を分析し、最後にLLMを使用して画像の内容に基づいてキャプションを生成します。

Snap Machineの使い方

1️⃣ 画像を生成する – まず、Snap Machineを無効にして画像を生成し、クリーンなベース出力を得ます。

2️⃣ シードを固定する – 気に入った画像ができた後、その画像を正確に再利用できるようにシードを固定します。

3️⃣ キャプションを生成する – Snap Machineを有効にして、BLIPが画像を分析し、LLMがカスタムプロンプトに基づいてより自然で魅力的なキャプションに調整します。複数回生成して異なるオプションを確認してください。キャプションが切り捨てられる場合は、トークン制限を調整したりLLMの設定を微調整したりすることで出力を改善できます。

4️⃣ キャプションの位置を調整する – キャプションが顔の上や不適切な場所に表示された場合、Snap Machineのシードを固定したまま生成を繰り返します。これにより、キャプションの位置がランダムに変化し、適切な配置が見つかるまで繰り返せます。

動作原理

Snap Machineは、LLMにBLIPの出力を使用して最終的なキャプションを生成する方法を指示するプリプロンプトを用いて動作します。

1️⃣ BLIPが画像を分析し、内容の基本的な説明を生成します。

2️⃣ プリプロンプトは、LLMにBLIPの出力を自然なキャプションに書き換えるためのスタイルとトーンを指定します。

3️⃣ BLIPの説明とプリプロンプトの両方がLLMノードに送られ、最終的なキャプションに洗練されます。

結果を微調整するために、以下の3つの主要な部分を調整できます:

  • プリプロンプト(LLMがBLIPの出力をどのように使用するかを変更)
  • BLIPの設定(画像の説明方法を制御)
  • LLMパラメータ(長さ、ランダム性、表現を調整)

これにより、キャプションの印象や音声を完全に制御でき、さまざまなスタイルにカスタマイズできます。

リソース

ComfyでLLMを設定する:

私が使用しているLLMは、https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/tree/main から入手可能な Toppy-M-7B.q4_k_s です。

注意事項

ポジティブプロンプトのセクションは3つのノードで構成されており、中央にワイルドカードプロセッサを使用しています。この設定により、プロンプトの構造を柔軟かつ動的に保ちながら、制御されたバリエーションを導入できます。

このモデルで生成された画像

画像が見つかりません。