Gemini, prompt generator

カスタムLLMプロンプトを使用して、画像を分析し、i2vモデルに適した形式のプロンプトとして出力します。

+Hunyuanでも使用できますが、カメラの動きに関連するプロンプトは除外することを推奨します。

また、APIキーを次のJSONファイルに記入してください：ComfyUI_windows_portable\ComfyUI\custom_nodes\comfyui-ollamagemini\config.json

25.05.15 - Gemini Pro版のフリーティアが利用できなくなったため、Flash版（2.0 flash または 2.5 flash）のみを使用する必要があります。

25.05.26 - 現在、最新のGemini Flashバージョンは gemini-2.5-flash-preview-05-20 です。

[変更ログ]

25.08.23/Gemini I2V Prompt for Wan2.2 V2（txtファイル）
i2v用のジャイルブレイクプロンプトの1つを修正しました。テストはGemini 2.5 Proおよび2.5 Flashモデルの完全なヌード女性画像を対象に行いました。ただし、英語でテキストを入力すると、おそらくコンテンツが検閲されます。→ 英語以外の言語でテキストをリクエストしてください。

25.07.30/Gemini I2V Prompt for Wan2.2 V1（txtファイル）[プロンプトが検閲済み]
NSFW画像はGemini 2.5 Pro/2.5 Flashモデルでも分析可能です。
これはNSFW RPプロンプトのバージョンであり、高レベルの検閲緩和を目的としています。

25.07.01/Gemini Video/Image Captioning UI beta

このツールはキューを使用して複数の動画および画像ファイルを処理します。3段階のキャプションパイプライン（個々のフレーム、統合要約、最終リライティング）を備えており、各ファイルに対してクリーンな.txtキャプションと詳細な.jsonログを生成します。
プロセス全体を完全に制御できます。フレームサンプリングをFPSまたは総フレーム数で調整し、すべてのプロンプトをカスタマイズしてテンプレートとして保存できます。非常に長いファイル用にオプションの動画分割モードも提供されています。
レート制限エラーを回避し、タスクの完了を保証するために、複数のAPIキーとモデルを自動的に切り替える堅牢なフォールバックシステムを備えています。API遅延や同時実行ワーカーの設定でパフォーマンスを微調整することも可能です。
直感的なGUIですべてを管理し、リアルタイムログを表示します。すべての設定は終了時に保存され、起動時に再読み込みされます。
このツールを実行するには、以下のコマンドで必要なライブラリをインストールする必要があります：

pip install PyQt5 opencv-python google-generativeai

現在のバージョンでは、不意のロジックの問題により「開始処理」と「停止処理」ボタンおよび出力ディレクトリの使用が不便になる場合があります。これは今後の更新で改善されます。

25.06.30/Standalone Gemini UI v2
UIの使い勝手を改善し、テンプレートにWAN 2.1 i2i v1.21bおよびFLUX kontext i2iプロンプトを追加しました。このプログラムを使用する前に、以下のコマンドで必要なライブラリをインストールしてください：pip install customtkinter google-generativeai pillow pyperclip googletrans==4.0.0-rc1 requests

25.05.30/v1.21b for Wan2.1 I2V
i2v更新：アクション制御の精度向上（新規構文/構造）、カメラ影響を軽減して動きの焦点を強化、NSFW拒否の可能性を向上。

25.05.21/Standalone Gemini UI（v1.1） - 既存のZIPファイルを更新しました。最新版が必要な場合は再ダウンロードしてください。

デフォルトプロンプトを変更し、gemini-2.0-flashおよびgemini-2.5-flash-preview-04-17の両方を通常通り使用できるようにしました。

ただし、NSFW画像分析はgemini-2.0-flashでのみ利用可能です（ただし、2.5 flashも時々利用可能）。分析が失敗する場合があります。（その場合は再試行してください。必ず成功します。）

さらに、最終プロンプトの翻訳機能を追加しました。これにより、既存のインストールコマンドは以下のとおり変更されます。

pip install google-generativeai customtkinter Pillow tkinterdnd2-Universal googletrans==3.1.0a0

25.05.17/Standalone Gemini UI

このプログラムは、ComfyUIワークフローとは完全に独立してGoogleのGeminiを活用するための専用ユーザーインターフェースを提供します。

なぜ分離したUIなのか？

ComfyUIで画像分析を行う際、よくある課題はWAN（または他の生成モデル）のアンロードです。これにより、再度画像生成に戻る際に大幅な遅延が発生します。Geminiを用いた画像分析にこのスタンドアロンUIを使用することで、ComfyUIの主な生成モデルをロードしたまま維持でき、時間を節約しワークフローの効率を向上させます。

デフォルトプロンプト（gemini_app_settings.json経由）

アプリケーションと同じフォルダーに提供されたgemini_app_settings.jsonファイルを配置すると、デフォルトのプロンプトセット（例：「v1.2a wan2.1 i2v」または指定したデフォルト）が自動的に読み込まれます。もちろん、このファイルを変更したり、UI内で独自のプロンプトを使用することも可能です。

はじめに - インストール

このアプリケーションを実行するには、いくつかのPythonライブラリをインストールする必要があります。コマンドプロンプト（CMD）またはターミナルを開き、以下のコマンドを入力してください：

pip install google-generativeai customtkinter Pillow tkinterdnd2-Universal

実行方法

システムにPythonがインストールされていることを確認してください。
上記のpip installコマンドで必要なライブラリをインストールしてください。
デフォルトプロンプト用のprompts.jsonファイル（ご持参の場合は）をPythonスクリプトと同じディレクトリに配置してください。
スクリプトを実行：コンソール画面を表示して実行するには、python gemini_ui.py

NSFW画像分析

NSFW画像を分析する場合は、「System Prompt」フィールドの最下部に該当するコンテンツの説明を追加してください。

[**ユーザ入力**: (あなたのプロンプト)]

=====

25.05.14/v1.0b Joy caption for i2v
完全で検閲されていない画像分析とi2vプロンプト生成にはJoyCaptionを使用します。生成される自然な動きの挙動は特徴的ですが、場合によってはGemini 2.0 Flash（以前からほぼ完全に検閲回避可能なバージョンが確立されています）ほどの滑らかさに達しないこともあります。
huggingfaceデモ: https://huggingface.co/spaces/fancyfeast/joy-caption-beta-one
github: https://github.com/fpgaminer/joycaption

25.05.05/v1.2a for i2v, v1.1a for start-end, v1.0a for Framepack
このバージョンは、最近改訂されたカスタムノードに合わせて更新され、NSFW画像やプロンプトの分析を確実に行えるようにしました。
+マネージャーで見つからない一部のカスタムノードを修正しました。これでカスタムノードのインストールに不快感を感じることはありません。
+ollamaminiカスタムノードの最新版が必要です。

25.04.18/v1.0 for start/end
最終プロンプトが長すぎる問題を解決し、開始フレームと終了フレーム間の遷移の整合性と視覚的接続性を改善し、翻訳ノードを追加しました。

25.04.18/v1.0 for FramePack
非常にシンプルなプロンプトを作成します。
https://github.com/lllyasviel/FramePack

25.04.14/v1.1 for i2v
過剰で不要な最終プロンプトが原因の問題を修正し、連続API呼び出しを回避するように調整しました。
*25.04.15/v1.1a - 翻訳ノードを追加

25.03.19/v1.0
LLMプロンプトに1つの誤った記号が含まれていた問題を修正しました。これは些細な変更ですが、英語以外の言語でテキストを入力する際の問題をわずかに改善する可能性があります。また、ストリームオプションのデフォルト設定をONからOFFに変更しました。

25.03.25/for start-end frame(beta) -> beta+（一部のプロンプトを修正して結果を改善）
kijaiワークフロー
開始画像と終了画像を分析し、i2v開始-終了ワークフローで使用する適切なプロンプトを生成します。ただし、画像や動きによっては終了フレームが正しく動作しない場合があります。（追加の動きを正しく入力できる場合、既存のv1.0ワークフローを利用して中間の動きを強化できます。）

モデルタイプ	その他
ベースモデル	Wan Video
公開日	3/25/2025

Gemini, prompt generator

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

カスタムLLMプロンプトを使用して、画像を分析し、i2vモデルに適した形式のプロンプトとして出力します。

このモデルで生成された画像