QWEN Vision-to-Prompt Generator | Universal Image & Video Analysis
詳細
ファイルをダウンロード
モデル説明
🎨 QWEN ビジョン・トゥ・プロンプト生成器 | ユニバーサル画像・動画分析
Qwen3-VL を使用して、任意の画像や動画を超詳細でモデル最適化されたプロンプトに変換
📋 概要
このワークフローは、Qwen3-VL(Qwen ビジョン・ランゲージモデル)を活用して、画像または動画を分析し、ご使用のAIモデルに最適化された包括的で非常に詳細なプロンプトを生成します。FLUX、SDXL、WAN 2.1/2.2、またはその他のあらゆる生成モデルをご使用の場合でも、このワークフローは参照素材のあらゆるニュアンスを捉えたプロンプトを生成します。
以下のような用途に最適:
- 参照画像から詳細なプロンプトを生成
- 動画フレームを分析して一貫したプロンプト生成
- 成功した生成結果の逆エンジニアリング
- 包括的なトレーニングデータセットの構築
- モデル固有のプロンプト最適化の生成
⚙️ 必要条件
ComfyUI カスタムノード
- ComfyUI-QwenVL - ビジョン・ランゲージモデルの統合
- pythongosssss カスタムスクリプト(ShowText ノード)
- Core ComfyUI - LoadImage、LoadVideo、GetVideoComponents
モデル選択(VRAM の考慮)
推奨モデル:
- Qwen3-VL-8B-Instruct(デフォルト) - 8GB 以上の VRAM
- Qwen2.5-VL-7B-Instruct - 6GB 以上の VRAM(低VRAM向け)
- Qwen2-VL-2B-Instruct - 4GB 以上の VRAM(予算に優しいオプション)
量子化設定:
- 8-bit(バランス型) - ほとんどのユーザーに推奨
- 4-bit - 低VRAMシステム向け(3–4GB)
- フル精度 - 最高品質だが、12GB 以上の VRAM を必要とする
🚀 使用方法
基本ワークフロー
入力タイプを選択:
- 画像分析の場合: LoadImage ノードを使用し、LoadVideo および GetVideoComponents ノードは無効化
- 動画分析の場合: LoadVideo ノードを使用し、LoadImage ノードは無効化
QWEN ビジョンノードを設定:
- 利用可能な VRAM に応じてモデルサイズを選択
- 量子化レベルを選択(8-bit を推奨)
- アテンションモードを設定(デフォルトは sdpa)
プロンプト要求をカスタマイズ:
重要: カスタム質問フィールドを、対象モデルに合わせて更新してください
例:
"FLUX 用に超詳細なプロンプトを作成してください""SDXL 用に超詳細なプロンプトを作成してください""WAN 2.1 用に超詳細なプロンプトを作成してください""ZImage 用に超詳細なプロンプトを作成してください""Pony Diffusion 用に超詳細なプロンプトを作成してください"
生成して確認:
- ワークフローを実行
- ShowText ノードで生成されたプロンプトを表示
- 生成結果をコピーし、ご自身の生成ワークフローに使用
💡 使用のヒント
画像プロンプト
- 最適用途:キャラクター参照、シーン構成、スタイル分析
- サポート形式:PNG、JPG、WebP
- ヒント:より詳細な記述には高解像度の参照画像を使用
動画プロンプト
- 最適用途:動きの分析、一貫性のあるフレーム生成、キャラクターの動作
- サポート形式:MP4、AVI、MOV、WebM
- ヒント:QWEN は動画全体のシーケンスを分析して包括的なプロンプトを生成
- 注意:長い動画は処理に時間がかかります
モデル固有の最適化
カスタム質問には常にターゲットモデルを明記してください! 各モデルは異なるプロンプト構造に反応します:
- FLUX: 詳細なシーン記述、自然言語を好みます
- SDXL: 技術的詳細を含む構造化されたプロンプトに反応します
- WAN 2.1/2.2: 動きの記述と時間的要素の追加で効果的
- ZImage: 特定のスタイルキーワードと芸術的指向に最適化されています
パフォーマンス最適化
- 低VRAM(4–6GB): Qwen2-VL-2B に 4-bit 量子化を使用
- 中程度VRAM(8–12GB): Qwen3-VL-8B に 8-bit 量子化を使用
- 高スペック(16GB以上): 最大限の詳細を得るにはフル精度を使用
- メモリ問題: 最大トークン数を 1024 から 512 または 256 に減らす
🎯 ワークフロー機能
- デュアル入力対応: 画像と動画の分析をシームレスに切り替え
- モデル柔軟性: VRAM に応じて複数の QWEN モデルを選択可能
- 量子化オプション: 品質とパフォーマンスのバランスを調整
- カスタマイズ可能な出力: 特定モデルの要件に合わせてプロンプトを調整
- リアルタイムプレビュー: ShowText ノードで即座に結果を表示
📊 例:出力内容
このワークフローは、以下の要素を含む包括的なプロンプトを生成します:
- 被写体の記述(顔の特徴、衣装、ポーズ)
- 照明条件(方向、質感、雰囲気)
- 背景の文脈(環境、奥行き、構図)
- 技術的仕様(カメラアングル、被写界深度、カラーグレーディング)
- スタイルの参照(芸術的指向、ムード、トーン)
- モデル固有のキーワード(ターゲット生成モデルに最適化)
⚠️ 重要な注意点
- ノードの無効化を正しく行う: LoadImage と LoadVideo を同時に実行しない
- ターゲットモデルを明記: カスタム質問には必ず使用する生成モデルを記入
- VRAM 管理: クラッシュが発生した場合は、低い設定から開始
- 動画処理: 長い動画はより多くの VRAM と処理時間を必要とする
- プロンプトの微調整: 生成されたプロンプトを出発点とし、結果に応じて修正
🔧 トラブルシューティング
メモリ不足エラー:
- 小規模モデル(2B または 7B)に切り替え
- 4-bit 量子化を有効化
- 最大トークン数を 512 以下に減らす
- 他のアプリケーションを閉じる
処理が遅い:
- フル精度ではなく 8-bit 量子化を使用
- 動画の長さまたは解像度を減らす
- アテンションモードを確認(sdpa が最速)
出力が汎用的すぎる:
- カスタム質問にターゲットモデルを正しく記入しているか確認
- 最大トークン数を増やして詳細を増やす
- 高解像度の参照画像を使用
📈 ワークフロー統合
このワークフローは、以下と完美に組み合わせられます:
- マルチフェーズ SDXL ワークフロー(生成プロンプトをフェーズ1で使用)
- WAN 動画生成(一貫したプロンプトセットを作成)
- LoRA トレーニング準備(トレーニングデータ用の詳細キャプションを生成)
- コンテスト応募(勝利した生成結果を逆エンジニアリング)
🙏 クレジット
- Qwen VL モデル:アリババクラウドAI研究チーム
- ComfyUI-QwenVL:AIrjen
- ワークフロー設計:プロダクションコンテンツ生成向けに最適化
プロンプト生成を楽しんでください! 🚀
役に立ちましたか? ❤️ をつけて、コメント欄で生成したプロンプトを共有してください!

