VR we are!

詳細

ファイルをダウンロード

モデル説明

「VR we are」4.0 は以下の機能を提供します:

  • Pythonアプリ:画像と動画を管理するためのシンプルなトリム・クロップエディタ。AIコンテンツクリエイター向けに最適化され、評価機能を備えています。(画像参照)

  • カスタマイズ可能なパイプライン:多くのステージを備え、ワークフローを簡素化。AI以外のコンテンツも処理可能で、他のツールと連携:

    • ステレオ3D(SBS)への変換 — 独立したCLIインストール可能(Linux対応)

    • Topaz Video AI CLIのスケーリングおよび補間対応。(フォールバック:ComfyUIワークフロー)

    • GoogleTransとexiftoolを使用して、翻訳されたキャプションで動画にタグを付与。

  • ComfyUI用の複数のカスタムノード:ワークフロー用。

パイプラインステージ概要(詳細はマニュアルをご覧ください):

... テンプレートに基づいてさらにタスクを作成!

パイプラインの状態とグラフィカルな概要:

インストールとドキュメント

インストールは、zipファイル内の installer フォルダにあるインストーラーで行えます。docsフォルダにユーザー手册(PDF)が同梱されています。

進行状況を追いたいだけの場合は、私たちの小さなDiscord内の「roadmap-and-progress」チャンネルをご覧ください。そこで問題を報告したりフィードバックを提供することもできます。

以前のバージョンには、「VR we are」を使用したVRコンテンツ生成の多数のサンプルが含まれています。

抽象的な概要

「VR we are」は、AIクリエイターを支援し、ローカルコンピュータ上の人工知能(AI)モデルを使って、従来の動画や画像といったマルチメディアコンテンツをバーチャルリアリティ(VR)環境に取り込むための没入型生産性・創造性ソフトウェアです。ほとんどの処理はオフラインで実行できます。

以下の画像は、「VR we are」の構成要素を示しています:

「VR we are」は以下のソフトウェアを基盤としています:

  • ComfyUIは、ビジュアルAI分野の基盤となるオープンソースソフトウェアです。
    「VR we are」はこれを配布・実行プラットフォームとして使用しています。

    • Stereoscopicは、ComfyUI用のカスタムノードパッケージで、「VR we are」ソフトウェアを含んでいます。カスタムノードの開発には、iablunoshka氏の支援を受けており、SBS変換器とCLIの高性能を実現しました。初期テストではSamSeenのノードを使用していました。
  • FFmpegは、動画および画像操作のためのコマンドラインツールです。

  • Exiftoolは、マルチメディアメタデータの読み取り・編集を行うコマンドラインツールです。

    • Google Transは、テキストを翻訳(自ロケールへ)するためのオプションサービスで、オンライン接続が必要です。
  • Topaz Video AI(TVAI)は、利用可能な場合に使用されるオプションのプロフェッショナル製品です。スケーリングおよび動画補間(フレームレート増加)において、大幅な速度・品質向上を提供します。

  • Git Bash(パッケージ)は、Microsoft Windows環境用のアプリケーションで、Gitコマンドライン体験をエミュレートし、「VR we are」の実行に必要です。

「VR we are」は、処理用にマルチメディアファイルを入力ファネル(ファイルフォルダ)に配置するのを待機します。デフォルトでは、ファイルは非線形パイプラインで処理され、出力バスケット(ファイルフォルダ)に到達します。パイプラインの各ステージはカスタマイズ可能であり、完全に無効化することもできます。

一部のステージは、事前定義されたブループリントに基づいてユーザー自身で作成できるため、ニーズに応じてツールを拡張可能です。これは、繰り返し行う必要があるが単純なタスクをパイプラインのどこかに統合したい場合に非常に便利です。簡単なffmpegタスク用のimg2imgおよびvid2vidブループリントがいくつか用意されています。

オートフォワーディングパイプライン

ワークフロー用のチャートが生成され、カスタマイズすると、オンラインサービス(plantuml)によって更新されます。以下の図は、パイプラインに参加するすべてのステージを示すサンプルです。クリックして拡大してください:

ComfyUIカスタムノードライブラリ(抜粋)

comfyui_stereoscopicには複数のカスタムノードが定義されています。

VRへの変換(ImageVRConverter)

 10.3章で解説。

解像度情報

画像バッチから基本情報を取得するヘルパーノード。

XML削除

文字列からXMLを削除するために内部で使用(Florence 2の問題対応)。

ストリップ済みUTF-8ファイルの保存

生のテキストデータを保存するために内部で使用。

係数によるスケーリング

係数とアルゴリズムでスケールアップまたはダウン。係数1.0の場合は何もしない。

解像度へのスケーリング

深度マップ作成用に内部で使用。特定の解像度にスケール。

寸法計算

アスペクト比とピクセル数(ベース解像度と係数の積の平方)を維持しつつ画像の寸法を計算するノード。

Strftime

「何か」が実行された瞬間を守護する、フォーマットされたタイムスタンプを生成。

オーディオ保存(シンプル)

オーディオをFLACファイルとして保存。

VRwearePause、VRwearePauseLatent

パイプラインが一時停止されるまで、画像または潜在画像の処理をブロック。

高度な画像読み込み

絶対パスまたは入力画像の選択から画像を読み込み、プレビューを表示し、画像ファイルのベース名、幅、高さを提供。

線形フェード

動画の色補正強度を時間経過に伴って制御し、新しい動画チャンクを追加する際に発生する硬い色の切り替えを回避します。通常、First Image To Videoワークフローで見られます。例:VAEデコード後、kjnodesのColor Match hm-mvgd-hmまたはColor Correct Batchの前に使用。シーン変化がある場合は、開始値を0.0に設定してください。色を維持したい場合は、開始値と終了値を両方1.0に設定してください。

色補正バッチ

色補正は動画に対して時間経過に伴う画像操作を行います。現在は彩度のみがサポートされています。線形フェードの後に使用することを想定しています。

(c) 2025 Fortuna Cournot, https://www.3d-gallery.org

このモデルで生成された画像

画像が見つかりません。