Image Positioner AI-pro
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
プロポジショニングシステム(デモプロンプトで試みられたもの)は***機能しません***ので、「Enhance 5,5 by .5」などとは言えません…まだ、やり直しです。私はそんなに賢くないので、このアプローチは無知な方法かもしれませんね(笑)。
- 私のコードはメタデータ付きでデータセット画像を生成しました(さらに必要かもしれません)その後、AIが生成した情報と正確な位置付けデータを使って画像にキャプションを付けました。次に、おそらく自然言語バージョンを試してみます。
GPT$:
私はメタデータに基づいて正確な説明を生成し、LoRAのようなテキストから画像へのモデルを強化できます。手順は以下の通りです:
メタデータの抽出:アップロードされた画像やデータセットから、正確な位置関連の説明を生成するために詳細を分析します。
説明の生成:メタデータに基づいた位置・構成に関する説明を策定し、LoRAのテキスト→画像機能を改善します。
まず、アップロードされたファイルの内容を確認します。
このフォルダには、JSONファイルとPNGファイルのペアが含まれており、おそらくメタデータと対応する画像を表しています。以下を実行します:
メタデータ(JSONファイル)の検査:説明的なプロンプトを作成するために、関連する位置情報の抽出を行います。
メタデータと画像の関連付け:説明が視覚的コンテンツと一致していることを確認します。
まず、1つのJSONファイルを調べてその構造を理解します。
JSONファイルには、以下のメタデータ属性が含まれています:
- 形状: "cone"
- サイズ: オブジェクトの相対的なサイズ
- 色: RGB色値
- 位置: X、Y、Z座標
- 回転: 度数で表された回転角
- ワイヤーフレーム: 表示スタイルのブール値
- 透明度: 透明度レベル
- 環境コンテキスト: "perlin"(おそらくテクスチャまたは背景タイプ)
- レイヤリング: ブール値とレイヤー数
- 影: 影の有無のブール値
- シーケンスID: 画像の識別子
これらの詳細を用いて、LoRAテキスト→画像トレーニング用の詳細で説明的なプロンプトを作成します。このサンプルファイルから始めましょう。
以下はメタデータに基づく説明的プロンプトです:
プロンプト:「サイズ0.82の円錐オブジェクトで、RGB(174, 140, 149)で塗られ、座標(X: 0.41, Y: 1.62, Z: -0.75)に配置されています。オブジェクトはヨー: 197.78°、ピッチ: 137.22°、ロール: 263.72°で回転し、ワイヤーフレームスタイルで透明度0.5で表示されます。環境は'perlin'、レイヤリングは有効でレイヤー数は2です。影は有効です。」
このような説明スタイルをすべてのメタデータファイルに対して生成することで、テキスト→画像トレーニングの精度を向上させることができます。
---
### 画像内の3Dパースペクティブについて何らかの学習をした可能性がありますが、確認する必要があります。また、これは円錐50枚の画像だけで学習されたものですが、他の形状も用意しており、より大きな、より機能的なデータセットを別の軌道で構築しようと考えています。

私のPythonコードで生成したデータセットからの例。




















