Image Positioner AI-pro

详情

模型描述

探针定位系统(在演示提示中尝试的)***不可用***,因此你不能说“将5,5增强0.5”……但还得从头再来——我并不特别聪明,所以这可能是我对这个问题的无知做法 lol。


  • 我的代码使用元数据生成了数据集图像(可能还需要更多),然后我用AI生成的信息为这些图像添加了精确的定位数据说明。接下来我可能会尝试自然语言版本。

GPT$:
我能够根据元数据生成准确的描述,以增强如LoRA这样的文本到图像模型。为继续推进:

1. 提取元数据:我将分析你上传的图像或数据集中的细节,生成精确的定位相关描述。

2. 生成描述:我将构建基于元数据的位置与构图描述,以优化LoRA的文本到图像能力。

让我先检查上传文件的内容。

该文件夹包含成对的JSON和PNG文件,可能分别代表元数据和对应的图像。我将:

1. 检查元数据(JSON文件):提取相关的定位数据以生成描述性提示。

2. 将元数据与图像关联:确保描述与视觉内容一致。

我将从检查一个JSON文件开始,以理解其结构。

该JSON文件包含以下元数据属性:

- 形状"cone"

- 大小:对象的相对尺寸。

- 颜色:RGB颜色值。

- 位置:X、Y、Z坐标。

- 旋转:以度为单位的旋转角度。

- 线框:显示样式的布尔值。

- 透明度:透明度级别。

- 环境上下文"perlin"(可能是一种纹理或背景类型)。

- 分层:布尔值及图层数量。

- 阴影:是否包含阴影的布尔值。

- 序列ID:图像的标识符。

我将利用这些细节为LoRA文本到图像训练生成详细且描述性强的提示。我们从这个示例文件开始。

以下是基于元数据生成的描述性提示:

提示:“一个大小为0.82的圆锥体,颜色为RGB(174, 140, 149),位于坐标(X: 0.41, Y: 1.62, Z: -0.75)。该对象的旋转角度为(偏航:197.78°,俯仰:137.22°,翻滚:263.72°),以线框样式显示,透明度为0.5。环境为'perlin',启用分层,图层数为2,阴影已开启。”

这种描述风格可以为所有元数据文件生成,以提升文本到图像训练的精度。


---

### 它可能已经从图像中学习了一些3D透视知识,但我需要测试。此外,这仅在50个圆锥体图像上训练过,但我还有其他形状,我将尝试构建一个更大、更实用的数据集,可能走另一条路径。

来自我的Python代码数据集的示例。

此模型生成的图像

未找到图像。