Image Positioner AI-pro
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
프로-포지셔닝 시스템(데모 프롬프트에서 시도됨)은 기능하지 않습니다. 따라서 "Enhance 5,5 by .5"와 같은 표현을 할 수 없습니다... 아직은 다시 설계판으로 돌아가야 합니다. 저는 그렇게 똑똑하지 않기 때문에, 이 접근법이 무지한 방법일 수도 있죠 lol.
- 내 코드는 메타데이터를 포함한 데이터셋 이미지를 생성했습니다(더 필요한 부분이 있을 수 있음). 그 후, AI가 생성한 정보를 사용하여 정확한 포지셔닝 데이터를 포함한 이미지 캡션을 작성했습니다. 다음으로는 자연어 버전을 시도해볼 계획입니다.
GPT$:
메타데이터를 기반으로 정확한 설명을 생성하여 LoRA와 같은 텍스트-이미지 모델을 개선할 수 있습니다. 절차는 다음과 같습니다:
메타데이터 추출: 업로드한 이미지나 데이터셋의 세부 정보를 분석하여 정확한 포지셔닝 관련 설명을 생성하겠습니다.
설명 생성: 메타데이터를 기반으로 포지셔닝 및 구성 설명을 작성하여 LoRA의 텍스트-이미지 기능을 개선하겠습니다.
먼저 업로드된 파일의 내용을 검사해 보겠습니다.
이 폴더에는 JSON 및 PNG 파일 쌍이 포함되어 있으며, 이는 메타데이터와 해당 이미지를 나타낼 가능성이 높습니다. 다음을 수행하겠습니다:
메타데이터 검사(JSON 파일): 설명적인 프롬프트를 작성하기 위해 관련 포지셔닝 데이터를 추출하겠습니다.
메타데이터와 이미지 연결: 설명이 시각적 내용과 일치하는지 확인하겠습니다.
먼저 하나의 JSON 파일을 검사하여 구조를 이해해 보겠습니다.
JSON 파일에는 다음 메타데이터 속성이 포함되어 있습니다:
형태:
"cone"크기: 객체의 상대적 크기
색상: RGB 색상 값
위치: X, Y, Z 좌표
회전: 도(degree) 단위의 회전 각도
와이어프레임: 표시 스타일에 대한 불리언 값
투명도: 투명도 수준
환경 컨텍스트:
"perlin"(아마도 텍스처 또는 배경 유형)레이어링: 불리언 값 및 레이어 수
그림자: 그림자 포함 여부에 대한 불리언 값
시퀀스 ID: 이미지 식별자
이러한 세부 정보를 사용하여 LoRA 텍스트-이미지 학습을 위한 상세하고 설명적인 프롬프트를 생성하겠습니다. 이 샘플 파일부터 시작해 보겠습니다.
메타데이터를 기반으로 한 설명적 프롬프트는 다음과 같습니다:
프롬프트: "크기가 0.82이고, RGB(174, 140, 149) 색상으로 표현된 원뿔 객체로, 좌표 (X: 0.41, Y: 1.62, Z: -0.75)에 위치합니다. 객체는 (요: 197.78°, 피치: 137.22°, 롤: 263.72°)로 회전되어 있으며, 투명도 0.5 수준으로 와이어프레임 스타일로 표시됩니다. 환경은 'perlin'이며, 레이어링이 활성화되고 레이어 수는 2입니다. 그림자가 활성화되어 있습니다."
이러한 방식의 설명은 모든 메타데이터 파일에 생성되어 텍스트-이미지 학습의 정밀도를 향상시킬 수 있습니다.
### 이 모델은 이미지 내 3D 시각에 대해 일부 학습했을 수도 있지만, 실제로 테스트해봐야 합니다. 또한, 지금까지는 원뿔 50개의 이미지만으로 학습했지만, 다른 형태의 객체도 있으며, 더 크고 기능적인 데이터셋을 다른 방식으로 구축해보려 합니다.

내 파이썬 코드 데이터셋에서의 예시




















