OpenAI's GPT-image-1

세부 정보

모델 설명

원래 설명은 다음 링크에 상세히 제공되어 있습니다 - https://openai.com/index/introducing-4o-image-generation/

업데이트 5/8: 품질 선택기 출시 및 가격 조정! 이제 중간 품질 이미지는 100 Buzz ⚡입니다.

GPT Image 1 사용 가이드를 확인하세요: https://education.civitai.com/civitais-guide-to-gpt-image-1/

유용한 이미지 생성

최초의 동굴 벽화부터 현대의 인포그래픽까지, 인간은 장식을 넘어 정보를 전달하고 설득하며 분석하기 위해 시각적 이미지를 사용해 왔습니다. 오늘날의 생성 모델은 초현실적이고 놀라운 장면을 만들어낼 수 있지만, 사람들이 정보를 공유하고 창출할 때 사용하는 실용적인 이미지를 생성하는 데는 어려움을 겪고 있습니다. 로고부터 다이어그램까지, 이미지는 공유된 언어와 경험을 나타내는 기호와 결합될 때 정확한 의미를 전달할 수 있습니다.

GPT-4o 이미지 생성은 텍스트를 정확히 렌더링하고, 프롬프트를 정밀하게 따르며, 4o의 내재된 지식 기반과 채팅 컨텍스트를 활용하는 데 뛰어납니다. 이는 업로드된 이미지를 변환하거나 시각적 영감으로 사용하는 것을 포함합니다. 이러한 능력은 사용자가 상상하는 정확한 이미지를 쉽게 생성할 수 있게 하여 시각적으로 더 효과적으로 소통하고, 정밀성과 힘을 갖춘 실용적인 도구로 이미지 생성을 발전시킵니다.

개선된 기능

우리는 온라인 이미지와 텍스트의 공동 분포를 기반으로 모델을 학습시켜, 이미지가 언어와 어떻게 관련되는지뿐 아니라 이미지 간에 어떻게 연결되는지까지 학습했습니다. 강력한 사후 학습과 결합된 결과, 이 모델은 유용하고 일관되며 컨텍스트를 인식하는 이미지를 생성할 수 있는 놀라운 시각적 유창성을 갖추게 되었습니다.

텍스트 렌더링

그림은 천 마디의 말보다 더 큰 의미를 전달할 수 있지만, 적절한 위치에 몇 단어를 생성하는 것만으로도 이미지의 의미를 한층 높일 수 있습니다. 4o는 정밀한 기호를 이미지와 자연스럽게 융합하여 이미지 생성을 시각적 의사소통 도구로 전환합니다.

다중 대화 생성

이미지 생성이 이제 GPT-4o에 내장되었기 때문에, 자연스러운 대화를 통해 이미지를 개선할 수 있습니다. GPT-4o는 채팅 컨텍스트 내의 이미지와 텍스트를 기반으로 발전시켜 일관성을 유지합니다. 예를 들어, 비디오 게임 캐릭터를 디자인할 때, 캐릭터의 외형이 반복적인 수정과 실험을 거쳐도 일관되게 유지됩니다.

지시 준수

GPT-4o의 이미지 생성은 세부 사항에 주의를 기울이며 상세한 프롬프트를 정확히 따릅니다. 다른 시스템이 약 58개의 객체를 처리하는 데 어려움을 겪는 반면, GPT-4o는 최대 1020개의 다양한 객체를 다룰 수 있습니다. 객체와 그 특성 및 관계 간의 더 밀접한 연결은 보다 정밀한 제어를 가능하게 합니다.

컨텍스트 내 학습

GPT-4o는 사용자가 업로드한 이미지를 분석하고 학습하여, 그 세부 사항을 컨텍스트에 자연스럽게 통합해 이미지 생성을 안내합니다.

안전성

모델 사양에 따라, 우리는 게임 개발, 역사적 탐구, 교육 등 가치 있는 사용 사례를 지원하면서 창의적 자유를 극대화하고 강력한 안전 기준을 유지합니다. 동시에 이러한 기준을 위반하는 요청을 차단하는 것은 여전히 매우 중요합니다. 아래는 사용자에게 안전하고 유용한 콘텐츠를 제공하며 더 넓은 창의적 표현을 지원하기 위해 우리가 작업 중인 추가 위험 영역에 대한 평가입니다.

C2PA 및 내부 가역 검색을 통한 출처 추적
모든 생성된 이미지는 C2PA 메타데이터를 포함하여 GPT-4o에서 생성된 이미지임을 명시하여 투명성을 제공합니다. 또한, 생성된 콘텐츠가 우리 모델에서 나온 것인지 확인하기 위해 생성물의 기술적 특성을 활용하는 내부 검색 도구를 구축했습니다.

나쁜 콘텐츠 차단
우리는 아동 성 착취 콘텐츠나 성적 딥페이크와 같은 콘텐츠 정책을 위반할 수 있는 이미지 생성 요청을 계속 차단하고 있습니다. 실제 인물의 이미지가 컨텍스트에 포함될 경우, 노출과 잔혹한 폭력에 대해 특히 강화된 보호 조치를 적용합니다. 어떤 신규 서비스와 마찬가지로, 안전성은 완성된 작업이 아니라 지속적인 투자 영역입니다. 이 모델의 실제 사용 사례를 더 많이 이해함에 따라, 우리는 정책을 적절히 조정할 것입니다.

자세한 내용은 GPT-4o 시스템 카드의 이미지 생성 보완 문서를 참조하세요: https://openai.com/index/gpt-4o-image-generation-system-card-addendum/

논리적 추론을 통한 안전성 강화
우리의 사고형 정렬 연구와 마찬가지로, 인간이 작성한 해석 가능한 안전 지침을 직접 활용하도록 논리적 추론 LLM을 훈련시켰습니다. 이 논리적 추론 LLM은 개발 단계에서 정책의 모호성을 식별하고 해결하는 데 도움을 주었습니다. 이는 ChatGPT와 Sora에 적용된 기존의 안전 기술 및 다중 모달 발전과 결합되어, 입력 텍스트와 출력 이미지 모두를 정책에 따라 중재할 수 있게 합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.