OpenAI's GPT-image-1

詳細

ファイルをダウンロード

モデル説明

元の詳細は以下にあります - https://openai.com/index/introducing-4o-image-generation/

更新日:5月8日品質選択ツールをリリースし、価格を調整しました!Medium品質の画像は100 Buzz ⚡で利用可能になりました。

GPT Image 1の使い方ガイドをご覧ください:https://education.civitai.com/civitais-guide-to-gpt-image-1/

役に立つ画像生成

先史時代の洞窟壁画から現代のインフォグラフィックまで、人間は装飾のためではなく、伝達・説得・分析のために視覚的イメージを用いてきました。今日の生成モデルは、超現実的で息をのむようなシーンを生み出すことができますが、人々が情報の共有や作成に使う実用的な画像には対応しきれていません。ロゴや図表など、画像は共有された言語や経験を象徴する記号と組み合わせることで、正確な意味を伝えることができます。

GPT-4oの画像生成は、テキストを正確に描写し、プロンプトに忠実に従い、4oの内在的な知識ベースとチャットコンテキストを活用します。アップロードされた画像を変換したり、視覚的なインスピレーションとして使用することも可能です。これらの機能により、あなたがイメージする画像を正確に作成でき、視覚を通じたコミュニケーションをより効果的にし、画像生成を精密で強力な実用的ツールへと進化させます。

強化された機能

当社はオンラインの画像とテキストの同時分布を学習し、画像が言語とどのように関連するかだけでなく、画像同士がどのように関連するかも学習しました。激しいポストトレーニングと組み合わせることで、得られたモデルは驚異的な視覚的流暢性を備えており、有用で一貫性があり、コンテキストを意識した画像を生成できます。

テキストの描画

絵は千の言葉に値するが、適切な場所に数語を生成することは、画像の意味を高めることができる。4oは、正確な記号を画像と融合させる能力により、画像生成を視覚的コミュニケーションのツールへと変えます。

マルチターン生成

画像生成がGPT-4oにネイティブで統合されたため、自然な会話で画像を洗練できます。GPT-4oはチャットのコンテキスト内の画像とテキストを基に進化させ、一貫性を保ちます。たとえば、ビデオゲームのキャラクターをデザインしている場合、繰り返し修正・実験を重ねても、キャラクターの外見が一貫して保たれます。

指示の遵守

GPT-4oの画像生成は、細部にまで注意を払った詳細なプロンプトに従います。他のシステムが約5〜8個のオブジェクトに対応するのに対し、GPT-4oは最大10〜20個の異なるオブジェクトを処理できます。オブジェクトとその特性・関係の密な結合により、より高いコントロールが可能になります。

コンテキスト内学習

GPT-4oはユーザーがアップロードした画像を分析・学習し、その詳細をコンテキストにシームレスに統合して画像生成に活用します。

セキュリティ

当社のモデル仕様に準拠し、ゲーム開発、歴史的探求、教育など価値のある利用ケースを支援することで創造的自由を最大化しつつ、堅固なセキュリティ基準を維持しています。同時に、これらの基準に違反するリクエストをブロックし続けることは、これまで以上に重要です。以下は、安全かつ高機能なコンテンツを可能にし、ユーザーの幅広い創造的表現を支援するために取り組んでいる追加のリスク領域の評価です。

C2PAおよび内部逆検索による生成元の追跡
生成されたすべての画像にはC2PAメタデータが付与され、画像がGPT-4oから生成されたことを明示します。また、生成されたコンテンツの出所を検証するための内部検索ツールも構築しており、生成の技術的属性を使用してモデルの出力であるかを確認できます。

不適切なコンテンツのブロック
子供の性的虐待コンテンツや性的ディープフェイクなど、当社のコンテンツポリシーに違反する可能性のある画像生成リクエストを引き続きブロックしています。実在する人物の画像がコンテキストに含まれる場合、生成可能な画像の種類についてより厳しい制限を設けており、特に裸体や過剰な暴力に関するセーフガードは強化されています。どのローンチでも同様ですが、セキュリティは決して完成することなく、継続的な投資が必要な領域です。このモデルの現実世界での使用状況を理解し次第、ポリシーを適宜見直していきます。

当社のアプローチの詳細については、GPT-4oシステムカードへの画像生成追加資料をご覧ください:https://openai.com/index/gpt-4o-image-generation-system-card-addendum/

推論によるセキュリティの強化
当社の審議的アライメントの取り組みと同様に、人間が作成した明確で解釈可能なセキュリティ仕様から直接動作する推論LLMを訓練しました。この推論LLMは開発中に使用され、当社のポリシー内の曖昧さを特定・解決するのに役立ちました。これに、ChatGPTやSoraのために開発されたマルチモーダル技術と既存のセキュリティ手法を組み合わせることで、入力テキストと出力画像の両方を当社のポリシーに照らしてモデレートできます。

このモデルで生成された画像

画像が見つかりません。