OpenAI's GPT-image-1

详情

模型描述

原始详细信息见 - https://openai.com/index/introducing-4o-image-generation/

更新 5/8:我们发布了质量选择器并调整了定价!现在中等质量图像只需 100 Buzz ⚡

查看我们的 GPT Image 1 使用指南

实用的图像生成

从最早的洞穴壁画到现代信息图,人类一直利用视觉图像来交流、说服和分析——而不仅仅是装饰。如今的生成模型能够创造出超现实、令人惊叹的场景,但在人们用来分享和创建信息的实用图像方面仍显不足。从标志到图表,当图像辅以指代共享语言和经验的符号时,便能传达精确的含义。

GPT-4o 的图像生成在准确渲染文本、精确遵循提示以及利用 4o 内在的知识库和对话上下文方面表现出色——包括转换上传的图像或将其作为视觉灵感。这些能力使您更容易创建出心目中确切的图像,帮助您更有效地通过视觉进行交流,并将图像生成提升为一种兼具精准与强大功能的实用工具。

增强的功能

我们基于线上图像与文本的联合分布训练了我们的模型,不仅学习了图像如何与语言相关联,还学习了图像之间如何相互关联。结合激进的后训练方法,最终模型展现出惊人的视觉流畅性,能够生成有用、一致且具有上下文意识的图像。

文本渲染

一图胜千言,但有时在正确的位置生成几个文字,就能提升图像的含义。4o 能将精确的符号与图像融合,使图像生成成为视觉交流的工具。

多轮生成

由于图像生成现已原生集成于 GPT-4o,您可以通过自然对话来优化图像。GPT-4o 能在对话上下文中基于图像和文本进行迭代,确保一致性。例如,如果您正在设计一个视频游戏角色,随着您不断调整和尝试,角色的外观将始终保持连贯。

指令遵循

GPT-4o 的图像生成能细致地遵循复杂提示。虽然其他系统在处理约 5–8 个对象时已显吃力,但 GPT-4o 可处理多达 10–20 个不同对象。对象与其属性及相互关系的更紧密绑定,使您能获得更优的控制力。

上下文学习

GPT-4o 能分析并从用户上传的图像中学习,无缝整合其细节到上下文中,以指导图像生成。

安全性

根据我们的模型规范,我们旨在通过支持有价值的应用场景(如游戏开发、历史探索和教育)来最大化创作自由,同时坚守严格的安全标准。与此同时,阻止违反这些标准的请求依然至关重要。以下是我们在努力实现安全、高实用性内容并支持用户更广泛创意表达时,正在应对的额外风险领域评估:

通过 C2PA 和内部可逆搜索追溯来源
所有生成的图像均附带 C2PA 元数据,明确标识其来源于 GPT-4o,以提供透明度。我们还开发了一种内部搜索工具,利用生成图像的技术属性,帮助验证内容是否来自我们的模型。

阻止不当内容
我们持续阻止可能违反内容政策的图像生成请求,例如儿童性虐待材料和深度伪造色情内容。当上下文中涉及真实人物时,我们对可生成图像的类型设置了更严格的限制,尤其在裸露和暴力图像方面设有强大的防护机制。与任何新功能发布一样,安全性并非一劳永逸,而是持续投入的领域。随着我们对模型实际应用的了解加深,我们将相应调整政策。

有关我们的方法详情,请参阅 GPT-4o 系统卡的图像生成附录:https://openai.com/index/gpt-4o-image-generation-system-card-addendum/

利用推理增强安全性
类似于我们的 深思对齐 工作,我们训练了一个推理型大语言模型,使其能直接依据人类编写的、可理解的安全规范运行。在开发过程中,我们使用该推理模型帮助识别和解决政策中的模糊之处。结合我们多模态领域的进展,以及为 ChatGPT 和 Sora 开发的现有安全技术,我们能够审核输入文本和输出图像是否符合我们的政策。

此模型生成的图像

未找到图像。