GPT-5发布 马斯克不服开怼 新模型引发争议!GPT-5终于发布,OpenAI于8月8日凌晨1点推出了这一备受期待的新一代旗舰模型。从即日起,所有免费、Plus、Pro和Team用户均可使用GPT-5,而企业和教育用户将在一周内获得访问权限。一经发布,GPT-5便在文本、编程、数学等多方面排名第一。
GPT-5将非推理模型与推理模型融为一体,支持“按需思考”,根据任务难度自行判断是否进行思考,并提供合适的回答。它还拥有四种人格:愤世嫉俗者、机器人、倾听者和书呆子。OpenAI CEO Sam Altman认为,GPT-5已经达到了博士级别的智能,不仅能回答问题,还能完成日常规划、发送邀请函、采购物资等任务。
OpenAI研究员Tina Kim表示,GPT-5集成了多模态和推理等多种能力,相当于融合了GPT和o系列模型。多项基准测试中,GPT-5超过了OpenAI的其他强大模型,在数学、编码、视觉感知和健康方面表现尤为出色。不过,GPT-5也可能是OpenAI历史上最复杂的模型之一,包含四个版本:GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro。免费用户的GPT-5用量有限,超过限额后将自动转至GPT-5-mini。GPT-5-pro仅供Pro订阅用户使用,具备扩展推理功能,提供更全面、更准确的答案。
GPT-5、GPT-5-mini和GPT-5-nano三款模型提供API服务,价格分别为每百万token 1.25美元/10美元,GPT-5-mini的定价为GPT-5的五分之一,GPT-5-nano的定价为GPT-5的二十五分之一。与主要竞争对手Anthropic和谷歌相比,GPT-5对于开发人员来说成本相当甚至更低。
发布会现场,OpenAI展示了GPT-5的按需思考能力。工作人员让GPT-5解释伯努利现象,GPT-5迅速给出答案。接着,工作人员要求GPT-5创建一个动态SVG演示图来进一步解释这一概念,GPT-5自动进行思考并生成了交互式的演示。用户可以通过提示词引导GPT-5是否开启思考,只需输入类似“认真想想”、“仔细思考”的表述即可。
GPT-5在写作和编程方面也得到显著提升。例如,研发人员让GPT-5为GPT-4o写了一篇悼文,内容让人感觉像是与一位高智商、高情商的朋友交流。此外,GPT-5还能够建立学习法语的网络应用,并嵌入一款教育游戏。Cursor联合创始人兼首席执行官Michael Truell在现场演示中表示,GPT-5在解决复杂问题时比他本人更快。
GPT-5改进了语音功能,听起来自然如人对话。免费用户每天可以聊上几个小时。结合ChatGPT学习模式,用户可以以引导的方式教用户学习韩语。OpenAI还宣布推出更加定制化的ChatGPT,支持自定义聊天功能,可调整模型的性格,并改变聊天界面的颜色。
为了使GPT-5更符合个人用户的沟通方式,研发团队增强了其记忆功能,使其在指定日程时能考虑到之前的安排。下周起,Pro用户可接入Gmail和谷歌日历,自动规划日程和回复邮件。
GPT-5在多项基准测试中表现出色,特别是在编码和智能体任务方面。它在SWE-bench验证测试中得分74.9%,较o3版本的69.1%有所提升。GPT-5在Aider polyglot测试中得分88%,在深度分析代码库方面表现出色。此外,GPT-5在长背景信息性能方面也有所提升。
在安全问题上,GPT-5引入了新的安全训练形式——安全完成(safe completions),教会模型尽可能给出有用的答案,同时保持在安全范围内。GPT-5还减少了阿谀奉承的问题,减少了过度讨好和无意义的表情符号的使用。
GPT-5 Pro是OpenAI o3-pro的替代品,能提供更全面、高质量的答案。在多个具有挑战性的基准测试中,GPT-5 Pro实现了同家族模型中的最佳性能。外部专家更偏好GPT-5 pro的回答,其犯下重大错误的比例降低了22%。
GPT-5的发布引起了广泛关注,但也带来了一些争议。有人质疑OpenAI在发布会上使用了“视觉骗局”夸大性能提升。GPT-5在真实使用场景中的性能与体验尚待市场反馈。