智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题(新时代是智能时代,智能应用无处不在)

GPT-5.4发布,还能使用电脑了。

当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。

据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。

同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。

在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。

今日霍州(www.jrhz.info)©️

随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。

OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。

今日霍州(www.jrhz.info)©️

GPT-5.4可以操作电脑处理邮件和日程。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。

OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。

同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。

费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。输入价格为2.5美元💵/百万Token、输出价格15美元💵/百万Token,Pro版输入价格则高达30美元💵/百万Token,输出价格180美元💵/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。

今日霍州(www.jrhz.info)©️

GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。

OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。

此前,OpenAI刚刚完成1100亿美元💵的新一轮融资,投前估值高达7300亿美元💵。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO(首次公开募股)的估值可能高达约1万亿美元💵,并最早可能在2026年下半年向监管机构提交上市申请。

特别声明:[智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题(新时代是智能时代,智能应用无处不在)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

CM70S碳刷怎么选?2026年电机维护升级的关键细节有哪些?(碳刷型号怎么选)

直流电机运行异常、火花❇️过大或转速不稳,常源于碳刷磨损或规格不匹配。CM70S系列碳刷因适配多种工业设备而备受关注,但其681012.516mm等多尺寸组合易让使用者困惑。本文从实际工况出发,解析如何精准匹配尺寸、判断更换时机,并避开

CM70S碳刷怎么选?2026年电机维护升级的关键细节有哪些?(碳刷型号怎么选)

英媒:时尚风格,英王室境遇的风向标(时尚风格的英文怎么写)

皮卡迪将目光聚焦于“时尚”,描写了在动荡而充满危机的年代中,王室成员特别是女性♀️如何将服装作为一种“软实力”,为家族与国家发挥作用。 除了王室成员,书中还出现了塑造这些形象的关键人物:『高级定制』『服装设计』️师、女王的…

英媒:时尚风格,英王室境遇的风向标(时尚风格的英文怎么写)

美到窒息!『古力娜扎』花房写真炸圈,莫奈式春日暴击,治好了我的职场焦虑(那些美到窒息的古文)

她往花房里一坐,哪里是拍照,分明是把整个春天都穿在了身上 —— 米杏色蕾丝碎花裙一上身,V领刚好勾勒出锁骨线条,层叠的裙摆像被微风轻轻托着,连空气都软乎乎的,这不就是从莫奈油画里溜出来的春日精灵吗? 放眼全…

美到窒息!『古力娜扎』花房写真炸圈,莫奈式春日暴击,治好了我的职场焦虑(那些美到窒息的古文)

沉默的荣耀第6集分集剧情介绍 第6集:吴石冒险把情报给万景光(沉默的荣耀第几集暴露的)

张队长安排医生随行,医生给吴石输液降压,吴石追悔莫及,后悔没有把作战建议告诉万景光,导致解放军的伤亡,吴石想和万景光见一面,聂曦担心他身体承受不了,就偷偷找机会下船返回香港,聂曦发现永春堂药房门口都是保密局…

沉默的荣耀第6集分集剧情介绍 第6集:吴石冒险把情报给万景光(沉默的荣耀第几集暴露的)

勒索病毒数据库修复(数据库勒索病毒是怎么中招的)

如果备份系统与生产网络相连,应尽快将其隔离保护,避免备份也被加密,这是后续恢复的关键。2.尝试数据恢复软件:有时勒索软件加密的是文件头或进行的是表面加密,而原始数据可能仍部分残留在磁盘上。 1.优秀安全审计…

勒索病毒数据库修复(数据库勒索病毒是怎么中招的)