天风证券:GPT5在降低幻觉欺诈,增加指令遵循上取得突破,在写作编码健康领域表现显著(天风证券合并重组最新消息)

天风证券:GPT5在降低幻觉欺诈,增加指令遵循上取得突破,在写作编码健康领域表现显著(天风证券合并重组最新消息)

GPT-5是由多个模型和实时路由机制组成的同一系统

GPT-5 是一个整合多模型的统一系统,包含快速响应的基础模型(gpt-5-main、gpt-5-main-mini)、深度推理模型(gpt-5-thinking、gpt-5-thinking-mini),以及实时路由机制。路由模块根据对话类型、复杂度、工具需求等动态选择模型,并通过用户交互数据持续优化。模型主要依靠Azure AI训练完成

GPT-5性能提升的同时在减少幻觉/提升指令遵循上取得突破

(1)GPT-5在性能上普遍优于GPT4和o3/o4系列,目前榜单上各项能力都排名第一

FrontierMath测试上,GPT-5(Python)的准确率为26.3%(对比o4-mini的19.3%)

在Humanity‘s Last Exam上GPT5(no tools)的准确率24.8%(对比o3 no tools的14.7%)

在coding测试的SWE-bench Verified上,GPT-5思考模型准确率75% VS 的69%

多模态上,在MMMU和VideoMMMU等测试上有所提升

(2)在幻觉和诚实上,GPT-5取得较大突破#幻觉率是应用尤其是B端应用的巨大痛点

在ChatGPT启用网络搜索完成某任务后,GPT-5的响应包含事实错误的可能性比GPT-4 o低约45%,在思考模式,GPT-5的响应包含事实错误的可能性比OpenAI o3低约80%;整体幻觉率从5%等级降低到不足1%;GPT-5这一代思考模型比慢思考模型幻觉率大幅下降(之前都是慢思考模型幻觉率更高);此外在诚实度上提升较多欺诈减少,欺诈率从o3的4.8%降低到2.1%

(3)推理性价比提升,思考效率提升

GPT-5(thinking)思考效率表现优于OpenAI o3,在包括视觉推理,代理编码等任务重输出tokens减少了50-80%。同时单位推理成本较O3略降,主模型 $1.25 / M 输入,$10 / M 输出(o3 $2/M输入、$8/M输出);mini / nano 依次 0.25 / 0.05 美元起,核心是为了解决多Agent/长COT范式下,性能和Token消耗量提升不匹配的问题

打造代码/创意写作和健康领域的优势场景

(1)Coding上,复杂前端生成和大型数据仓库调用上变强

(2)创意写作上可将粗略想法转化为有文学深度的内容,擅长处理结构模糊的文体

(3)健康领域能主动识别潜在健康风险、追问关键信息,适配用户的知识水平、地域和场景

(4)复杂指令和Agent场景,精准遵循多步骤指令,协调多种工具(如网页搜索、代码执行),适应上下文变化

GPT-5在性能/成本上全面提高,同时幻觉率看到快速下降,看好AI应用的产业机会

天风计算机 缪欣君/刘鉴/刘琳琳

特别声明:[天风证券:GPT5在降低幻觉欺诈,增加指令遵循上取得突破,在写作编码健康领域表现显著(天风证券合并重组最新消息)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

商场智慧公厕新风除臭杀菌系统方案全解析(智慧公厕建设方案)

2. 智慧公厕新风除臭杀菌系统多重技术“组合拳”,除臭杀菌无死角智慧公厕的清新绝非单一技术之功,它打出的是一套强大的“组合拳”: 智慧公厕新风除臭杀菌系统,以科技之力直击传统公厕痛点,通过热交换节能、多重技…

商场智慧公厕新风除臭杀菌系统方案全解析(智慧公厕建设方案)

华语乐坛,十大乐队排名,谁是你心中的 No.1?(华语乐坛十大最具影响力歌手)

唐朝乐队的主唱是丁武,代表作有《梦回唐朝》、《飞翔鸟》、《太阳》、《国际歌》、《九拍》、《天堂》等。 胡海泉:主唱,1975 年 8 月 13日出生于辽宁省沈阳市,是音乐制作人、主持人、老板。 田馥甄(H…

华语乐坛,十大乐队排名,谁是你心中的 No.1?(华语乐坛十大最具影响力歌手)

华为放弃高利润,麒麟9020+1英寸主摄+5700mAh,国补后直降1300元(华为是否放弃手机业务)

前几天阿维专门去华为专卖店,看了看华为公司7月下旬新出的华为Pura80,想要拍个视频介绍一下它,因为这款华为新旗舰定价远低于预期,去年的Pura70和华为Mate70是5499元起,而它却定价4699元起,…

华为放弃高利润,麒麟9020+1英寸主摄+5700mAh,国补后直降1300元(华为是否放弃手机业务)

“较量”18年,再看王珞丹和白百何,才知道二人的“差别”在哪

王珞丹与白百何便是典型的“水火不容”之例,尽管两人不仅在外貌上相似,且资源也相仿,但她们的经历却迥然不同。她的早期婚姻与歌手羽凡虽然给了她生活上的安稳,却在一定程度上限制了她的职业发展。或许是因为认知的对比让…

“较量”18年,再看王珞丹和白百何,才知道二人的“差别”在哪

43岁超模吕燕秀恩爱,坐老公怀中被嘲像父女,小腹隆起疑似怀2胎(世界模特吕燕走秀表演)

此次旅行的照片中,她与丈夫在沙漠中漫步,丈夫Fred温柔地搂着她的肩膀,尽管吕燕高达178厘米,但Fred的身高也丝毫不逊色,二人显得十分般配。在文案中,吕燕表达了对生活的满足:“美好的生活不过如此,常与好友…

43岁超模吕燕秀恩爱,坐老公怀中被嘲像父女,小腹隆起疑似怀2胎(世界模特吕燕走秀表演)