OpenAI员工公开指责xAI最新AI模型Grok3的基准测试结果具有误导性

OpenAI员工公开指责xAI最新AI模型Grok3的基准测试结果具有误导性

近日,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此,xAI的联合创始人伊戈尔・巴布什金则坚称公司并无不当。xAI的图表显示,Grok3的两个版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在X平台上指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME 2025得分。巴布什金在X平台上辩称,OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

特别声明:[OpenAI员工公开指责xAI最新AI模型Grok3的基准测试结果具有误导性] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

华北东北等地将有新一轮较强降雨 暴雨预警持续(华北 东北)

中央气象台预计,未来三天京津冀、东北地区、内蒙古中部、山西中北部、青海东部、甘肃中部、宁夏、陕西北部以及广东、广西东部和南部等地的部分地区将有大到暴雨,局部地区可能出现大暴雨,并伴有短时强降水、雷暴大风或冰雹等强对流天气

华北东北等地将有新一轮较强降雨 暴雨预警持续(华北 东北)

王晶认证!刘亦菲观众缘封神堪比赵雅芝,压7年旧剧曝光惊艳全网(王晶 刘洋)

也有网友力挺她,“她扛剧二十年,观众自然而然就会投票给她!”刘亦菲更像是“逆袭剧本”:早年被嘲讽为“木头美人”,却凭借《梦华录》和《玫瑰的故事》等三部大剧成功回归巅峰。这种定力让那些砸钱捧流量的资本都为之一沉…

王晶认证!刘亦菲观众缘封神堪比赵雅芝,压7年旧剧曝光惊艳全网(王晶 刘洋)

第二届国际人工智能奥林匹克学术活动(IOAI)精彩上线,敬请期待~(第二届工业人工智能国际会议)

为期8天的IOAI不仅是一场高水平的国际学术盛会,更是一次 融合科技探索与文化体验的深度交流。 为保障竞技的公平性与包容性,本届活动首次设置了GAITE(全球AI人才赋能计划)模块,并专门配备机房,欢迎来自…

第二届国际人工智能奥林匹克学术活动(IOAI)精彩上线,敬请期待~(第二届工业人工智能国际会议)

全国首家:小米之家服务升级门店宣布开业(中国第一家小米之家开业时间)

小米官方今日宣布,全国首家小米之家服务形象升级门店开业,服务区域全面焕新,门店位于北京市昌平区首开 LONG 街南区。…

全国首家:小米之家服务升级门店宣布开业(中国第一家小米之家开业时间)

比14英寸更值得买:机械革命无界15X Pro国补后4218元(14英寸对比)

以我个人的体验来说,15英寸才是最佳选择,只不过14英寸看起来又能办公又好携带,满足了很多人对办公本的想象,如果15英寸本做得轻薄一点,其实也不错。无界15X Pro已经是最新一代的产品了,处理器采用了AMD…

比14英寸更值得买:机械革命无界15X Pro国补后4218元(14英寸对比)