研究证实：AI大模型跨多轮对话任务表现不佳，性能最高降39%(研究ai的意义)

科技fjmyhfvclm2026年03月01日 09:306阅读

（来源：今日霍州）

今日霍州 3 月 1 日消息，据 THE DECODER 报道，新一代『大语言模型』（从 GPT-5 及后续版本开始）在任务需要跨多轮对话完成时，表现依然不佳。研究员菲利普 · 拉班（Philippe Laban）及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中（分片式），而非集中在单次提示词里（拼接式）时，模型性能会显著下降。

今日霍州(www.jrhz.info)©️

今日霍州注意到，更新的模型表现略好一些，性能降幅从 39% 缩小到 33%，但问题远未解决。Python 任务的提升最为明显，部分模型仅损失 10%–20% 的性能。拉班认为，实际场景中的性能损失可能更严重，因为测试只使用了简单的用户模拟；如果用户在对话中途改变想法，性能下降幅度可能会更大。

原始研究发现，调低温度值（temperature）这类技术微调无法解决这一问题。研究人员建议：一旦出现异常，重新开启一段新对话，最好先让模型把所有请求总结一遍，再用这份总结作为新对话的起点。

Laban 模型测试拉班问题

特别声明：[研究证实：AI大模型跨多轮对话任务表现不佳，性能最高降39%(研究ai的意义)] 该文观点仅代表作者本人，今日霍州系信息发布平台，霍州网仅提供信息存储空间服务。

猜你喜欢

2026-02-25

致敬禁毒干警罪案剧《除恶》开播(致敬禁毒一线工作人员)

在播前释放的剧集预告与《你得先是你自己》推广曲MV中，《除恶》更多地为观众展现了暖海小镇贴地化的生活场景，从老旧的住宅、狭窄的街道，到餐厅、酒店和农村民居，无不衬托出该剧“日常漫叙”和“断点式强情节”相互结…

致敬禁毒干警罪案剧《<strong>除恶</strong>》开播(致敬禁毒一线工作人员)

2026-02-25

告别电脑前死守：新模式让手机接管本地Claude Code AI会话

今日霍州 2 月 25 日消息，Anthropic 产品经理 Noah Zweben 今天（2 月 25 日）在 X平台发布推文，宣布为编程智能体工具 Claude Code 引入名为“远程控制”（Remo…

告别电脑前死守：新模式让手机接管本地Claude Code AI会话

2026-02-26

旧相机📷️市场价格涨幅大电子黄金现象解析(相机📷️旧货市场)

假期最后两天，杭州天气晴好，不少市民趁着春光出门赏花、遛娃、拍照。网友@黄油面包猫翻出自己6年前购买的相机📷️，好奇搜索同款价格时，发现6年前以2459元买的佳能相机📷️，如今二手价竟然涨到了4048元

旧相机📷️市场价格涨幅大电子黄金现象解析(相机📷️旧货市场)

2026-02-27

一只耳朵感觉堵但听得见(一只耳朵感觉堵住了是什么原因)

一只耳朵感觉堵但听得见可能与多种因素有关，比如耵聍栓塞、分泌性中耳炎、咽鼓管功能障碍、突发性耳聋和外耳道炎。遇到这种情况时，建议及时就医明确病因，避免自行掏耳或延误治疗。外耳道耵聍过多可能会形成硬块堵塞耳道，导致耳闷胀感但听力尚存

一只耳朵感觉堵但听得见(一只耳朵感觉堵住了是什么原因)

2026-02-28

她因长得太漂亮被导演狂追，拒绝后被“雪藏”，搭档『胡歌』后翻红(因为她长得漂亮)

谁能想到，如今捧得金爵奖影后桂冠的『万茜』，曾经竟被整个行业“封杀”得连个小角色都接不着？这哪是什么幸运临头，分明是她用十年如一日的坚韧拼搏，把那些想要潜规则她的脏手一个个狠辣拍回去，换来了如今的底气！提到…

她因长得太漂亮被导演狂追，拒绝后被“雪藏”，搭档『胡歌』后翻红(因为她长得漂亮)