吴恩达提出反直觉观点:关于Agent如何进步(吴恩达知乎)

Datawhale干货

作者:吴恩达,编译:Datawhale

人工智能著名学者、『斯坦福大学』教授吴恩达在 X 上最新发帖中表示,他上周提到一个观点,即真正决定团队在构建AI智能体方面进展速度的,不是掌握最新工具,而是看似平淡无奇的评估和错误分析流程。这个说法引发了特别多读者的讨论,有人惊讶有人赞同。

他观察到,人们常倾向于跳过这些流程,快速尝试修复错误,而不是放慢脚步找到根本原因。但他认为,一个有纪律的评估和错误分析流程能够带来更快的进步。

在这封分两部分的通讯文章的第一篇中,吴恩达教授分享了一些发现并解决智能体系统问题的最佳实践。

错误分析看似枯燥,实际上特别重要

尽管错误分析一直是构建监督学习系统的关键环节,但它的重要性往往被低估,人们更倾向于追捧最新、最热门的工具。他认为,找出特定类型错误的根本原因看似十分“枯燥”,但这能带来显著回报。

为了证明错误分析的价值,吴恩达教授举了几个例子:

  • 想要熟练掌握一首乐器曲目时,更重要的是找出薄弱环节,有针对性地加强练习,而不是只从头到尾演奏。

  • 保持健康时,需要咨询医生、并通过验血检查是否存在问题,而不是只根据最新的营养潮流来调整饮食。

  • 提高运动队表现时,需要回顾比赛录像以发现差距并加以解决,而不是只练习花哨的技巧。

因此,他建议, 在提升 agentic AI系统时,不应该盲目堆叠那些在『社交媒体』上刚火起来的流行技术。相反,应通过错误分析找出系统薄弱环节,并针对性地加以改进。

评估(Evals)的流程和挑战

在分析错误之前,首先要明确「什么是错误」。因此,第一步是引入评估机制。本文余下部分将重点探讨这一问题,而错误分析则留到下周再讲。

  • 监督学习:评估相对简单,因为算法犯错的方式有限(如输出0而不是1),并且可以使用标准指标,如准确率(accuracy)、精确率(precision)、召回率(recall)和 F1 分数、 ROC 曲线等。

  • 生成式AI的挑战:虽然监督学习中评估和错误分析的许多经验仍然适用,但生成式AI带来了一个新的挑战: 输出空间要丰富得多,导致算法出错的方式也更多。

    以财务发票的自动化处理为例,大家通常采用 agentic workflow ,将收到的发票信息自动录入财务数据库。但算法是否可能错误提取发票的到期日?或搞错应付金额?是否可能混淆付款方和开票方的地址?是否会弄错货币种类?又或者因调用错误的 API 而导致验证失败?由于输出结果的可能性更多,潜在的出错方式也随之大幅增加。

鉴于生成式AI输出的复杂性,吴恩达教授建议一种更有效的方法:不是预先定义错误指标,而是首先快速构建一个原型。

然后,人工检查少量智能体的输出,观察它在哪些方面表现良好,哪些方面出现问题。这使得开发者可以集中精力构建数据集和误差衡量标准——这些标准有时是通过代码实现的客观指标,有时则是利用 LLM 作为裁判的主观评估。

他发现,在 agentic workflow 中,调整评估指标(tuning evals)是一个更加迭代的过程,需要更频繁地进行调整,来捕捉更广泛的潜在问题。

下一步则是通过错误分析,精准定位最需要改进的地方,以便集中开发资源。

特别声明:[吴恩达提出反直觉观点:关于Agent如何进步(吴恩达知乎)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

王楚钦互动直播引猜测,美女主播身份揭秘,疑似恋情成焦点(王楚钦精彩比赛)

据悉,王楚钦不仅频繁光顾这位主播的『直播间』,还曾给她刷过礼物🎁,两人之间互动十分亲密。回顾过去,王楚钦曾被传与陈梦、孙颖莎有过绯闻,而近期他又一度与NBA美女主播美娜传出恋爱风波,甚至被粉丝扒出佩戴情侣项链的细…

王楚钦互动直播引猜测,美女主播身份揭秘,疑似恋情成焦点(王楚钦精彩比赛)

跑通 “产研用” 闭环,佛山南海构建 “AI+ 医疗卫生” 新生态,加速基层实践推广

在生态共建框架的指引下,浪潮信息也将持续深化“平台+生态”双轮驱动战略,携手生态伙伴迭代升级元脑企智EPAI平台等核心产品能力,打造更多跨领域、可复用的人工智能+产业协同新路径,推动优质医疗资源通过AI技术…

跑通 “产研用” 闭环,佛山南海构建 “AI+ 医疗卫生” 新生态,加速基层实践推广

父亲吐槽女儿相亲照片太漂亮,女儿:就发了一张p得不怎么过分的(父亲吐槽女儿考研)

故事的主人公是一位父亲,他为自己的女儿物色了一个相亲对象。于是,父亲便让女儿给相亲对象发一张自拍🤳照,借此在初步接触中引起对方的兴趣,毕竟,这也是相亲过程中最常见的操作之一。如果你用一张精修照片吸引了对方…

父亲吐槽女儿相亲照片太漂亮,女儿:就发了一张p得不怎么过分的(父亲吐槽女儿考研)

邮寄大件物流哪个便宜?快递价格表+便宜快递推荐+省钱方法全解析(寄大件哪个物流公司最便宜)

寄大件千万别直接选普通快递(比如圆通、申通、韵达、中通),这些公司单票重量通常限制在20kg以内,超重后要么加钱要么拒收。 使用场景:适合不确定选哪家物流的新手,比价后还能直接在线下单,避免反复切换APP的…

邮寄大件物流哪个便宜?快递价格表+便宜快递推荐+省钱方法全解析(寄大件哪个物流公司最便宜)

专车专用底座背板四方向延伸调节板如何实现精准调节?2026最新解析(专车专用座套)

近年来,专车市场对于定制化配件的需求持续攀升。尤其是能实现多向精准调节的底座背板越来越受到追捧。这种配件不仅能提升车内空间利用率,还能显著改善驾乘体验。那么,到底该如何挑选适合自己的四方向延伸调节板呢?本文将深入解析其原理、应用条件、选型建

专车专用底座背板四方向延伸调节板如何实现精准调节?2026最新解析(专车专用座套)