强化学习之父:LLM主导只是暂时,扩展计算才是正解

强化学习之父:LLM主导只是暂时,扩展计算才是正解

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

大模型目前的主导地位只是暂时的,在未来五年甚至十年内都不会是技术前沿。

这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。

就在刚刚的新加坡国立大学建校120周年(NUS120)之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。

其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出:

让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。

在他4月份新发表的论文《欢迎来到体验时代》也再度强调了这点,同时他表示,扩展计算才是正解。

本次NUS120演讲长达一个多小时,可谓是干货满满、信息量超大。

让我们一起来看看完整演讲内容。

LLM主导是暂时的

Sutton首先提及当前人类处于数据时代,像ChatGPT这类大语言模型,都是靠分析人类产生的大量数据(如文本、图像、视频)进行训练。

但始终追逐人类思维方式,至多也只能达到“人类水平”

在数学、科学等领域,人类数据里的知识已经接近极限,AI难以突破现有认知,纯靠模仿已经很难再有创新。

AI需要新的数据来源,且要随着AI增强而改进,静态数据集显然不足。

因此他认为AI终将从依赖人类数据,转向通过Agent与世界的第一人称交互,以获取“体验数据”的学习。

AlphaGo在与李在石对弈的第二局中,下出的神之一手——第37手,在人类标准下完全非常规的走法,就充分展现了AI在这种体验学习下的思考潜力。

也就是说,AI将会在自主体验中,完成自己的更新迭代,产生更高级的数据并反哺自身,构成一个“越学越强”的循环。

还能不受人类现有知识限制,自由探索人类未涉及的领域,比如全新的科学理论、材料设计等。

Sutton举了个例子:

一个蹒跚学步的婴儿会通过不断探索周围环境主动学习,然后随着认知增长,每一次互动方式都会随着经验有所不同。

因此AI的未来将属于通过互动和经验学习的“体验时代”,Agent需要从经验中学习,而这远远超出了LLM的能力范畴。

即使现有LLM在连接全球知识上表现出色,但通往这一未来的核心路径始终是强化学习。

强化学习正是围绕着经验学习构造,但要发挥强化学习全部潜力,还需具备持续学习能力的深度学习算法

而这背后要靠对大规模算力的充分利用来支撑,继续基于搜索和学习扩展算力,以适应AI性能需求增加。

可以说,从长远看,真正的突破还是来自规模计算

不同Agent去中心化互利共赢

谈及Agent的前景,Sutton提出对不同目标的Agent可以寻求去中心化合作。

他认为每个Agent的奖励信号都各不相同,且都试图最大化自己的回报,那么只需要让不同Agent各自实现其目标,再通过互动,就能实现互利共赢。

这就类似于人类社会中的经济运转,得益于自然语言和货币的发明,尽管人们拥有不同的目标和能力,但在过程中相互协调配合,也能产生出不错的效果。

但还是有不少人主张集中控制AI,甚至呼吁暂停AI。

Sutton认为这种声音更多的是来源于对未知的恐惧,要接受个体目标的多样性,建立合作化秩序,AI的潜力恰恰就在去中心化合作。

另外,Sutton还提到了“设计时代”的概念,当前的机器越来越类生命化,而生命也被视作生物机器。

但生命与技术之间存在本质差异,生命是在无意识下被复制产生,而技术则先经设计师意识想象再落地创造,这是一个设计过程,且设计产物也更易改进。

因此人类发展AI,就是为了将设计做到极致——设计出能自主设计的Agent,而人类将会在设计时代扮演催化剂和创造者的角色,将AI视作推动发展的机遇,而非单纯的技术产物。

One More Thing

Sutton的言论一出,很快在社区引起了激烈讨论。

支持者认为技术的突破往往来自未知与偶然,技术已趋向成熟的LLM似乎即将触及领域天花板。

而反对者则认为技术的发展在于不断改进,也许LLM不是AI的最终形态,但它也必定在AGI发展过程中占据重要作用。

那么你对LLM的未来抱有怎样的看法呢?欢迎在评论区留言讨论。

参考链接:

[4]https://goo.gle/3EiRKIH

???? 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应用,或与我们分享你在寻找的AI产品,或发现的AI新动向

???? 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

特别声明:[强化学习之父:LLM主导只是暂时,扩展计算才是正解] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

努比亚发力了,35mm主摄+6600mAh+骁龙8至尊版,16GB+512GB跌至4149元(努比亚1)

你可以理解为,这是努比亚给“手机摄影”下的一个新的定义:不是谁都能驾驭,但你想认真拍,就得用这种。 这个价位你能买到顶级性能、大电池、顶级主摄、全焦段、机械快门键和摄影配件生态,甚至还附赠AI助手和无网通话……

努比亚发力了,35mm主摄+6600mAh+骁龙8至尊版,16GB+512GB跌至4149元(努比亚1)

多地审计报告披露以旧换新有骗补问题 骗补乱象频现(审计报告披露要求)

国家正推动在全国范围实施大规模设备更新和消费品以旧换新,但在执行过程中出现了一些问题。多个省区市公布的2024年度省级财政预算执行情况的审计报告显示,设备更新、消费品以旧换新领域的财政资金使用成为审计重点

多地审计报告披露以旧换新有骗补问题 骗补乱象频现(审计报告披露要求)

响应式网页设计的核心原则:打造多设备无缝体验的技术秘籍(响应式网页设计的主要目的是)

简单来说,响应式网页设计是一套技术与理念的结合,旨在让网站内容在不同尺寸和特性屏幕上都能自动调整、布局合理,确保用户一直拥有最佳视觉体验和便捷操作。 响应式网页设计的最终目标不仅仅是布局适配,更要保证加载速…

响应式网页设计的核心原则:打造多设备无缝体验的技术秘籍(响应式网页设计的主要目的是)

汉源高科160公里光纤收发器 宽温防雷款160公里千兆光纤收发器单模双纤LC 千兆光电转换器网络光端机(汉源高科官网)

产品设计符合以太网标准,添加防雷、浪涌防护、宽电压输入等各种保护措施,以及-30℃~+75℃的宽范围工作温度设计,延长了设备的使用寿命;并且产品的平均无故障工作时间达到100 000小时以上,非常适用于环境恶…

汉源高科160公里光纤收发器 宽温防雷款160公里千兆光纤收发器单模双纤LC 千兆光电转换器网络光端机(汉源高科官网)

阳光下的重生宣言:孙怡比基尼照背后的独立美学(阳光下的重生百度网盘)

网友惊叹:“这哪是泳装照?粉色比基尼下的不是取悦他人的装扮,而是**独立人格的战袍**。 海浪退去时,孙怡腰间的糖果链仍在阳光下闪烁,像极了女性觉醒时代里那些不被束缚的灵魂。美从来不止于肌肤,更在于破茧重生的…

阳光下的重生宣言:孙怡比基尼照背后的独立美学(阳光下的重生百度网盘)