对话腾讯首席科学家张正友：让具身智能走出神话(腾讯科技总裁) #科技 #神话 #『机器人』️ #视觉 #识别 #首席

今日霍州(www.jrhz.info)©️

具身智能是由物理载体的智能体在一系列交互中，通过感知、控制和自主学习来积累知识和技能，形成智能体影响物理世界的能力。这和ChatGPT不同，具身智能通过类人的感知方式来获取知识，并抽象成为一种表达语义来理解世界并做出行动，与外界交互。这里涉及多个学科的融合，包括机械工程自动化、系统控制优化、认知科学、神经科学之类的，它是所有领域发展到一定程度后能够涌现出来的一种能力

文 | 《财经智库》研究员张燕冬

编辑｜袁雪

张正友，堪称世界级科学家。无论是世界上第一个用立体视觉做导航的『机器人』️，还是世界上第一个基于神经网络的人脸表情识别系统，或被国际上认为是一个革命性发明——在全球范围采用的“张氏标定法”，作为全球著名的计算机视觉、多媒体和『机器人』️技术专家，张正友在立体视觉、三维重建、运动分析、图像配准、摄像机📹️自标定、人脸表情识别、『机器人』️导航等方面都有开创性的贡献，在无止境的科学前沿寻求突破是他始终的追求。

如何科学看待具身智能？语言大模型的优势和弱势是什么？人形『机器人』️是具身智能发展的方向吗？具身智能面临怎样的挑战？如何构建具身智能的基础设施和更优生态？带着诸多问题，《财经智库》走访了腾讯首席科学家张正友。

张正友认为，具身智能与人形『机器人』️不是同一概念，中国的具身智能生态还处于初级阶段；而立足场景驱动科技进步并影响社会、解决其现实问题才是有效路径；促进“身”“智”在动态的环境中协同进化、落地，创造人机互动的更优形态是目标。

今日霍州(www.jrhz.info)©️

多模态知识结构的积累

《财经智库》：1985年你浙大毕业后去法国留学，于1990年获计算机科学博士学位，后又分别在法国国家信息与自动化研究所（INRIA）和日本先进通信研究院（ATR）工作，1998年起任职于微软研究院20年，2018年回国任腾讯首席科学家。33年的海外经历，哪些关节点对你较为重要？

张正友：我的人生轨迹很简单。本科在浙大，第一次接触计算机，那时用的还是穿孔卡机与计算机交互，计算资源缺乏，PDP-10、PDP-11都从国外进口，一台计算机很大，占房间的大部分空间。今天已从大型计算机到PC普及，到『互联网』兴起和『智能手机』时代，再到现在穿戴式或陪伴设备的涌现，都说明计算能力从最初固定的时间、程序和地点慢慢变得移动化，随时随地都能获取想要的信息。

我一开始学的就是人工智能，早期『机器人』️跟AI是同一领域，『机器人』️、计算机视觉以及语音识别不区分。那时大家觉得AI可以很快实现，但随着时间的推移发现太难了，就把『机器人』️、计算机视觉、语音识别和自然语言处理从人工智能里独立出来，而人工智能则聚焦于规则或案例的推理和决策，希望各个击破。分久必合，经过40多年，各个领域都有巨大进展，人工智能和『机器人』️开始融合了。我读硕士时做语音识别，先将语音信号转换成频谱图，搞清每个音素在频谱里的特征及变化，然后用基于规则的人工智能系统来识别音素，形成单词句子。语音太简单了，是一维信号，加上频谱以后变成二维，我便开始做三维计算机视觉，直接用于『机器人』️。

《财经智库》：那时就为『机器人』️导航？

张正友：对。那时的『机器人』️是轮式的，上面装三个摄像头，是世界上第一个用立体视觉做导航的『机器人』️。我参与了欧洲共同体项目以及火星『机器人』️的研发，发明了ICP算法（迭代最近点算法，一种点云或曲面对准方法）。这是一种基础算法，以3D建模为火星『机器人』️做导航，这套算法至今还在自动驾驶和场景重建等领域使用。

后来我转向纯粹的3D视觉、摄像机📹️标定研究。当时利用学术休假去日本，研发了世界上第一个基于神经网络的人脸表情识别系统。1998年到微软研究院，继续做人脸表情识别，用了更多数据和深度神经网络，做成云服务。在微软，研发了很多东西，包括现在全世界都在使用的“张氏标定法”，这是计算机3D视觉领域中一种经典相机📷️标定方法。

尝试新方法成为我持续的动力。在法国做摄像机📹️标定的方法比较复杂，到了微软后我就想开启3D视觉新研究，“张氏标定法”便出现了，其好处在于简易，只要打印一个2D棋盘格就能得到摄像机📹️参数。这在国际上被认为是一个革命性的发明，很快在全球范围采用。

《财经智库》：这种方法好像也广泛应用于『机器人』️视觉、三维重建、SLAM等领域，将三维视觉与人脸建模和数字人结合？

张正友：确实，数字人研究起始于微软。那时电脑还没有摄像头，USB摄像头刚出来，分辨率很低，花了几年时间研发，将数字人技术用于微软的Xbox。发布时，比尔·盖茨用我的小样做了演讲，宣布微软进入Xbox时代。

《财经智库》：这些技术在学科上如何划分？

张正友：介于视觉和图形学。我们在世界上最权威的刊物和会议上发表文章，例如CVPR（计算机视觉、模式识别领域规模最大、投稿量最多的顶级会议之一）、ICCV（视觉领域的旗舰会议，侧重基础理论与跨学科应用）、SIGGRAPH（计算机图形与交互技术领域的顶会）。我是一个不满足现状的人，先做计算机视觉，后做神经网络，然后到美国从计算机视觉转到语音识别再到多模态技术等。在语言识别领域还发明了“骨导麦克风”，即通过骨传导麦克风，即使在很嘈杂的地方也可以将自己讲话的声音准确识别出来。

《财经智库》：你认为仅了解计算机视觉还不够？

张正友：对我来讲，最终目标是人和『机器人』️的交互，视觉只是一个模态，显然是不够的，那就必须拓展自己，所以转向语音识别。但一般人不会从一个领域突然消失，脱离多年积累进入新领域，或者说，丢下已经功成名就的领域，开始一个陌生领域的开拓。好在微软研究院氛围宽松，领导支持我转型。我花了七年时间做语音处理和语音识别。

从计算机视觉，到语音处理和语音识别，再结合所有，就是现在多模态的意思，其中一个应用就是视频会议。

《财经智库》：视频会议最早从微软出来？

张正友：视频会议微软做得很早。像Skype，以前叫Office Communicator，现在叫Teams。我做的视频会议设备叫Roundtable，360度视频加麦克风阵列。一个会议室只有语音不行，因为不知谁在讲话；结合Roundtable设备后，就可看到讲话人以及清晰的语音。语音和视频结合是多模态的起始，很重要，后来成为了产品。在微软，我基本每年向盖茨汇报两至三次，记得最后一次向盖茨汇报时，他跳起来说，“这就是我想要的东西。”

《财经智库》：刚才你提到微软也重视“Paper”？

张正友：盖茨是少有的真正具有胸怀的人。微软研究院成立于1991年，那时人工智能虽有概念，但并未发展和应用，研究院关注的就是人工智能系统研究，从某种程度上说，盖茨预见到了计算的未来，他强调研究技术，让计算机能看、能说、能听、能思考。

微软研究院不以商业为目的，旨在提升整个社会人工智能的能力，并推进技术的进步。但研发做得如何，需要权威同行认可，否则得不到验证和衡量。这是微软鼓励发表文章的原因。我加入微软时，计算机视觉并未在微软的产品里运用，后来才出现了产品化的视频会议和Xbox。

《财经智库》：也就是说，尽管没有盈利和产品要求，但随着研发的深入，自然而然出现了产品。

张正友：对。从商业角度，养一批研发人员，不一定马上有结果，离产品很远；直接购买外面的技术成本可能更低。两种路线由首席执行官或创始人定夺，而对盖茨来说，虽然从商业角度不值得，但推动整个社会的发展同样重要。

从一个领域跨入另一领域，虽属同一AI大领域，但里面细分领域很多，需要不同领域的知识。之所以能够跨界，是因为微软研究院宽松的环境和充足的经费。只要你有激情，就让你尝试。这是微软鼓励创新的优势。

《财经智库》：在AI领域，视觉和语音结合，处于大领域的什么位置？

张正友：现在的大模型，已从语言模型到多模态了，即把语音、视觉、文本结合。人机交互本质上就是多模态。前面说过，最初『机器人』️和视觉、语音在人工智能领域合为一体，即语言、眼睛、耳朵、声音、动作为一体；后来发现每个细分领域都很复杂，渐渐地计算机视觉、语音、自然语言处理等都成为独立的研究领域。现在各领域开始融合，像NeurIPS（一个跨学科的神经信息处理系统会议）包括视觉、语音、文本，『机器人』️也慢慢进入了。本质还是多模态情境。

《财经智库》：你如何评估自己国外30多年，在技术、学术上所奠定的基础，以及一些认知方法论？

张正友：我对人机交互始终有兴趣，很早就开始关注了。从计算机视觉到人脸识别、语音，再到视觉和语音融合，再到『机器人』️，有些研究属认知科学和神经科学。在此过程中不断开拓，而AI『机器人』️是我一以贯之的倾注，其本质是交叉科学，如计算机视觉已与许多领域产生交叉，为理解图像需要结合语言进行处理；深度学习也不仅是大数据游戏，而是如何将其与几何概念和物理信息结合。未来，各学科会以更加多样化的形式融合。

《财经智库》：能否这样理解，你作为全球著名的计算机视觉、多模态和『机器人』️技术专家，在AI方面，尤其在立体视觉、三维重建、运动分析、图像配套、摄像机📹️自标定、人脸识别、语音处理和『机器人』️导航等方面都有开创性的贡献。你曾经提出过一个“钉子理论”，在如今边界模糊的创新过程中，如何更好理解该理论？

张正友：融合就更需要“钉子理论”，即便你的思考再宏大，也必须在某个领域钻研下去，然后再融合。横表示知识的宽度，竖是技术的深度。假如只有宽度，只知皮毛，那么这颗钉子打在墙上很容易就会被拔下或替代。以我个人的经历，要成为一颗扎得牢的“钉子”，先要往深里钻，到一定程度再扩展自己的“广度”。如果对某个领域理解不够深，很难找到与另一个领域的结合点。

《财经智库》：在系统性思维的框架下理解“钉子理论”，专注“点”，但不失于“系统”，也就是中国哲学中的Paradox。

张正友：点面之间的关系至关重要，我会考虑如何将系统性思维与场景驱动相结合，即在某一场景下去思考哪些问题需要解决，关键技术究竟是什么，如何突破？如此可以带动一批应用，像“张氏标定法”和火星『机器人』️定位技术等，都是在如此思维中产生的。但之后又需要用抽象的思维描述技术，在场景中概括出理论，并使之适用于其他领域。在场景中找技术突破口非常重要，这也是我现在用“养老”场景去牵引『机器人』️发展的思路。

今日霍州(www.jrhz.info)©️

语言大模型的优势与弱势

《财经智库》：你想用场景驱动技术并推动社会变化，里面蕴含着对科学和技术的认知与追求，以及长期在国外形成的思维方式和方法论。33年时间可谓长矣！回国后，无论是你提出的虚实集成世界，还是ABCDEFG，包括层次化的控制研发智能『机器人』️，或SLAP范式……其逻辑关联是什么？

张正友：于我而言，技术是第一位的。我要全身心投入做基础研究，研判技术发展方向，做出突破性技术，持续保持在世界前沿。国内也讲重视基础研究，但往往更多是应用基础研究，有太强的目的导向。现在讲“卡脖子”，其实“卡脖子”技术不是基础研究。

《财经智库》：“卡脖子”不属于基础研究范畴，是产品。

张正友：即使这个“卡脖子”解了，新的“卡脖子”又来了，因为没有从源头去思考如何解决这些问题。中国改革开放40多年发展很快，追赶也快，有很多创新技术，但不少原创性核心技术还是被国外掌握。

为什么选择了腾讯？马化腾2017年决定要做『机器人』️实验室，我2018年3月回来。马化腾有预见，觉得『机器人』️是一个发展方向。从技术领域来讲，我觉得自己很合适，我对『机器人』️情有独钟，正好是个机会；同时，腾讯企业文化跟我个人做事风格比较匹配。更为重要的是，中国社会老龄化问题严重，而『机器人』️最有可能突破的场景就是养老领域。

《财经智库》：在真实世界里，很难看到一个真正意义上的人机交互的『机器人』️，『大语言模型』的爆发能让人类所期待的『机器人』️很快成为现实？

张正友：『机器人』️从自动化进阶到智能化，需要实现反应式自主和有意识自主去应对变化的环境，需要一种新的控制范式，类似于人类的认知模式。人的思考可分为两个系统，一是自动的、快速的、直觉的系统；二是需要推理、复杂计算等费脑力的系统。完善的『机器人』️系统也需要不同层级来处理不同级别的决策，或理解不同层级的感知信息。我相信，AI和人的未来将会是多模态的交互方式，而且AI要能主动地感知周围的环境。目前大模型还不能称之为完整的世界模型，多模态大模型肯定是通往AGI的必经之路，但还有很多工作要做，而且很可能不是现在的多模态大模型这样的架构。

《财经智库》：你刚才阐述的两种系统思维，是基于诺奖得主Daniel Kahneman的一本书《Thinking, Fast and Slow》？

张正友：是的，事实上，人脑有95%的时间都在系统1，只有很少和复杂的任务时才需要调度系统2，这是人脑能够如此高效解决问题的原因，连一个GPU消耗的能量都不需要。

《财经智库》：基于此，你提出了ABCDEFG的目标方向？

张正友：智能『机器人』️的ABCDEFG分别对应的是，A是AI，『机器人』️必须能看、能说、能听、能思考；B是『机器人』️本体，要探索怎样的本体最适合人的环境，最简单的想法就是人形『机器人』️，但我认为还可能有更好的形态；C是精准控制；D是发育学习，因为『机器人』️要在跟人和环境的交互中不断演进，要在失败中学习提升自己的能力，就像一个小孩的发育成长；E就是EQ，『机器人』️在交互中必须要理解人的情感，同时要把自己理解的东西呈现给人，这是双向情感理解，拟人化；F是灵巧操控，要掌握包括使用工具，替人类完成物理任务，否则『机器人』️只是聊天工具；G是守护天使，『机器人』️不仅仅是单独的本体，还需要和部署在环境里的智能传感器和其他『机器人』️合作，通过云跟世界互联，使得『机器人』️成为人类的保护天使。

《财经智库》：这个目标与方向是否太理想化？使『机器人』️像人，能最终落地吗？

张正友：完善的『机器人』️系统需要借鉴人类的思维方式。讲到自主，有两类：一是反应式自主，比如走路时绊了一跤，可以很快恢复平衡，或是抓的杯子打滑了要捏紧一点；二是有自主意识，例如规划如何开门或下楼。为实现这个自主，传统方式通过感知，感知环境后做一个规划，规划后再行动，行动后再感知，其致命问题就是它不可能解决反应式自主，因为不可能那么快，所以我提出了一个“SLAP”范式。

S是感知，L是学习，A是行动，P是计划。其中，学习很重要，学习可以渗透到感知、行动和计划；还有就是感知和行动要紧密连接。只有这样，才能感知到突发事件，如摔一跤可马上恢复平衡，同时对常规行动不需要进入上一层计划。与人的认知相比较，就是刚才所说的系统1和系统2，反应式自主对应了系统1；而计划逻辑思维，也就是有意识的自主就对应了系统2。

《财经智库》：明白了，你是希望通过机器的训练和交互，将较慢的思维，即需要花费精力的系统2也像灵活、快捷的系统1一样，做出快速反应。

张正友：目前还很难做到。虽然还没有一个明确的研究路径，但大家都投入到『大语言模型』，因为这条路看起来走得通，而且有效果，把所有人类的数据整合到一个大模型里，能够产生出一定的“智能”。两年前我说『大语言模型』还不够，只是系统1，需要考虑更上一层的系统2。那时，无论是ChatGPT或其他『大语言模型』，只要给它一堆数据，马上可以预测，不论问题难易几乎需要同样的时间回答，但实际问题的解决不是这样的。容易的很快可解决，复杂问题则要上升到一定高度，大家都在思考采用何种新的研究方式。

《财经智库》：OpenAI大模型ChatGPT-o1出来之后，是否有希望走通这条路？

张正友：OpenAI在2024年9月推出ChatGPT-o1，有推理了，但它未公布具体怎么做。梁文锋的『DeepSeek』今年1月也做出来了，可以看出大家开始往系统2发力了。

这是革命性的变化，能理解人类了，这是我对『DeepSeek』的看法。尽管OpenAI先起步，但『DeepSeek』把深度思考复制出来了，并且开源，同时计算成本大大降低，让一般人用得起，这是非常重要的创新。美国也开始讲，OpenAI需要开源一些东西，最近也有一些开源模型推出。

开源和闭源是共生的，就像『智能手机』，既有『安卓』也有苹果；『大语言模型』闭源开源都存在，闭源可能做的更极致一点，也可以借鉴一些开源的东西；而开源让对技术有追求的人不断创新，成本低，迭代更快。

到了这个层次就需要看一些认知科学的内容。例如一个需要思考多次才能产生的结果，思考多了就可视为直觉，相当于从系统2变成系统1了。这就像人类的跳水，最初需要去思考去锻炼，将水花压小，是系统2，前面跳几次效果不佳，慢慢越来越好，成为肌肉记忆，逻辑思维变成直觉，就变成系统1。『机器人』️也应该如此。

今日霍州(www.jrhz.info)©️

“我们的目标就是人和『机器人』️共生、共存、共赢，具身智能绝不意味着替代人类，而是为人类服务。”

今日霍州(www.jrhz.info)©️

具身智能一定是人形吗？

《财经智库》：具身智能越来越成为人们的关注。我们去过杭州的宇树科技、云深处等企业，这次《财经智库》深圳调研又去了优必选、众擎、越疆等。具身智能一定要人形吗？

张正友：具身智能与人形『机器人』️是两个不同的概念。『机器人』️Robot，其含义是一个强制的劳动力，即苦力。IEEE定义Robot就是能感知的自主机器，从来没说过要像人形，人形在英语里叫Humanoid。但当中文把Robot翻译成“『机器人』️”后，马上就带着一层含义了，如果翻译成自主机器就不会如此。但这一翻译已经注入了人们对『机器人』️的情感，好像『机器人』️不像人就不是『机器人』️。

《财经智库》：1950年，图灵在《计算机器与智能》中提出“机器能否思考”的哲学命题，预示了智能体通过物理交互实现认知的可能性，但受限于当时的技术，未能取得突破；后来布鲁克斯提出“包容式架构”，主张智能应由身体与环境的实时交互自然涌现，成为具身智能的奠基性理念。

张正友：具身智能相对非具身而言，像ChatGPT是没有身体的智能。于我而言，具身智能体就是一个智能的『机器人』️，或者一个智能的数字人。但智能是否需要具身是有争议的，这个争议主要围绕认知科学展开。一部分人认为许多认知特性是需要生物体的整体特性来塑造生物体的智能；也有一部分人认为智能不需要身体，因为主要面临的是信息处理、问题解决和决策治理等任务，这些都可以通过软件和算法实现。具身智能认为“身”和“智”要圆融统一，与环境的交互中涌现出智能。

刚才提到图灵1950年的文章，即探索如何实现机器智能，可以看到，有一部分人认为可以用一些非常抽象的行为，比如说下棋来实现智能；还有一部分人认为，机器最好要有一些器官，比如麦克风和话筒来帮助我们更好地实现机器智能。但图灵自己也说不清楚哪一类更好。OpenAI最早也是买了上百台机械臂，希望直接用『机器人』️来实现AGI，经过一年多的努力发现这条路走不通，主要是『机器人』️操作的数据不够多，所以放弃了，把精力集中在基于文本的大模型，最后成功开发了ChatGPT。

《财经智库》：近几年我们调研了一些『机器人』️企业，像物流行业，自动化就行，却偏偏用人形『机器人』️，其实，机械臂的功能足矣，没必要像人吧？

张正友：我平时很少讲这一观点。人形不是最终目标。从某种角度讲，人形是以人作为参考，相对容易。但如何控制如此复杂的系统，才是难点。从技术的发展来讲，人形不一定是最佳的。以汽车为例，交通工具的进化如果仅从仿生角度来做，仿生出一个马车来，效率远远比不上一辆汽车。同样，从现在角度看，人形『机器人』️对整个社会的发展不一定是最佳形式，因为现在人居环境大部分是平地，足式在复杂地面比较有用。我们实验室设计的“Max狗”和“小五”，都是复合的，在高低不平的路面上可以用足式，比如上楼梯，但到平地后切换成轮式的。这只是一个例子，也是我们为什么不做人形『机器人』️的一些原因。

《财经智库》：宇树的人形『机器人』️表现力强，优必选也是这样，但它真要像人一样感知，或许还有很长的路要走。你理想的『机器人』️是什么样的？

张正友：理想状态的AI『机器人』️，还没想好，正在探索。比如轮足，是要根据不同的场景需求而设定的。从技术发展曲线来看，相对人类的进化速度，技术是呈指数级上升的。人类的双足是在几百万年间让人类能够在复杂环境中生存下来而进化形成的形态，但今天的人居环境基本都是平地，没有必要使用操作效率低下的双足。为什么我们实验室去做Max？这个机器狗是既有轮子又有腿，不是为仿生，而是去探索有没有更好的形态能够高效地在人居环境中行动，更好地为人类服务。

再例如，人类是不可能进化出屏幕的，但『机器人』️配备了屏幕，就可以让其与人的交互效率提升3倍。为什么不把现在的技术用到『机器人』️上面？过早将终极形态锁定在“人形”上，可能会限制行业的想象力。

《财经智库》：在国内，人们总把具身智能与人形『机器人』️等同起来。近几年，国际上如特斯拉发布擎天柱，『机器人』️的发展转向人形『机器人』️与通用『机器人』️；2023年谷歌发布RT-1，具身智能浪潮扑来；再加上年初杭州“六小龙”出现，人形『机器人』️堪似方向。

张正友：中国为什么这么多人做人形『机器人』️，都是被马斯克误导了。马斯克确实要做人形『机器人』️，大家跟随他，却没有认真思考人形『机器人』️用来做什么？我的猜测，马斯克做人形『机器人』️的目的不是为了地球，而是为了他的火星计划，人形『机器人』️更适合火星复杂的地面情况。就如其火箭计划，短期内难以直接去火星，那么就先通过一些发射卫星产生经济价值，在此过程中不断提升火箭技术。马斯克的人形『机器人』️亦如此，通过车间作业不断提升人形『机器人』️的能力。如果仅仅为了工厂所用，就不需要做人形。

而我们要从本质上去思考，到底『机器人』️在人居环境里是什么样子。

《财经智库》：七年来你们一直在对『机器人』️的前沿进行探索。从2018年平衡自行车的动态控制，到2025年Max实现腿轮一体化的四足机器狗，以及2023年灵巧手操作和栩栩如生的运动步态，再到去年下半年的养老『机器人』️原型“小五”……从未提过以商业化为目的。

张正友：“小五”『机器人』️是腾讯实验室第五代完全自研的『机器人』️，这也是其名字由来。这个『机器人』️前面安装脚掌，走楼梯时变成足式，到平地时切换成轮子。这样设计的考虑是为了稳定，这是在养老环境里的关键。

我们曾经考虑过轮椅跟『机器人』️结合，可以变形能折叠，或者智能轮椅加上一些感知，可自动避障和行走，但轮椅的功能非常专业且属医疗器械，需要批准。因此我们还是希望做通用的智能『机器人』️完成多样任务，『机器人』️可抱老人，推老人到某些地方；可以送药、按摩、对话；假如能力强，还可以帮人打针等。当然，我们实验室的战略方向始终是具身智能『机器人』️前沿技术探索，尽可能做到实用，并让技术快速迭代，商业化需要不同的技能。

今日霍州(www.jrhz.info)©️

《财经智库》对话张正友

今日霍州(www.jrhz.info)©️

具身智能面临的挑战

《财经智库》：鉴于人形『机器人』️的表演，在老百姓眼里，似乎人形『机器人』️很快就会进入家庭，替代人了。

张正友：有人认为，大模型已经出现了突破，放到『机器人』️上马上就能够实现自主，实际上不那么简单。打个比喻，相当于20岁大脑放在3岁孩子身上，『机器人』️虽然拥有一定的行动或移动能力，但操作能力较弱，感知也难以进化。真正的具身智能要能自主学习和处理问题，对环境变化和不确定性能够自动调整和规划，这是我们认为具身智能能够通往AGI或者打造通用智能『机器人』️非常重要的环节。

只有将具身智能讲清楚，才能搞清楚我们处于怎样的阶段，面临怎样的挑战。具体来说，具身智能是由物理载体的智能体（智能『机器人』️）在一系列交互中，通过感知、控制和自主学习来积累知识和技能，形成智能体影响物理世界的能力。这和ChatGPT不同，具身智能通过类人的感知方式（视觉、听觉、语言、触觉）来获取知识，并抽象成为一种表达语义来理解世界并做出行动，与外界交互。这里涉及到多个学科的融合，包括机械工程自动化、系统控制优化、认知科学、神经科学之类的，它是所有领域发展到一定程度后能够涌现出来的一种能力。

《财经智库》：这也是人机互动的核心吧。我曾经请教过“云深处”创始人、浙大教授朱秋国如何看待波士顿动力。他说，波士顿动力的优势还在于Action，而不是感知。

张正友：是的，具身智能面临诸多挑战。首先，复杂的感知能力，包括视觉、听觉与触觉，现在大模型里只包括了视觉、听觉，还没有触觉。触觉非常重要，是『机器人』️复杂感知能力的一部分，具备触觉才能感知和理解周围不可预测的非结构化的环境和物体；其次，强大的执行能力，包括移动、抓取、操作，以便能够与环境和物体进行交互；其三，学习能力，能够从经验和数据中学习与适应，以更好地理解和应对环境的变化；其四，自适应能力，能自主调整自己的行动和策略，以便应对不同的环境和任务。当然，并不是说这些能力叠加起来就能达到具身智能，这些能力还需要有机、高效地协作融合，才能真正达到人类所希望的具身智能。还有，具身智能所需要的数据非常稀缺，OpenAI直接通过『机器人』️达到AGI的想法就是因为数据缺乏而折戟，数据的稀缺性仍是很大挑战，在实际场景中收集数据还需要保护用户的隐私安全。

《财经智库》：你说过『大语言模型』，把世界上所有不同文化的人类文明全部放在了一起，涉及很多能力，但『机器人』️数据很少，人们不可能像『大语言模型』一样有这么多数据驱动『机器人』️。是否『机器人』️要通过跟环境交互来演化？

张正友：这种演化，如前所述SLAP，我们将此分为四部分，先是行动包括运动能力和操作能力；然后是感知，感知和行动连在一起，为系统1。规划是系统2。学习较为特殊，它贯穿每个模块，即通过跟环境交互不断地提升其能力，『机器人』️也如此。

另外，看一下人和人沟通的场景，沟通模型是加州大学心理学教授Mehrabian在1971年写的一本书《Silent Message》里提出来的，任何人之间的交互，靠文字或文本传递信息只占7%，其他部分，声音占38%，人的肢体语言、表情、视线占55%，所以完全靠文本，想要实现AGI根本不够。所以我还是认定原生的多模态大模型是通往AGI的必经之路，现在人们将其他模态和文本模型对齐，肯定会丢失信息。

《财经智库》：从技术层面，就拿你们实验室的研发来说，缺乏的是什么？面临的问题是什么？

张正友：从实践角度，是触觉和灵巧手。刚才讲到多模态『大语言模型』，文本是标准的，摄像头和麦克风经过40年发展，也是标准的，但迄今还没有一个标准的触觉传感器。触觉跟手结合很关键，如果没有触觉，不可能安全搀扶老人。只有机械臂和机械手上都有触觉传感器，才能知道合适的力度。

灵巧手是否也要像五指手呢？不一定要仿人，但到底怎样优化机械手，也是很复杂很关键的。相信鉴于多模态大模型的基础，加上摄像头、麦克风、有触觉的灵巧手，慢慢就可以跟环境交互。『机器人』️跟智能结合就可以产生更多东西。

《财经智库》：能否这么理解，ChatGPT，把人类的知识强迫放进去了，但还没有能力随着环境交互而不断演化，但『机器人』️肯定是要演化的，社会上“『机器人』️马上就要代替人”是一种误解。

张正友：代替人什么？这是一个基本问题。早期我们觉得『机器人』️很快会代替人的体力劳动，但后来发现很难，还需时日。从资本角度来讲，更多的应用场景是工业，工业场景明显是可以较快完成对人的替代，但工厂里80%-90%工作自动化了，人怎么办？剩下的是柔性操作和质量检测，用现在的智能『机器人』️代替或许可以。『机器人』️的定位应该是做一些人做不了的事情，比如在养老领域的护工短缺严重问题，当人们不愿意做这类工作，『机器人』️能否替代人。

《财经智库》：『机器人』️不是去替代人，而是去做人不愿做或不能做的事情。

张正友：有些人是希望替代人，但我希望『机器人』️去做人不能做或不愿意做的事，或者能力不够的地方。智力部分确实能够被AI替代掉，但在意识及情感方面，『机器人』️或AI能够模仿部分，细微之处仍然难以企及，它毕竟不像人那样会产生共情，机器从外面加装一些知识，不是自然发育而来，如人类那样进化的过程。所以人和人之间的情感与理解部分，不会被『机器人』️所替代。

构建具身智能基础设施

《财经智库》：近日，你在世界人工智能大会上发布了三个具身模型：多模态感知模型、规划模型和感知行动联合大模型，以及一个囊括这三个具身模型和云计算能力的Tairos开放平台，该平台可否称之为“具身智能”的基础设施？

张正友：这是腾讯首次基于『机器人』️实验室七年以来的探索和认知向社会和企业开放。从2018年起，腾讯『机器人』️实验室的研发已涵盖了操作、运动、感知、智能、硬件设计等『机器人』️核心技术栈，通过这一系列探索，已成为国内少有的具备全栈式『机器人』️技术能力的团队。我们深刻理解『机器人』️硬件与具身智能的共生关系，软硬件不是简单拼装，而是从传感器到大小脑再到执行器的系统性融合创新。

如前所述，『机器人』️时代需要具身智能的基础设施和构建其生态体系，腾讯想扮演这样的角色。就目前阶段而言，无论『机器人』️的具身模型还是硬件形态，都还处于探索阶段。

手机系统主要有『安卓』和IOS，IOS是苹果的封闭系统，『安卓』则是开放系统，上面有一批应用开发者，各种各样的APP在『安卓』和IOS上开发。目前智能『机器人』️生态构建还有很多不确定性，但我认为会朝着类似于『智能手机』的生态发展，有一两家闭源平台系统，特斯拉走的路类似于iPhone，本体、智能、开发应用都是自己完成；腾讯则希望是开放平台一部分。

现如今『机器人』️生态属于起步阶段，『机器人』️的硬件厂家、平台厂家，以及应用的开发商还没有形成明显的分工层次。无论是优必选、宇树科技、云深处，基本上都要自己去开发上面的应用，因为不开发应用就没有价值，换言之，只有找到应用场景，与其结合，才能创造价值。企业要活下来，仍需很多科研机构，或者专业性平台继续做具身智能研究。

《财经智库》：“具身智能”这个概念早已有之，但被大众熟悉还是近两三年的事，国内很多创业公司涌现出来了，也挖了你们很多人，你们是否认为目前构建生态的条件已经具备？

张正友：我们实验室有一些人，想去创业，或者被人挖走，很难避免。他们即使出去也是推动行业的发展，会成为『机器人』️生态的一部分。当然还有更多同学认可研发具身智能开放平台的战略，选择留下来和实验室一起共同成长。实验室从零开始，我们不断补充新鲜血液，沉淀并积累技术，无论是硬件还是软件，开放性平台的条件已经具备，同时具身智能的整个生态发展也需要这样的平台。

《财经智库》：这个平台是基于你前面强调的SLAP体系，将其模块化？

张正友：确实，这个开放平台里有感知模块、规划模块、感知行动模块，沉淀下来就提供给外部企业。有些企业可能缺乏感知，可以采用我们感知模块；有些企业可能感知做得不错，但行动部分不行，可以用我们感知行动模块，如众擎，行动不错，但规划部分还缺乏，那就用我们的规划模块。将其模块化，互相之间有联系，大家都可以用；同时跟我们合作的企业，一起打磨模块，构建健康的具身智能生态环境。

目前已经进化形成了一个更为完整、强大的核心技术体系。首先是规划大模型，相当于人的左脑。让机器能理解复杂目标是什么，然后拆成一个个可执行的策略步骤，比如陪行动不便的老人散步，需要先去拿轮椅，把老人抱到轮椅上，然后推轮椅。其次是感知的模型，相当于人的右脑，其作用是让『机器人』️真正了解自己所处的环境，如轮椅在什么地方等。其三是感知行动联合大模型，相当于人的小脑。这个模型打通了从“看见”到“做到”过程的关键环节，比如在一个狭窄的过道里，推轮椅要安全避开其他行人和障碍物。

《财经智库》：平台这种层次化与模块化的架构，同时还可以联合优化，期待看到你们的平台不同功能的大模型能够相对独立地发展和更新，做到高效协同。目前国际上，你觉得具身智能的发展趋势怎样？

张正友：这是逐步将具身智能推向现实世界通用应用的关键路径——因为真正的智能『机器人』️，不仅要理解人类的世界，还要在这个世界里安全、稳定且高效地完成任务。

谈到国际，现在已有很多变化，比如波士顿动力，主要关注运动能力，但它的方法比较传统，处于转型期。现在有一家创业公司，叫Physical Intelligence，希望做一个类似于『机器人』️的小脑，即感知行动部分，偏软件，自己采数据，也从不同厂家采购一些数据。还有一家Figure，几乎都是围绕着感知行动，闭源的。Physical Intelligence模型是开源的，已经发布了π0，公布了π0.5，目前还没有开源。

《财经智库》：阿里走出很多创业公司，对杭州生态发展产生了很大影响。期待你们能够超越“人形热”，构建人机共生的更优形态。

张正友：现在有些『机器人』️公司宣称有全栈式服务能力，我认为是不太可能的，因为这需要大量的资金、人才和技术。在整个生态还没建起来的环境下，创业公司又不可能像特斯拉这样有雄厚的实力形成一个闭源系统，非常困难。如同众多大模型创业公司，『机器人』️企业也会经历Gartner曲线过程，一开始觉得有希望，到后面会冷却下来，经过低谷后，才能稳定发展。

我认为还是应该靠场景驱动科技发展和社会进步。中国养老场景足够大，一片蓝海，具身智能在养老环境里可能会最早突破。养老场景，不是说直接进入家庭，有可能先在养老院里实现，环境比较可控。我还是希望『机器人』️生态能够起来，去解决真正对社会有影响的问题，养老问题是中国社会最为严峻的问题之一。

《财经智库》：你抓住了本质和内涵。

张正友：有点理想主义。我们的目标就是人和『机器人』️共生、共存、共赢，具身智能绝不意味着替代人类，而是为人类服务。『机器人』️到最后就像一个新物种，像我们的宠物，跟人和平共处，为人服务。

《财经智库》：发现你经常看一些神经学、人类学、心理学的书，自己还翻译《道德经》，这也是更多了解人类发展，包括人的心理和感知的重要部分吧。智能『机器人』️再往下发展，就要更多吸取人的感知和反应，才能完成人机交互的过程？

张正友：对人的了解是基础。在数据感知下，找到突破口和新范式。新范式应该优于『大语言模型』，『大语言模型』是直接注入数据，但人跟机器的交互，像情感的理解、意识之类的，不应该依靠文本表达，而是在人和『机器人』️交互过程中不断提升能力。如犯个错误，它能够从思辨中学习，所以ABCDEFG里，其中D就是借鉴人的认知科学，人是从婴儿一步一步发育起来的，『机器人』️要提升其操作能力、体力和智力，提升其交互能力，也需要不断发育，当然目前还没找到好方法，这是一个长期的过程。

从另一角度看，还是有希望的。人的认知和知识无法通过代际直接复制，只能从头发育，但『机器人』️所学的东西可通过数字形式直接复制到另一个『机器人』️上，『机器人』️之间通过信号传递和交互，共同发育就会非常快。

人类再过几百年、几千年，变化不应太大，寿命可能会越来越长。而『机器人』️要在人类需要的时候，为人类服务。在我的有生之年，绝对有信心，年轻人更应有信心。