近日,中国移动九天人工智能研究院研发的端侧自主智能体模型JT-GUIAgent-V2,登顶谷歌AndroidWorld自主智能体动态基准评测国际榜单榜首。
这一榜单含金量不小!AndroidWorld是由Google研究人员联合发布的一个功能完备的Android环境,为自主智能体提供了一个具有高专业性和权威性的基准测试平台,构建了包含20款主流Android应用程序的完整功能环境,精心设计了涵盖日程管理、信息交流、系统设置等日常活动的116项任务,确保评测结果的高可重复性与可比性。
根据测评,JT-GUIAgent-V2任务成功率达到67.2%,超越了基于GPT-4o、Gemini2.5、Seed1.5-VL等基座模型驱动的多个GUI Agent框架和模型,位列榜单Top1!这标志着中国移动在端侧复杂智能体系统的人机交互技术方面达到了国际领先水平。
GUI Agent是什么,能干啥?GUI Agent(图形用户界面智能体)其实是一种前沿的人工智能代理系统,它能够自动推理并执行UI交互,模拟人类的各种操作指令,如点击、输入、拖拽、读取界面信息等,实现用户要求的复杂任务自动化处理。
简单来说,GUI Agent就像端侧的“自动驾驶系统”,能够代替用户与各种软件应用进行自动交互,显著提高了工作效率和用户操作体验,尤其是在智能终端、智能网联汽车、智能机器人等信息消费“新三样”领域具有广阔的应用前景。
然而,GUI Agent在实际应用中面临三大核心技术挑战:一是如何准确感知理解动态多变的多模型UI界面,二是如何对复杂长链条任务做到高效推理,三是在任务执行过程中如何做到自动纠偏处理。
而九天GUI Agent厉害之处就在于此!JT-GUIAgent-V2在架构设计和智能规划上实现了全面升级。相比1个月前发布的V1版本,新版本在自然语言指令理解、UI元素多模态感知、目标任务识别推理以及自动化执行等方面实现了全方位能力跃迁,真正实现了“任务自动观察-自主思考-自动执行”的全链路闭环。
其核心技术优势体现在以下两大创新:一方面是自主构建两阶段的协同框架。创新设计全局规划智能体(Planner)和感知定位智能体(Grounder)两阶段协同框架。Planner专注高阶策略规划,显著提升复杂任务推理能力和环境适应性;Grounder则确保界面元素的精准识别与操作执行,二者协同形成完整决策闭环。
另一方面是创新性地引入经验驱动的智能规划方法,通过实时融合用户指令解析与应用操作经验,实现系统的动态决策优化,带来“规划精准化、错误最小化、任务通用化”三个方面的性能和效果显著提升。
九天GUI Agent本次登顶AndroidWorld榜单,意味着中国移动在端侧自主智能体领域已具备国际一流水平,同时也折射出中国移动对智能时代用户诉求和体验升级的前瞻洞察与体系化布局。以此为支点,中国移动在智能终端、智能网联汽车、智能机器人等信息消费“新三样”领域的智能化水平必将进一步提升,为后续场景化解决方案的规模复制夯实通用底座。