今日,红杉资本举办闭门对话会,首次深度披露OpenAI旗下AI智能体产品ChatGPT Agent的研发历程与技术突破。本次对话由红杉资本合伙人索尼娅·黄(Sonya Huang)与劳伦·里德(Lauren Reeder)主持,OpenAI核心成员伊萨・富尔福德(Isa Fulford)、凯西・楚(Casey Chu)及孙之清(Edward Sun)共同参与,系统阐释了该产品的技术架构、安全机制及未来愿景。
ChatGPT Agent于2025年7月18日正式发布,其核心能力源于Operator(视觉交互)与Deep Research(文本研究)两大技术的融合。
- 工具集成创新:通过虚拟计算机环境整合四大工具——文本浏览器(高效检索信息)、视觉浏览器(点击/输入等GUI操作)、终端(运行代码)、API(连接GitHub等第三方服务),所有工具共享状态,模拟人类多任务处理流程。
- 强化学习驱动策略:团队在数千个虚拟机中训练模型自主发现最优任务策略,而非预设规则。例如,模型可连续执行长达1小时的多步骤任务,如“搜集古DNA研究资料并生成PPT报告”。
- 突破性案例:演示中,ChatGPT Agent耗时28分钟完成“估算OpenAI估值”任务,自动生成含财务模型、电子表格及幻灯片的完整分析报告。
面对自主性提升带来的风险,OpenAI部署了严密的安全体系:
- 实时监控与权限确认:执行敏感操作(如登录账户)前需用户授权,界面支持实时监控任务进度,用户可随时介入修正(例如补充“只要蓝色运动鞋”)。
- 红队测试防滥用:生物风险团队主导数周攻防测试,确保模型不被用于有害用途,并建立类“杀毒软件”的快速响应协议。
- 跨部门协作:安全、法律、工程团队联合设计防护层,形成从数据筛选到行为监控的全链条保障。
目前ChatGPT Agent已覆盖三大类高频需求:
- 自动化办公:分析Google Docs数据生成可视化幻灯片,调用终端处理电子表格。
- 消费决策:视觉浏览器精准筛选商品(如服装款式),文本浏览器比价并生成购买建议。
- 研究支持:综合分散信息(如小众学术领域)输出结构化报告,减少人工检索耗时。
- 孙之清强调:“用户可下达‘尝试网上赚钱’等开放式指令,尽管当前完成度有限,但迭代将快速优化结果”。
团队披露下一步技术路线图:
- 记忆与个性化升级:学习用户习惯后主动执行任务(如自动规划会议),减少人工触发。
- 交互模式革新:开发语音指令、图形界面等非聊天式交互,提升自然协作体验。
- 通用性目标:最终实现“处理人类在计算机上的近乎所有任务”,成为下一代计算平台入口。
- 凯西・楚补充:“强化学习已统一应用于Deep Research、Operator及ChatGPT Agent,未来将探索更复杂的代码调试与动态适应能力”。
据红杉资本分析,ChatGPT Agent标志着OpenAI从对话工具向“任务执行平台”的战略转型。行业预测显示,Agent技术或助力OpenAI在2029年达成1740亿美元销售额。目前,Plus及以上用户每月可使用40次该功能,覆盖自动化需求的核心场景。
结语:此次披露印证了小团队高效协作的OpenAI模式——20-35人的跨职能组在数月内完成技术整合。随着ChatGPT Agent逐步开放,人类与AI的协作范式或将迎来重塑。