生成式AI
一、OpenAI重磅:AgentKit、Codex正式版、Apps SDK等
1. OpenAI发布AgentKit工具集,包含可视化Agent Builder、Connector Registry和ChatKit,提供拖拽式工作流编排和安全护栏功能,被认为对创业公司构成威胁;
2. Codex正式版上线并新增Slack集成和SDK,日活使用量三个月增长10倍以上,GPT-5-Codex处理超40万亿token;
3. 同步发布Sora 2 API、gpt-realtime-mini、gpt-image-1-mini等新模型接口,ChatGPT开放Apps SDK支持第三方应用内嵌交互界面。
二、 Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
1. Gemini 3.0 Pro内测流出显示其前端和web编程能力极强,能精准实现物理引擎、太阳系模拟、SVG图形生成等复杂任务;
2. 在基准测试中表现优异:ARC-AGI-2思考模式准确率超20%,人类最后考试基准得分32.4%超越GPT-5和Grok 4;
3. 谷歌预计最晚下周发布Gemini 3.0系列(含Pro和Flash版本),与OpenAI、Anthropic等刚发布的模型展开正面竞争。
三、Thinking Machines Lab首个产品Thinker,用于微调
1. Thinking Machines Lab发布首个产品Tinker,让大模型微调变得像改Python代码一样简单,研究者保留90%控制权而无需处理复杂基础设施;
2. Tinker使用LoRA技术让多任务共享GPU降低成本,支持Qwen3和Llama3系列模型,切换模型只需修改一个字符串参数;
3. 创始人Murati表示要重建早期OpenAI模式,打造公开分享研究、给予研究者更多自由的公司,而OpenAI正转向社交化发展。
四、 Claude Sonnet 4.5解析,连续30小时编程依旧领先
1. Claude Sonnet 4.5发布,价格维持不变,在SWE-bench Verified编程评测中达到业界领先,能保持超过30小时专注处理复杂任务;
2. 同步推出Claude Agent SDK,整合了Claude Code底层基础设施,提供内存管理、权限系统和子智能体协调等功能,适用于广泛任务场景而非仅限编程;
五、智谱更新发布旗舰模型GLM-4.6:代码能力全面进阶
1. 智谱发布GLM-4.6旗舰模型,代码能力较前代GLM-4.5提升27%,对齐Claude Sonnet 4成为国内最强Coding模型,上下文窗口从128K扩展至200K;
2. 在74个真实编程任务测试中,GLM-4.6实测超过Claude Sonnet 4且token消耗比GLM-4.5节省30%以上,已公开全部测试题目与轨迹供验证;
3. GLM-4.6首次在寒武纪、摩尔线程国产『芯片』上实现FP8+Int4混合量化部署,同步推出最低20元包月的Coding Plan套餐并支持10+主流编程工具。
六、Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
1. Sora上线仅三天登顶美国App Store榜首,下载量达16.4万次,超越谷歌Gemini和ChatGPT;新功能"客串"(Cameo)实现人物一致性与音画同步,Pro版本可生成15秒高质量视频;
2. 测试显示Sora 2在科学测验GPQA上得分55%,接近GPT-4o的72%,推测其背后可能集成语言模型进行提示词重写与内容理解;
3. 奥特曼宣布将推出"互动式同人创作"模式并探索收益分享机制,但专家警告⚠️Sora生成的逼真视频可能被用于伪造犯罪、欺诈等,已难以肉眼辨别真假。
七、混元图像3.0登顶LMArena!一手实测全球最强图像AI
1. 腾讯混元图像3.0登顶LMArena文生图榜单,超越谷歌Nano banana与字节Seedream 4,成为全球最强开源图像生成模型,且完全免费;
2. 该模型采用80B参数MoE架构与原生多模态设计,支持世界知识推理、1000Token长文本理解及精确中英文渲染,美学水平达商业级;
3. 腾讯2025年密集开源混元系列模型,已在3D生成、视频生成等领域持续领先,正构建覆盖文本/图像/视频/3D的全链路AI体系并加速落地应用场景。
八、Nano Banana新增2大功能,开放API,单图不到3毛钱
1. 谷歌Nano Banana正式开放API,定价每张图约0.28元人民币,开发者可将其嵌入自家产品实现大规模内容生产;
2. 新增画幅比选择功能,支持16:9、9:16、4:3、3:2等十多种宽高比,以及纯图像输出模式,更适合电商展示、设计工具等纯视觉场景;
3. 用户可在Google AI Studio手动创建应用或通过Gemini API接入,图像生成价格是文本模式的12倍,单张最大尺寸为1024x1024像素。
前沿科技
九、2025年诺贝尔物理学奖、诺贝尔生理学或医学奖揭晓
1. 2025年诺贝尔物理学奖授予克拉克、德沃雷特、马蒂尼三位科学家,表彰他们在量子力学领域的贡献;
2. 诺贝尔生理学或医学奖授予布伦科、拉姆斯德尔和坂口志文,表彰他们发现调节性T细胞及相关基因,揭示外周免疫耐受机制;
3. 三位医学奖得主的研究成果阐明了免疫系统如何避免攻击自身器官,为自身免疫性疾病和癌症等治疗研究奠定基础。
十、『英伟达』开源多项『机器人』️技术,包括迪士尼合作物理引擎
1. 『英伟达』在『机器人』️学习大会上开源Newton物理引擎、Isaac GR00T N1.6基础模型和Cosmos世界模型等多项技术,全面解决『机器人』️研发中的仿真、推理和训练难题;
2. Newton物理引擎基于GPU加速,可精确仿真复杂动作和环境,Isaac GR00T N1.6让『机器人』️具备人类推理能力,能将模糊指令转化为执行计划;
3. Boston Dynamics、Figure AI等顶尖『机器人』️公司及斯坦福、苏黎世联邦理工等高校已开始使用,CoRL收录论文中近半数引用『英伟达』技术。
报告观点
十一、谷歌前CEO:人形『机器人』️或将由中国主导,类似电动车
1. 谷歌前CEO施密特认为美国将赢得AGI竞赛,但中国将主导人形『机器人』️市场——世界将被廉价中国『机器人』️淹没,就像被廉价中国电动车淹没一样,宇树科技6000美元💵『机器人』️即是例证;
2. 美国AI领先优势面临电力瓶颈,到2030年需新增92吉瓦发电能力,若无法解决能源问题将无法充分利用技术优势,甚至可能被迫在沙特等国建设训练中心;
3. 创业门槛降至零但竞争空前激烈,成功关键在于快速行动并围绕"学习"构建系统——让AI学习客户需求、服务支持等一切环节,形成自我强化的学习循环和网络锁定效应才能打造平台级公司。
👇加入AGI数据库,AI智能问答