生成式AI
一、 Gemini 2.5 Computer Use发布,让AI直接操作浏览器
1. 谷歌DeepMind发布Gemini 2.5 Computer Use模型,类似OpenAI的CUA,能让AI直接控制用户浏览器执行点击、滚动和输入等操作;
2. 该模型在相关基准测试中性能达到SOTA水平,使用效率高于竞品,特别在多步骤、长时间、跨标签页任务上表现突出;
3. Google为该模型内置多层安全机制,包括逐步安全服务和系统指令约束,开发者已可通过Google AI Studio和Vertex AI的Gemini API获取该能力。
二、 硬刚Sora 2,马斯克xAI发布视频生成模型Imagine v0.9
1. 马斯克旗下xAI推出视频生成模型Imagine v0.9并向所有用户免费开放,相比初代版本在视觉质量、动作和音频生成方面有所提升;
2. 该模型视频生成时间不到20秒,支持语音优先界面,能生成6秒左右视频,用户可通过添加自然对话、动态相机📷️效果等创建电影级效果;
3. 与Sora 2相比,Imagine v0.9在文字理解准确性方面仍有缺陷,不提示深度伪造风险,目前不支持中文,曾参与『英伟达』世界基础模型Cosmos研发的何宜晖也加入此项目。
三、 蚂蚁集团发布并开源万亿参数通用语言大模型 Ling-1T
1. 蚂蚁集团发布并开源万亿参数通用语言大模型Ling-1T,采用自研高效MoE架构,虽总参数达1T,但推理时仅激活约50B参数,兼顾强推理能力与高效计算;
2. 在多项基准测试中表现亮眼,编程与数学推理能力出众,LiveCodeBench得分最高,数学Omni-Math与UGMathBench双双突破74分,支持128K上下文;
3. 模型训练采用三阶段精英教育路径,使用20T+高推理密度数据,并通过原生FP8混合精度训练平台和自研WSM调度器,实现性能大幅提升,同时已支持线上体验。
四、 最新的混元图像3.0,已在元宝App上线!用法示例
1. 腾讯推出混元图像3.0,已登陆元宝App,用户切换至"Hunyuan"模型即可使用,能通过一句话生成风格统一的内容;
2. 新版本具备更丰富的细节和更细腻的画质,支持表情包组图、四格漫画、图文设计、模型三视图和写实摄影等多种创作风格;
3. 生成内容包括各种风格表情包(如像素风、Q版)、情节连贯的四格漫画、创意海报设计、3D模型三视图以及细节逼真的写实摄影,满足用户多样化创作需求。
五、 以色列创企开源3B模型,性能碾压谷歌Gemma 3-4B?
1. 以色列AI21 Labs开源30亿参数轻量推理模型Jamba Reasoning 3B,可在手机端运行,性能对标Gemma 3-4B等竞品;
2. 采用混合SSM-Transformer架构,支持256K上下文窗口最高可处理1M token,效率比竞品提升2-5倍,长文本处理时性能损耗极小;
3. 获Apache 2.0许可支持设备端部署,在M3 MacBook Pro上每秒生成40个token,40%-70%的AI任务可通过此类小模型处理,成本降低10-30倍。
前沿科技
六、 2025年诺贝尔化学奖,金属有机框架(MOF)材料领域
1. 2025年诺贝尔化学奖授予北川进(Susumu Kitagawa)、Richard Robson和Omar M. Yaghi三位科学家,表彰他们"在金属有机框架(MOF)材料发展方面的贡献";
2. 获奖者们构建了一种被称为金属有机框架的分子结构,内部拥有巨大空腔,能让气体和其他化学物质进出流通,已构建出数万种不同类型的MOF材料;
3. 这些材料能从水中分离PFAS物质、分解环境药物残留、捕获二氧化碳、从沙漠空气中采集水分,有望为解决人类面临的多种严峻环境挑战做出贡献。
报告观点
七、 Sam Altman 新采访:垂直整合AGI帝国 ,Sora和能源
2. Sora等产品发布旨在推动社会与技术"协同进化",让人类提前适应AI革命,Altman预测未来2年内AI将在科学发现领域扮演关键角色,促进科学大爆发;
3. OpenAI面临版权©️、能源需求和监管等挑战,Altman认为训练数据应属"合理使用"范畴,预测未来能源格局将由太阳能加储能与核能主导,主张仅对超人水平前沿模型实施严格安全监管。
八、 拆解Figure:从实验室到量产,部署才是"卡脖子"关键
1. 具身智能公司Figure宣布获得10亿美元💵C轮融资,估值390亿美元💵,投资方包括NVIDIA、Salesforce和T-Mobile等,目标是将人形『机器人』️规模化部署到家庭和商业场景;
2. 『机器人』️行业专家指出,真正具备商业落地能力、完整技术栈和大规模部署能力的公司非常少,部署而非制造才是"卡脖子"环节,现阶段距达标的关键KPI仍有距离;
3. 专家预计家庭场景大规模部署至少需7-12年,短期内商业市场更具吸引力,Salesforce和Brookfield等战略投资者的加入可能预示着人形『机器人』️领域将出现"平台级"商业打法。
九、 谷歌大神发布《智能体设计模式》,AI Agent开发的秘籍
1. 谷歌资深工程主管Antonio Gulli发布《智能体设计模式》一书,系统总结AI Agent开发领域的21个关键设计模式,并已开放免费在线阅读;
2. 该书从提示链、路由、并行化等基础开始,逐步深入记忆管理、多智能体协作、安全护栏等高级主题,全书400多页,提供详实代码示例;
3. 作者使用LangChain、LangGraph、Crew AI和Google ADK等主流框架作为实践平台,展示如何在不同"技术画布"上实现这些设计模式,强调实用性和可落地性。
👇加入AGI数据库,AI智能问答