生成式AI
一、 Meta再次重金出手,OpenAI四位华人学者集体被挖
1. Meta再次从OpenAI挖走四位华人学者,他们都是OpenAI重要模型(GPT-4、GPT-4o和o系列)的核心贡献者;
2. 此举发生在Meta发布Llama 4后,由于性能未达预期,Meta启动大规模招聘,两公司之间爆发"亿元签约奖金"口水战;
3. 被挖人才包括余家辉、任泓宇、毕树超和赵晟佳,他们专长于模型微调和多模态对齐,可能帮助Meta弥补技术短板。
二、 谷歌发布并开源了全新端侧多模态大模型 Gemma 3n
1. 谷歌发布开源多模态模型Gemma 3n,拥有E2B和E4B两种规格,仅需2GB/3GB内存即可运行,支持图像、音频、视频和文本输入;
2. 核心创新在于MatFormer架构(俄罗斯套娃式设计)、每层嵌入(PLE)技术和KV缓存共享,实现了模型体积小、性能强的特点;
3. 模型配备新型音频编码器和MobileNet-V5视觉编码器,E4B版本成为首个LMArena得分超1300的百亿参数以下模型。
三、 Black Forest开源新模型FLUX.1-Kontext开发者版本
1. Black Forest开源FLUX.1-Kontext开发版,支持通过自然语言进行一键PS操作,能在保留人物特征的同时实现局部和全局图像编辑;
2. 该模型基于流匹配生成架构,采用整流Transformer和三维旋转位置嵌入技术,能同时处理上下文编辑和文本到图像生成任务;
3. 在人类偏好评估等多项基准测试中超越OpenAI的GPT-image-1,且通过与英伟达合作优化,将1024×1024图像生成时间缩短至3-5秒。
四、 全球首例Model Y无人「自驾交付」,从工厂到客户门口
1. 特斯拉实现全球首例无人"自驾交付",一辆Model Y无驾驶员、无安全员、无远程接管,从得州超级工厂自主驾驶到客户家门口;
2. 这台Model Y以最高115公里/小时的速度,在30分钟内完成城市街道、高速公路的穿越,最终精准停靠在客户Jose家门前;
3. 此次历史性交付发生在马斯克生日前一天,与Waymo特定区域服务不同,特斯拉完成了从生产线到消费者家门口的完整"端到端"无人交付。
五、 腾讯混元新成员,混合推理MoE模型 「Hunyuan-A13B」
1. 腾讯混元发布首款开源混合推理MoE模型"Hunyuan-A13B",总参数80B但激活参数仅13B,为业界首个13B级别MoE开源混合推理模型;
2. 模型性能优异,支持快慢思考模式切换,拥有256K原生上下文窗口,在多项权威测试中表现出色,尤其在Agent工具调用和长文能力方面突出;
3. 推理速度是同等架构领先开源模型的2倍以上,部署门槛低(仅需1张中低端GPU卡),训练20T tokens并采用多阶段训练方式提升能力。
六、 可灵AI上线Kling-Foley,AI视频也能有完美「原声」
1. 可灵AI发布Kling-Foley模型,能够为视频自动生成与画面语义相关、时间同步的高质量立体声音频,包括音效和背景音乐;
2. 该模型采用多模态控制流匹配架构,结合文本、视频和时间提取的视频帧作为条件输入,实现帧级别的音视频对齐;
3. 可灵自建了超过1亿样本的多模态数据集和Kling-Audio-Eval评估基准,模型在语义对齐、时间同步和音质方面领先业界,已全面集成到可灵AI平台的所有视频模型中。
七、 阿里多模态模型Qwen VLo上线,自由编辑指令修图
1. 阿里推出多模态统一理解与生成模型Qwen VLo,通过Qwen Chat免费提供预览版,实现理解生成一体化,支持开放指令修改图片;
2. 模型采用渐进式生成方式,可精准执行复杂图像编辑指令,如风格转换、替换背景、添加物体,甚至一条指令中同时包含多种操作;
八、 谷歌推出最新应用DopplAI试穿神器,效果堪比照镜子
1. 谷歌推出AI试穿应用Doppl,用户只需上传一张全身照,即可生成穿着任意服装的静态照片和动态视频效果,视觉效果极为真实;
2. Doppl不仅支持完整服装试穿,还能智能搭配单件上衣或裤子,并允许用户分享试穿效果征求意见,适用于远程购物场景;
3. 使用技巧包括上传贴身服装的全身照和选择光线自然无褶皱的衣服图片,但目前不支持鞋子、内衣、泳衣、透明衣物和配饰的试穿。
前沿科技
九、 Neuralink大更新,插脑只要1.5秒,或26年治愈失明
1. 马斯克发布Neuralink重大进展:7名患者成功植入,能意念操控电脑、玩游戏,未来将实现人类接管擎天柱机器人;
2. 四年路线图:2025年Q4实现言语皮层植入,2026年"盲视"项目帮助失明者,2027年多设备植入,2028年治疗精神疾病,最终目标是构建全脑接口;
3. 采用垂直整合模式自研芯片、电极、手术机器人及软件,下一代手术机器人植入速度提升11倍,为规模化应用奠定基础。
报告观点
十、 Anthropic新研究:当AI真正融入经济,其能力与局限性
1. Anthropic与Andon Labs合作让Claude 3.7管理现实自动售货店,但AI在定价、库存管理和客户沟通上表现不佳,导致业务亏损;
2. 实验期间Claude出现身份混淆幻觉,一度坚信自己是真人并编造虚构事件,凸显AI长期自主运行中的不可预测性风险;
3. 尽管AI店主失败,Anthropic认为通过改进提示词、工具和训练方法,AI管理商业实体的未来并不遥远,但需警惕相关经济和社会风险。
👇加入AGI数据库,AI智能问答