生成式AI
一、 谷歌开源Gemma 3 270M,4个注意力头专为终端而生
1. 谷歌发布轻量级模型Gemma 3 270M,下载仅241MB,拥有2.7亿参数,其中嵌入参数1.7亿个,Transformer模块1亿个;
2. 模型极致节能,在Pixel 9 Pro手机上25次对话仅消耗0.75%电量,INT4量化后可在资源受限设备上高效运行;
3. 在IFEval基准测试上超越Qwen 2.5同级模型,支持高效指令遵循,下载量已突破两亿次,专为特定任务微调设计。
二、 Meta 正式开源了 DINOv3,通用SOTA 级视觉基础模型
1. Meta开源DINOv3视觉基础模型,采用自监督学习,首次全面超越弱监督模型,在多个密集预测任务中表现优于专业解决方案;
2. 模型采用创新的Gram Anchoring策略和旋转位置编码(RoPE),参数规模扩展至70亿,训练数据扩展至17亿张图像;
3. DINOv3商业许可开源,提供多种规模模型系列(含ViT-B、ViT-L等),并专门训练了卫星图像骨干网络,已在环境监测等领域实现实际应用。
三、 腾讯混元3D世界模型推出Lite版,消费级显卡就能跑
1. 腾讯混元推出3D世界模型1.0-Lite版本,大幅降低显存需求至17GB以下,使消费级显卡也能高效运行,显存占用减少35%;
2. 技术突破包括动态FP8量化、SageAttention量化技术和Cache算法加速推理,使模型运行速度提升3倍以上,精度损失小于1%;
3. 用户只需输入一句话或上传一张图片即可生成完整可漫游3D世界,支持360度全景生成和Mesh文件📄导出,可无缝接入游戏和物理引擎。
四、 昆仑万维发音乐模型Mureka V7.5,一周六款模型总结
1. 昆仑万维在8月11日至15日连续发布六款模型,覆盖视频生成、世界模型、统一多模态、智能体和AI音乐创作等热门领域;
2. 最新音乐模型Mureka V7.5大幅提升中文歌曲音色和咬字表现,通过优化ASR技术增强人声真实性和情感深度,超越国外顶尖音乐模型;
3. 同期还发布了基于MoE的角色描述语音合成框架MoE-TTS,让用户可通过自然语言精准控制声音特征与风格,在开源数据条件下超越闭源商业产品。
五、 OpenAI出了一个GPT-5编程提示技巧指南,共六点🕕️
1. 指令要准确避免冲突:GPT-5遵循指令能力更强,但面对含糊或冲突的规则容易卡住或摇摆,应写清要求并消除冲突;避免过分强硬:"务必、必须、一定要"可能适得其反。
2. 选对推理力度和使用类XML语法结构化规则:复杂任务用高推理力度,常规任务用中/低推理力度;用类XML标签把项目约定、技术栈、风格基线分块,帮助模型建立统一上下文;
3. 零到一任务先规划自省再动手:让模型先定义评判标准(但不展示给用户),然后据此迭代产出;可控制Agent工具预算与查找节奏,明确何时详查、何时汇报,避免过度深挖。
前沿科技
六、 首届人形机器人️运动会首日视频集锦,一共有3天赛程
1. 首届人形机器人️运动会在国家速滑馆举行,参赛机器人️进行跑步、足球、拳击、舞蹈、武术等多项竞技,宇树机器人️勇夺1500米长跑金牌🥇;
2. 足球5V5小组赛展示了机器人️球员的实时计算和协作能力,红蓝双方使用同样本体但算法设计不同,蓝队1号球员成为明星️选手完成3次进球;
报告观点
七、 DeepMind研究者:Genie 3构建,及未来世界模型发展
1. Genie 3是DeepMind结合Veo 2和Genie 2打造的世界模型,每秒可生成24帧720p高清画面,一句话即可创建互动世界;
2. 模型具备特殊记忆能力,可记住最长一分钟前的视觉细节,物理规律表现作为训练数据规模和深度增加的自然产物不断提升;
3. Genie 3是通向AGI的重要一步,未来发展将聚焦真实感和交互性,有望为机器人️提供无限量训练场景,解决现实数据有限的瓶颈。
八、 奥特曼:OpenAI的CEO或将是个AI,Chrome我也想买
1. 奥特曼在神秘晚宴上表示OpenAI计划斥资数万亿建设数据中心,正设计全新的融资工具,并暗示"也许三年后CEO会是个AI";
2. 他确认与Jony Ive联手打造的AI设备已在研发中,对GPT-5调整了态度,承认"人类创作内容"价值将大幅上升,表达对脑机接口和颠覆社交媒体的野心;
3. 奥特曼认为当前处于"AI泡沫"时期,类似互联网泡沫时代,但AI确实是长久以来最重要的技术革命,表示目前影响的5%占比可能很快将达到10%-20%。
九、 OpenAI 首席科学家新播客:AI才是改变世界的关键力量
1. OpenAI首席科学家和研究员讨论AGI定义已从抽象概念细化为多维能力集合,指出当前评测基准大多已"饱和",需转向实际应用价值评估;
2. 研究者指出AI领域发展超预期,如模型已在IMO获金牌🥇、ICPC和AtCoder编程竞赛中表现优异,展现出强大推理与创造性思维;
3. 对于教育,专家建议不应完全放弃编程学习,而是将AI视为辅助工具,强调结构化思维和批判性思维的重要性,并表示AI未来将成为改变世界的核心力量。
十、 Sierra AI 创始人:未来一定会出现大量长尾型Agent公司
1. Sierra AI创始人Bret Taylor认为AI市场将分为三大赛道:前沿基础模型、AI工具链和应用型Agent,其中应用型Agent机会最大;
2. Agent可使生产力曲线重新变陡,从"软件提升人效率"转向"软件自己完成工作",将像早期计算机那样带来生产力飞跃;
3. 未来Agent公司会更像现代SaaS,按业务成果定价而非技术细节,市场将出现大量长尾型Agent公司,类似软件市场的演进方式。
👇加入AGI数据库,AI智能问答
混元3D世界模型Lite版,消费级显卡就能跑