腾讯研究院AI速递 20250818(腾讯研究院官网)

腾讯研究院AI速递 20250818(腾讯研究院官网)

生成式AI

一、 谷歌开源Gemma 3 270M,4个注意力头专为终端而生

1. 谷歌发布轻量级模型Gemma 3 270M,下载仅241MB,拥有2.7亿参数,其中嵌入参数1.7亿个,Transformer模块1亿个;

2. 模型极致节能,在Pixel 9 Pro手机上25次对话仅消耗0.75%电量,INT4量化后可在资源受限设备上高效运行;

3. 在IFEval基准测试上超越Qwen 2.5同级模型,支持高效指令遵循,下载量已突破两亿次,专为特定任务微调设计。

二、 Meta 正式开源了 DINOv3,通用SOTA 级视觉基础模型

1. Meta开源DINOv3视觉基础模型,采用自监督学习,首次全面超越弱监督模型,在多个密集预测任务中表现优于专业解决方案;

2. 模型采用创新的Gram Anchoring策略和旋转位置编码(RoPE),参数规模扩展至70亿,训练数据扩展至17亿张图像;

3. DINOv3商业许可开源,提供多种规模模型系列(含ViT-B、ViT-L等),并专门训练了卫星图像骨干网络,已在环境监测等领域实现实际应用。

三、 腾讯混元3D世界模型推出Lite版,消费级显卡就能跑

1. 腾讯混元推出3D世界模型1.0-Lite版本,大幅降低显存需求至17GB以下,使消费级显卡也能高效运行,显存占用减少35%;

2. 技术突破包括动态FP8量化、SageAttention量化技术和Cache算法加速推理,使模型运行速度提升3倍以上,精度损失小于1%;

3. 用户只需输入一句话或上传一张图片即可生成完整可漫游3D世界,支持360度全景生成和Mesh文件📄导出,可无缝接入游戏和物理引擎。

四、 昆仑万维发音乐模型Mureka V7.5,一周六款模型总结

1. 昆仑万维在8月11日至15日连续发布六款模型,覆盖视频生成、世界模型、统一多模态、智能体和AI音乐创作等热门领域;

2. 最新音乐模型Mureka V7.5大幅提升中文歌曲音色和咬字表现,通过优化ASR技术增强人声真实性和情感深度,超越国外顶尖音乐模型;

3. 同期还发布了基于MoE的角色描述语音合成框架MoE-TTS,让用户可通过自然语言精准控制声音特征与风格,在开源数据条件下超越闭源商业产品。

五、 OpenAI出了一个GPT-5编程提示技巧指南,共六点🕕️

1. 指令要准确避免冲突:GPT-5遵循指令能力更强,但面对含糊或冲突的规则容易卡住或摇摆,应写清要求并消除冲突;避免过分强硬:"务必、必须、一定要"可能适得其反。

2. 选对推理力度和使用类XML语法结构化规则:复杂任务用高推理力度,常规任务用中/低推理力度;用类XML标签把项目约定、技术栈、风格基线分块,帮助模型建立统一上下文;

3. 零到一任务先规划自省再动手:让模型先定义评判标准(但不展示给用户),然后据此迭代产出;可控制Agent工具预算与查找节奏,明确何时详查、何时汇报,避免过度深挖。

前沿科技

六、 首届人形机器人️运动会首日视频集锦,一共有3天赛程

1. 首届人形机器人️运动会在国家速滑馆举行,参赛机器人️进行跑步、足球、拳击、舞蹈、武术等多项竞技,宇树机器人️勇夺1500米长跑金牌🥇;

2. 足球5V5小组赛展示了机器人️球员的实时计算和协作能力,红蓝双方使用同样本体但算法设计不同,蓝队1号球员成为明星️选手完成3次进球;

报告观点

七、 DeepMind研究者:Genie 3构建,及未来世界模型发展

1. Genie 3是DeepMind结合Veo 2和Genie 2打造的世界模型,每秒可生成24帧720p高清画面,一句话即可创建互动世界;

2. 模型具备特殊记忆能力,可记住最长一分钟前的视觉细节,物理规律表现作为训练数据规模和深度增加的自然产物不断提升;

3. Genie 3是通向AGI的重要一步,未来发展将聚焦真实感和交互性,有望为机器人️提供无限量训练场景,解决现实数据有限的瓶颈。

八、 奥特曼:OpenAI的CEO或将是个AI,Chrome我也想买

1. 奥特曼在神秘晚宴上表示OpenAI计划斥资数万亿建设数据中心,正设计全新的融资工具,并暗示"也许三年后CEO会是个AI";

2. 他确认与Jony Ive联手打造的AI设备已在研发中,对GPT-5调整了态度,承认"人类创作内容"价值将大幅上升,表达对脑机接口和颠覆社交媒体的野心;

3. 奥特曼认为当前处于"AI泡沫"时期,类似互联网泡沫时代,但AI确实是长久以来最重要的技术革命,表示目前影响的5%占比可能很快将达到10%-20%。

九、 OpenAI 首席科学家新播客:AI才是改变世界的关键力量

1. OpenAI首席科学家和研究员讨论AGI定义已从抽象概念细化为多维能力集合,指出当前评测基准大多已"饱和",需转向实际应用价值评估;

2. 研究者指出AI领域发展超预期,如模型已在IMO获金牌🥇、ICPC和AtCoder编程竞赛中表现优异,展现出强大推理与创造性思维;

3. 对于教育,专家建议不应完全放弃编程学习,而是将AI视为辅助工具,强调结构化思维和批判性思维的重要性,并表示AI未来将成为改变世界的核心力量。

十、 Sierra AI 创始人:未来一定会出现大量长尾型Agent公司

1. Sierra AI创始人Bret Taylor认为AI市场将分为三大赛道:前沿基础模型、AI工具链和应用型Agent,其中应用型Agent机会最大;

2. Agent可使生产力曲线重新变陡,从"软件提升人效率"转向"软件自己完成工作",将像早期计算机那样带来生产力飞跃;

3. 未来Agent公司会更像现代SaaS,按业务成果定价而非技术细节,市场将出现大量长尾型Agent公司,类似软件市场的演进方式。

👇加入AGI数据库,AI智能问答

混元3D世界模型Lite版,消费级显卡就能跑

特别声明:[腾讯研究院AI速递 20250818(腾讯研究院官网)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

赛博遛狗 人机共舞(赛博人类)

在宇新奇智能机器人️体验馆,观众可以与曾惊艳央视春晚的宇树双足机器人️面对面实时互动,在专业指导下亲自操控其完成行走、转身等高精度仿生动作,直观感受人形机器人️技术的突破性进展;在“四足机器狗‘撒欢’竞技场”,拿…

赛博遛狗 人机共舞(赛博人类)

全铝“身架”,风云X3双车上市出手即“高定”

当奇瑞风云品牌携X3与X3 PLUS两款“时尚户外方盒”闯入市场,其惊人定价一公布便赢得现场一片掌声。当用户手握方向盘,触碰到那由顶尖工厂与四大工艺淬炼而成的铝质车身,便可感知到奇瑞风云志在“百万”的雄心与诚…

全铝“身架”,风云X3双车上市出手即“高定”

董子健孙怡:从不质疑真心,但真心瞬息万变便是他们最好的写照(董子健孙怡为什么不办婚礼)

两人背景不同:董子健的母亲是圈内赫赫有名的经纪人,孙怡则因为早期的模特经历受到质疑,但在外界喧嚣的评论中,他们依然选择了彼此,携手走过了多年风雨。她在那段时期经历了身材的变形和一些小尴尬,但回忆起这段经历时,…

<strong>董子健</strong><strong>孙怡</strong>:从不质疑真心,但真心瞬息万变便是他们最好的写照(<strong>董子健</strong><strong>孙怡</strong>为什么不办婚礼)

财务报表分析的实战技巧与应用(财务报表分析的目的是什么)

财务报表分析的实战技巧与应用:掌握这5招,轻松看懂企业生死线!财务报表分析, 实战技巧, 企业经营, 数据解读, 财务健康你是不是也曾在面对一堆密密麻麻的财务数据时感到无从下手?别担心,这篇文章将带你掌握财务报表分析的核心

财务报表分析的实战技巧与应用(财务报表分析的目的是什么)

偷逃税额全部交齐怎么处罚还要判刑吗?(偷逃税款数额特别巨大如何量刑)

偷逃税额全部交齐后,处罚的情况会根据具体的法律条款和实际情况有所不同。一、根据《中华人民共和国刑法》第二百零一条的规定,如果纳税人采取欺骗、隐瞒手段进行虚假纳税申报或者不申报,逃避缴纳税款数额较大并且占应纳税额10%以上,可能会被处三年以下

偷逃税额全部交齐怎么处罚还要判刑吗?(偷逃税款数额特别巨大如何量刑)