“AI终于可以“听人话”“干人事”了。
看了火山引擎的发布会,我萌生一个念头:未来不必担心AI会让我失业了,相反,它可能还会让我早点下班。
在FORCE Link AI创新巡展· 厦门站,火山引擎带来了最新的“全家桶”——豆包·图像编辑模型3.0、豆包·同声传译模型2.0,豆包大模型1.6系列全新升级。面向Agent开发和落地,火山引擎开源扣子核心能力,并发布企业自有模型托管方案、Responses API等多个模型服务和工具产品,为企业和开发者构建Agent、落地AI夯实基础设施。
一句话:对个人来说,让AI聪明干活。对企业来说,让Agent零门槛落地。
让我们来看看,火山引擎这次放的这些大招。
豆包·图像编辑模型 SeedEdit 3.0“人怎么说AI怎么画”豆包·图像编辑模型SeedEdit 3.0是本次大会发布的一款重要产品,具备更强的指令遵循能力、图像保持能力和更强的图像生成质量。它基于强大的文生图模型Seedream 3.0,叠加多样化的数据融合方法与特定奖励模型,可支持1K以上高清图像的生成与处理。在对编辑区域进行精细自然调整的同时,能高度还原并保留图像主体、背景及细节信息。
大家在使用AI生图的时候,一个最大的烦恼,就是大模型会乱来。你只想局部微调,它却直接给你推到重来。
豆包·图像编辑模型SeedEdit 3.0,是如何把人的所思所想,精准“投射”到画面中呢?
我们先生成一个张图片。
提示词:优雅女子,黄金时刻,白裙飘逸,海风拂发,侧颜凝望,纯净沙滩,浅景深,电影质感
现在调整这张照片,其他元素不变,只改变站姿的方向。
提示词:改变站姿,让她面对镜头
不得不说,效果还是很让人惊叹的。豆包不仅精准理解了提示词,还完美实现了这个诉求。这位优雅的女士人像效果逼真,在调整的过程中,照片没有出现失真或走样。两张照片放在一起看,恍惚间真有一种真人摆拍的感觉。
更重要的是,整个背景也随着女士的站姿进行了合乎情理的调整。看看这张图,暖色调的夕阳温柔地洒在海天之间,大海的波浪也随着镜头发生了变化,沙滩上一排排脚印,细节全部拉满。这给人一种强烈的感觉,似乎所有的背景元素全部都在为这位女士的优雅转身,努力提供氛围感。
不只是调整画面,连图片中的文字部分,豆包·图像编辑模型SeedEdit 3.0也得做到“无损”平替。
原图是一张《阿凡达》英文版的电影海报。
提示词:将图片里的AVATAR,替换成阿凡达,排版风格不变
调整后的海报,除了文字区域的精准替换,其他部分自动保持不变,画面完好如初!
除了这些能力之外,最绝的还有豆包让图有了推理能力。这是刚包好的饺子,右边是已经煮好的。
提示词:将饺子煮熟,还是原来的排列方式
煮熟的饺子看起来非常筋道,每只饺子体型发生了细小的变化,生成的画面看起来是如此的符合物理规律,而且原图中散乱的面粉时候全消失不见了。也就是说,AI“合理推测”出煮熟的饺子,不会还有面粉的残留。
类似的惊喜点还有很多。
要么说这次火山引擎的产品思路是“以人为本、服务于人”呢,因为它高度还原了打工人的真实场景。一名设计师,要做好一个重要的设计图,至少要被你的本部门领导吊打几次,然后再被相关部门的同事吊打几次,最终再被公司领导吊打几次,受够了足够多的“窝囊气”后,才算是走完整个设计流程。
持续不断地吊打、连续不断地更改,这才是人类设计师真实的工作模式。但在传统的AI生图模式下,用户下达指令后整个画面“一动全动”。这样一来,设计师不仅要受领导的气,还得跟AI置气。
火山引擎将AI生图的流程完全拟人化,支持图片的边聊边改,而且精准识别人的需求,说改哪里就改哪里。像我这种0美术根基的人,也能出大片。
目前,豆包·图像编辑模型SeedEdit 3.0已在火山方舟正式开放,企业可直接调用火山方舟API,个人在即梦或豆包App就能体验。
豆包·同声传译 2.0最强“嘴替”零障碍跨语言交流除了作图,现场还发布了豆包·同声传译2.0。根据火山引擎总裁谭待介绍,豆包·同声传译模型2.0是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界SOTA的同时,实现了极低的语音延迟水平。
豆包·同声传译 2.0有两大优势:
超低语音延迟,沟通无断点:
长期以来,传统的语音传译的技术逻辑是这样的:人说一段话,机器识别这段语音,将语音转译成文字,文字最终合成语音输出。整个过程,有多个转换环节,信息在转换的过程中不断损耗和扭曲。更重要的问题是,还会出现延迟的问题。
豆包同传模型则摒弃了这一模式,采用了业界前沿的端到端全双工语音翻译框架,不仅实现了从源语言到目标语言的直接生成,更能完整保留源语言中丰富的韵律信息,使内容更贴近说话者的真实意图,并将延迟压缩至2-3秒这一惊人水平,基本上实现了真正的“边听边说”翻译。
0样本声音复刻,音色无缝跨越:
无需提前录音,豆包即可“克隆”你的音色说外语,连方言口音也能hold住。哪怕用湖南话读一遍“刘奶奶找牛奶奶买榴莲牛奶”,它也能精准捕捉和复制。
0样本声音复刻的技术得以实现,借助了豆包同传模型强大的说话人身份编码技术,仅需利用演讲者开口说话的前3-5秒音频,就能迅速提取出独特的声纹特征,并结合目标语言的语言习惯,动态调整输出节奏,彻底抹去了“AI”味,令其“讲人话”。
豆包大模型 1.6 系列再升级能“说”会“画”是针对具体应用的升级,基础模型——极速版Doubao-Seed-1.6-flash更是厦门创新巡展的一大亮点。
近期,豆包大模型的更新迭代似乎进入一个加速期。仅仅一个月前,豆包大模型1.6才刚刚发布。
Doubao-Seed-1.6-flash在保持1.6出色的视觉理解能力的同时,升级了代码、推理、数学等大语言模型能力。非常适合智能巡检、手机助手、智能硬件等对模型效果、速度和成本都有要求的大规模商业化场景。该模型具有业界领先的极低延迟,TPOT仅10ms,并依然具备强大的视觉理解能力。
价格上,Doubao-Seed-1.6-flash在输入文本长度0-32k的区间中(企业使用量最大),每百万tokens输入仅需0.15元,输出仅1.5元。在真实的客户案例中,该模型帮助客户延迟下降60%,成本降低70%。
全模态 Embedding模型
同时,Seed1.6-Embedding首次把“文本+图像+视频”混合向量化检索做成一站式方案,权威测评拿下中文文本及多模态任务双料第一,企业知识库瞬间升级成“多模态维基”。
扣子开源助力企业进入Agent“拎包入住”的时代除了更好的基础模型,火山引擎持续优化AI云原生全栈服务,帮助企业实现端到端的Agent开发和落地。
扣子核心能力开源
火山引擎扣子是新一代AI Agent平台,包括「扣子空间」、「扣子开发平台」、「扣子罗盘」和Eino四个子产品。
本次开源的项目Coze Studio和Coze Loop,分别脱胎于扣子开发平台和扣子罗盘,并采用非常友好的Apache 2.0许可证,无任何附加条款。
·扣子开发平台,是一站式的AI Agent可视化开发工具,让AI Agent的创建、调试和部署变得简单;
·扣子罗盘,聚焦于Agent从开发到运维的全链路管理,是开发者的AI Agent“智能运维官”。
简单来说,这两款产品一个侧重Agent开发,一个侧重Agent迭代,这两个项目的开源协议都是Apache 2.0许可证,也就是说用户不仅可以直接使用这些代码,还可以自由修改、定制,以及商业化使用。
根据火山引擎公布的数据,开源仅三天,Coze Studio在GitHub的stars数已经破万,Coze Loop也有3000+stars。
火山引擎的云基础产品,也将为扣子开源版提供高效、稳定、可靠的基础设施支持,开发者可以一键拉起资源,完成部署。
企业自有模型托管方案发布
针对有模型定制需求的企业,火山引擎依托火山方舟模型单元推出自有模型托管方案。企业无需运维底层GPU资源及复杂配置,即可实现自研模型全托管,享受弹性算力,自主选择部署方式与机型,精准控制时延,且无需为业务低谷期付费,目前已开放邀测。
同时,火山方舟升级API体系,推出Responses API。该API具备原生上下文管理能力,支持多轮对话链式管理及文本、图像等多模态数据衔接,结合缓存能力可降低80%成本;还支持单次请求联动多工具与模型组合响应,将智能助手Agent开发从460行代码、1-2天,缩减至60行代码、1小时,大幅提升效率。此外,Responses API支持自主选择调用工具,用户发起单次请求,即可联动多个内置工具、自定义函数及多轮模型组合响应,解决复杂Agent任务,让Agent开发更加省时省力。
火山引擎的开源、托管、运维、云服务等一系列举措,为企业提供了从Agent的落地提供从开发、管理、部署、运营乃至托管的全面服务。最近,姜文的新电影《你行!你上!》引发了关于“醋”和“饺子”的争论。火山引擎做的事,就是“我们不仅给你醋,还把饺子皮擀好、馅调好、水烧开、桌子摆好、碗筷递上。你现场吃、打包回家,都随意。”针对大中小微各类企业的需求,按需分配能力和资源,让所有企业都能吃上AI这顿饺子。
火山引擎,正在重现字节“故”事火山引擎的崛起之快令人咂舌,一如字节跳动的后发先至的故事,妥妥的爽文男主的剧情。
IDC发布的《中国公有云大模型服务市场格局分析,2025年一季度》显示,按照大模型调用量的市场份额来看,火山引擎独占46.4%的市场份额,位列第一。
事实上,火山引擎并不是云计算的最先入局者。阿里云、华为云、腾讯云和百度云,在几年前已经牢牢把控了整个公有云的市场份额。火山引擎作为后来者, 怎么就强势霸榜了呢?
这当然利离不开庞大的字节生态的培育,抖音、头条、西瓜视频超级App当“陪练”,日均16.4 万亿tokens,5亿终端设备跑在豆包大模型上。
但火山引擎也不负众望,挑起了字节跳动AI原生时代的大梁。AI时代的加速到来,近年来,字节跳动在B、C两端同步发力,一方面提升基础大模型的通用能力,打造AI原生应用产品矩阵攻占C端用户市场;另一方面提高Agent的生态构建能力, 将Agent作为推动AI在千行百业落地的主要路径和核心入口。
本次创新巡展,一个“用”字贯穿始终。
AI好不好用,关键在于能不能解决人和企业的痛点。整场大会下来,我们感觉到火山引擎是懂企业和打工人的,放的这些大招招招击在大家的心趴上,助力个人和企业能够以最小成本在AI时代“尽快上车”、“拎包入住”。