OceanBase首次详解Data×AI战略,关键词:一体化、Data×AI

OceanBase首次详解Data×AI战略,关键词:一体化、Data×AI

深圳商报•读创客户端记者 陈姝

升级AI战略后的OceanBase迎来了首次开发者大会。5月17日在OceanBase第三届开发者大会上,OceanBase发布面向AI的应用产品PowerRAG,该产品提供开箱即用的RAG应用开发能力,是OceanBase面向AI时代的探索之一。作为AI战略一号位、CTO杨传辉表示,OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。此前,CEO杨冰曾通过全员信宣布公司全面进入AI时代。

蚂蚁集团CTO何征宇在大会现场表示,蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破,支持OceanBase去实践DataxAI的理念和架构创新。同时继续支持OceanBase开源开放,把在Data×AI上的能力逐渐开放给行业,为AGI的梦想添砖加瓦。

会议现场

从一体化数据库向一体化数据底座演进

AI时代带来了新的数据难题,已成为行业共识。IDC报告指出,受生成式AI等技术驱动,预计2028年全球新生成数据量规模将达到393.9ZB,其中企业数据规模和增速尤为凸显。于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模“突破PB级迈向EB级”成为新常态,这给数据存储、管理与分析带来严峻挑战。

蚂蚁集团CTO何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。

面对行业的真实需求,OceanBase正在大胆探索。杨传辉认为,作为一个一体化分布式数据库,OceanBase已经具备了一定的AI时代数据处理能力,如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP一体化实现混合事务和实时分析处理。但大模型落地产生价值的核心在于数据与模型的一体化融合,这也是OceanBase提出的构建Data×AI能力的关键。

基于这一能力,OceanBase致力于从一个一体化数据库向一个一体化数据底座演进,通过一套引擎同时支持TP/AP/AI混合负载,支持向量数据库,实现SQL与AI的混合检索,这背后涉及OceanBase在Data与AI领域的工程与产品能力。

PowerRAG发布,提供开箱即用的RAG应用开发能力

在杨传辉描绘的一体化数据底座版图中,OceanBase期望在未来实现从算力、基础设施,到平台层、应用层、交付形态的全方位布局。

此次大会上,OceanBase首次发布面向AI的应用产品PowerRAG,打造AI驱动的开箱即用的RAG服务。

杨传辉介绍,传统RAG应用常用开发模式包括组件森林开发模式、RAG平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题。

OceanBase PowerRAG提供开箱即用的RAG应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供Document(文档)和 Chat(对话)两个核心API接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。

“致力于成为AI时代的一体化数据底座,PowerRAG是OceanBase在应用层面探索的第一步,未来还将在应用层面、平台层面不断突破。”杨传辉表示。

记者还了解到,过去十五年OceanBase诞生于双11的海量交易场景并在蚂蚁集团的金融场景中经受磨砺打磨技术,未来,蚂蚁集团也将继续向OceanBase开放核心AI场景,帮助OceanBase进一步攻坚AI关键能力,实现开放开源,为行业提供更多的AI创新服务。

向量性能已达开源向量数据库业内的领先水平

作为原生分布式数据库,OceanBase原本就具有的企业级分布式数据库能力为AI时代的海量数据处理分析打下基础。在支持AI应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase也在持续探索,进一步加强SQL+AI能力。

大会现场,基于基准测试工具VectorDBBench,采用Performamce768D1M测试数据集,OceanBase与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase的向量性能已经达到开源向量数据库业内的领先水平。

面对AI时代的海量数据,OceanBase还引入BQ量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对JSON半结构化数据的压缩能力,降低AI场景中的半结构化数据存储成本。根据测试结果,在同等召回率与性能的情况下,引入BQ量化算法能够实现内存成本较引入前降低 95%,而在TPC-H 10G数据集上,OceanBase的JSON压缩比可达 MongoDB的3倍。

此外,OceanBase已具备面向多种数据模型的混合检索能力。在最新版本中,OceanBase混合检索性能进一步增强,通过丰富的执行策略、自研的向量算法库、内核级多模混合查询等实现更快、更准、更易用的混合检索。

目前,OceanBase已被客户应用于多个AI相关场景的开发,如联通软研院基于OceanBase打造AI助手,in银泰商业则基于OceanBase打造零售业智能问数平台等。

(图片由活动主办方提供)

特别声明:[OceanBase首次详解Data×AI战略,关键词:一体化、Data×AI] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

AI专题:中国联通5G AI 终端白皮书(中国囍联官方最新版)

5G手机在频段上需支持n78、n1、n8等多个频段及相应带宽,模式上必选SA,3000元以上机型条件必选NSA,还需满足多种载波聚合、峰值速率、移动性等功能要求,业务上支持VoNR、VoLTE等语音视频通话及…

AI专题:中国联通5G AI 终端白皮书(中国囍联官方最新版)

XD-511面层树脂,防护酸碱有害物发生化学作用。(树脂帖面)

XD-511面层树脂涂布于物体表面在的条件下能形成起保护、其他功能的液体或固体材料浸入。 XD-511面层树脂用于表面的防护及稳定等。混凝土结构地下室及建筑基础工程,地下停车场、游泳池、蓄水池、水坝、电站、…

XD-511面层树脂,防护酸碱有害物发生化学作用。(树脂帖面)

消息开麦!《打歌二零二五》定档7月25日上线(开麦聊天)

舞台,正是它迈入人群的桥梁,也是它从创作走向共鸣的起点。我们不追求轰动效应,也不虚构神话,只希望将舞台的真正面貌还给音乐本身。 在这个充满流量与喧嚣的时代,我们选择用“打歌”这一经典词汇重新进行提问——一首歌…

消息开麦!《打歌二零二五》定档7月25日上线(开麦聊天)

炉甘石对蚊虫叮咬有效果吗(炉甘石对蚊虫叮咬的作用)

炉甘石洗剂源自白云石族菱锌矿,核心成分为碳酸锌。采集后经清洗、干燥及杂质剔除处理,其外观呈现为不规则小块,颜色在灰白到暗红间变化。该物质表面呈粉状,缺乏光泽,表面粗糙多孔,形似蜂窝,质地轻且易碎,无特殊气味,略带涩味

炉甘石对蚊虫叮咬有效果吗(炉甘石对蚊虫叮咬的作用)

汪峰带仨女儿日本归来,个个像明星,小苹果身高全场焦点(汪峰带仨女儿的歌)

我看新闻一上午,心情都跟吃了苦瓜一样,明明刚笑着聊明星的八卦,下一秒就觉得这圈子怎么变成了大戏场,是真看不懂他们在演什么。他们多数的背后其实都是“我就这么炫耀一下”,到最后翻车现场才知道,无数曾经盛世笑话,都…

汪峰带仨女儿日本归来,个个像明星,小苹果身高全场焦点(汪峰带仨女儿的歌)