10月23日,在数据库公司OceanBase2024年度发布会上,OceanBase CEO杨冰介绍,在专有云领域,OceanBase已实现从头部金融核心系统到中腰部金融机构的规模化复制。目前,其正服务于全部政策性银行、5/6国有大行,资产规模万亿元以上银行客户超20家、千亿元以上银行客户近100家,以及70%的头部保险、75%的头部证券、50%的头部基金公司。
OceanBase CEO杨冰在接受《每日经济新闻》记者采访时表示,数据库业务在商业层面,本质上是一个取得信任的过程。经过四年发展,接下来局面有所不同。过去四年,在与客户合作中,占用时间最长的是前半阶段,即建立连接和信任的阶段,通常需要半年以上,甚至九个月到一年时间。不过,接下来开展业务,相对而言,多半时间将在后半阶段即迁移和生产切换上。
OceanBase CEO杨冰演讲现场 图片来源:每经记者 张寿林 摄
数据库业务本质上是一个逐步取得信任的过程
“首先愿意用、愿意去测。这些都不是问题了,也需要时间去试用。”杨冰向记者解释,由于切换的是OLTP数据库,一旦出现风险事件,不但客户企业业务受损,相关负责人员也面临职业生涯风险。因此,客户非常谨慎地从周边逐步验证,周期较长。整体看,其中大部分时间用在业务前半段。
不过,经历过去近四年发展,杨冰表示,在金融政企业务中,接下来将不会花太长时间在业务前半段。因为通过前期不少企业客户验证,大家已经明确产品可用,接下来开展业务,相对而言,多半时间将在迁移和生产切换上。
杨冰向记者坦言,公共云业务方面,在不少行业仍处于政企业务第一阶段,客户需要验证和认可。不过,零售、智能制造及Fintech等子行业CIO圈层、开发者架构师圈层已大概认可,因此接下来,业务前半段占用时间也将有所缩减。
在杨冰看来,数据库业务规律即如此,本质上是一个逐步取得信任的过程。在业务起初阶段,70%~80%的时间花在建立信任上。
一体化思路下同时处理各类数据,并非一定要将非结构化数据结构化
在数据层,杨冰说,占全球80%以上的非结构化数据,由于AI能力的提升得到极大激发,非结构化数据挖掘分析的需求井喷。
对于非结构化数据挖掘,杨冰向记者表示,向量检索承接了这项功能。图片和音频均属非结构化数据,不具有表结构,但可将其半结构化,转化为计算机中一行行向量矩阵。无论图片、音频还是其他非结构化数据,通过一次映射,将其转换为半结构化向量,便可以向量匹配的方式直接使用。若再进一步结构化,理论上需再做一次结构化。
OceanBase CTO杨传辉进一步告诉记者,OceanBase不仅处理结构化数据,也处理半结构化和无结构化数据,因而很多非结构化数据不需要转化。在一体化思路下,同时处理结构化、非结构化以及半结构化的好处在于,很多业务所涉数据既包括非结构化也包括结构化,通过融合于一体的方式,可将整个业务做得更简洁。但并非说需将非结构化数据结构化,而是有的需要转换有的不用,这取决于业务需求。
杨传辉介绍,早先数据库是独立式,不可一体化处理,因而出现半结构化数据用A数据库处理、非结构化数据用B数据库处理、结构化数据用C数据库处理的情形,这便导致两个问题。
一方面,技术栈挑战性太高,除了头部互联网公司外,多数企业无力应付;另一方面,即便能够应付,效率也低。为什么?假设一个业务中,先访问半结构化数据,后访问无结构化数据,再访问结构化数据。在访问过程中,访问A时做一次过滤,再将过滤结果访问B,接着将过滤结果访问C,整个过程过滤效率非常低。若直接访问一体化数据库,则一次性完成过滤,不必产生大量中间结果。
“我们做‘望小京’,基于百宝箱只用了一周,如果是基于原来的独立技术栈方式,我相信一定是非常复杂的工程。”杨传辉说,通过一体化数据库方案,能够用一条SQL实现对结构化数据、向量数据、地理信息数据等全方位混合搜索,最终帮助客户真正简化技术栈。