21世纪经济报道记者董静怡 上海报道

得益于人工智能、物联网、云计算等新兴技术的快速发展,中国数据产业正在迎来爆发式增长,据IDC预测,到2025年,中国数据圈将增长至48.6ZB,占全球数据圈的27.8%,成为全球最大的数据圈。数据库的重要性不言而喻。

近年来,大数据核心软件主要由国外企业把持的市场格局开始松动,中国大数据核心软件迅速成长,基础软件行业的“国产化替代”趋势正在加速。Gartner预测,到2025年,中国分析型数据库市场来自海外厂商的将只剩下30%,交易型数据库市场海外厂商市场也只会剩下50%左右。


(资料图)

“十年前,无论是分析型、交易型还是其他的模态数据库,还是以国外的为主。如今刚好处在集中式往分布式架构转型的窗口期,国产分析型数据库的份额在逐年增长。”近日,星环科技联合创始人、副总裁朱珺辰在接受21世纪经济报道记者专访时表示,目前国产数据库还没有占到存量的50%以上,但从增量来看是可观的。

“这不是一个一蹴而就的过程,除了产品本身技术的完善,更有市场和生态层面的构建。”朱珺辰表示。在他看来,数据库发展正处于集中式向分布式转型的大周期中,云原生、多模态、智能化是其发展的方向。

这也是星环科技的布局。据悉,星环科技围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务,目前该公司产品已经在十几个行业应用落地,拥有超过1400家终端用户。此前,星环科技曾多次入选上海市“专精特新”企业名单,其北京子公司也入选了北京市“专精特新”企业名单。

从初创企业到行业前列,星环科技走过十年。在巨头林立的竞争环境里中,星环科技一直致力于国产化数据库的自主研发,研判技术的发展方向并大量投入、深挖市场需求打出差异化是其制胜之道。

分布式架构“换道超车”

21世纪初期,互联网浪潮的来临,数据规模呈爆炸式增长,单机数据库越来越难以满足用户需求。

“在数据的指数级增长下,老的技术栈已经影响到了业务的正常开展。”朱珺辰向21世纪经济报道记者举例称,一些使用老技术架构的企业会在晚上跑批以支撑第二天的业务开展,但随着数据量的增长,这种做法的速度已满足不了需求,“企业原本需要在早晨开门前把数据处理完成,但后来数据处理可能已经拖到了中午或下午。”

在硬件迭代速度减缓的背景之下,改变技术架构成为业内的关注方向,从集中式到分布式的数据库革命悄然爆发。

集中式存储指的是将所有数据集中存储在单一的中心节点或服务器上,储存量有上限,且性能会受到数据量和访问量的影响;分布式存储则是将数据分散存储在多个节点或服务器上,每个节点独立运行,多个节点的计算和存储能力可以提高系统的整体性能和吞吐量。

彼时,还在英特尔的星环科技创始团队已发现这个趋势,2013年创业成立星环科技,算是国内较早的入局者。在国外数据库厂商垄断市场多年之后,分布式的新趋势也为国内厂商带来了换道超车的可能。

“技术的迭代会给后进者一个机会,因为在变革发生之时,各企业之间的差距并不大。”朱珺辰表示,在这一阶段,拼的是各厂商早期对于架构未来发展趋势的判断,集中资源往某一方向投入,产生技术的突破和领先,“当行业对于某一技术发展形成共识的时候,大家已经不在同一起跑线上了。”

作为初创企业,星环科技在早期发展时仍面临巨大的竞争压力。当时已有Hadoop、Spark为主流的开源软件,很多公司基于此做应用开发,如果不能与其实现差异化,星环科技将举步维艰。

“如果没有差异性,企业之间拼的其实是商务资源,但我们创始团队还是以技术型和工程型的人才为主,因此主攻打造产品的差异和先进性。”朱珺辰表示。

而从市场需求来看,中国用户需要处理的数据量和场景复杂度远超其他国家,开源所提供的能力面对国内市场仍然有很多不能解决的问题,需要更多新的技术和方案。

针对于此,星环科技走了自主研发的道路,在分布式技术、多模型技术、云原生技术等方面逐年积累,推出了一系列国产化分布式数据库产品。“在市场竞争激烈的背景下,面对中国的大数据量以及复杂的数据需求,我们做的是找到客户现存痛点的最大公约数,集中相关的研发资源把产品做出来。”朱珺辰表示。

这并不是一条好走的路。一方面,自主研发工程量非常大,分布式系统的技术壁垒比较高,整体难度并不小。另一方面,前期研发投入比较大,人力、资金等成本带来一定压力,且toB产品市场反馈链路较长,很考验企业对于方向的把握。

早期,星环科技常面临与大厂的竞争,“兵家必争之地”的PK尤为惨烈,“必须要有自己独特性、差异性的功能,以及要找准对应的行业和赛道。”朱珺辰表示。

例如,Spark在初露头角之时,虽然较Hadoop在运行速度上有明显提升,但其性能不稳定的缺点也是行业的顾虑所在。针对这个痛点,星环科技在算法上做了调整和优化,解决了稳定性相关的问题,在Spark技术成为主流之后,星环科技产品的性能表现反而要更好。

据朱珺辰介绍,在很多技术功能上,星环科技较开源已有约两年的领先,“技术的领先会为我们打开一个时间窗口,在这个时间窗口之内要快速把技术的优势转化成市场的优势,在下个阶段需要基于这些再去构建应用的生态,把市场的优势转化为生态的优势。”朱珺辰表示。

大模型带来下一波浪潮

语言大模型主导的生成式AI毫无疑问将是未来几年最重要的生产力工具,不但突破以前AI应用无法突破的极限,而且将重塑各行各业,并深刻改变企业的各个产业环节。

“大模型解决了企业投入产出的顾虑,不需要每一个场景做单独训练。”朱珺辰观察到,各个行业对于大模型的需求比较迫切,且行业大模型正在成为发展的主流。

“一些专业性较强的,或者数据敏感性的企业越来越多希望能部署一些私有化的大模型。”朱珺辰表示。星环科技作为大数据基础软件供应商,及时切入大模型赛道中。

不同于面向C端的通用大模型,行业大模型在落地过程中面临不少阻碍。朱珺辰表示,由于大模型反馈的结果是基于对训练语料的学习而产生的答案,因此行业大模型在具体的落地过程中,需要学习大量行业的专精语料和经验知识,才能确保返回结果的精准性和专业度。

另一方面,在大模型应用的实际业务工作中,往往会因为新发布的政策法规、新发生的行业重大事件,以及最新的生产经营情况变化等,需要做出快速响应。相应地,基于历史语料和经验知识训练的领域大模型要想对瞬息万变的经营环境做出及时的策略调整和反馈,就需要不断通过新增训练语料和实时信息来进行反馈结果的调优。

大模型提出了一种新的人机交互范式,但“一招鲜吃遍天”的大一统解决方案较难实现,围绕大模型在完成对已有业务的增值和创新中,需要使用向量数据库、图数据库、知识图谱、大模型编排和构建工具等,弥补大模型本身的实时性、幻觉缺陷或者长输入难题,组合、串联、增强各业务零散方案,统一到大模型的交互范式中去。

这也是星环科技针对大模型的相关布局,即为行业提供一系列基础软件和工具。

以向量数据库为例,随着大语言模型应用中对长文本处理和领域知识表示使用的深入,业内对向量数据库的需求也日益迫切,“向量数据库是由AI浪潮引发的新需求新方向。”朱珺辰向记者表示,星环科技的向量数据库在几年前因内部AI团队需求就开始开发和使用,并逐步迭代,今年年中进行了对外发布。

据悉,该产品将可信的非结构化数据转换成向量,储存到数据库中,可解决大模型在知识时效性低、输入能力有限、准确度低等问题,让大模型更高效率地存储和读取知识库,降低训练和推理成本,激发更多的AI应用场景。

此外,星环科技在今年也推出了两大领域大模型——金融领域大模型“无涯”(Infinity)和大数据分析大模型“求索”(SoLar)。前者可针对金融行业做分析、推理和决策,专业度提升;后者相当于自然语言转SQL,工作人员使用自然语言就可以通过大模型获取所需的数据分析。

“我们看到了技术的方向,也看到了市场的需求。”谈及星环科技为什么能在每个节点都踩中趋势,朱珺辰如是说,星环科技有相关的专业团队做技术趋势的判断,所有的业务也都与主线一脉相承。

据介绍,星环科技研发及技术支持人员逾70%。

推荐内容