您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
金融科技 正文
发私信给赵之齐
发送

0

对话泽拓科技赵伟:数据库公司深陷的“自研军备竞赛”,用户真的在意吗?

本文作者: 赵之齐   2025-03-11 10:56
导语:当社区版MySQL不再“掉馅饼”,用户何去何从?

对话泽拓科技赵伟:数据库公司深陷的“自研军备竞赛”,用户真的在意吗?

泽拓科技的 CEO 赵伟穿着灰色西装外套坐在办公桌前,说话音量不大,带着微笑和极客特有的真诚与激情。

面对雷峰网关于数据库产品自研与否的提问时,他保持着徐徐的语调,一字一句说:“我们从一开始就大大方方在社区里讲,我们是基于社区版的 MySQL 和 PG 深度研发了大量内核增强、优化扩展和新功能组件,使二者发生‘核聚变反应’, 锤炼成全新的产品。”

他指出,对计算机软件而言,比自己写每一行代码更重要的是能 Hold 住自己产品的完整设计和实现,且要遵循所使用的开源组件的开源协议,因此不会为了自研率有所隐瞒。

泽拓科技的昆仑数据库是借力开源生态做成的。在赵伟看来,这是认清作为创业公司的资源处境时,做出更符合创业公司发展逻辑、对用户更有利的抉择。他形容自己在做的事是“炼丹”——“丹”的主体基于 MySQL 和 PostgreSQL 等开源社区的几个组件作为素材和原料,团队在这基础上增强其原有功能且增加新的功能组件,把这两个原本互不关联的开源单机数据库揉合为具有统一而协调的整体架构和产品功能集——泽拓昆仑数据库。

而建基开源之上的优势是,昆仑数据库能充分融合客户需要的功能:有段时间,社区里都在讲能同时做到 TP(事务处理) 和 AP(分析处理) 的 HTAP 功能,团队便进一步加强数据库的 AP 性能使其具备 HTAP 能力;后来大模型带火了向量数据管理需求,借助 pgvector 这个开源组件,泽拓团队用不到三个月就让昆仑数据库也拥有了向量数据处理能力。“昆仑数据库已有丰富的功能,且有开放可扩展的架构,因此社区关注什么,我们就能快速增加相应的功能”,昆仑数据库就这样成长为数据库的“集大成者”。

但要实现这一点,不可忽视的前提条件是:泽拓科技产品研发团队里有多位来自 Oracle 的 MySQL 原厂内核开发者。他们是赵伟之前在 Oracle 工作时的同事;而赵伟自己,在 Oracle 做过 多年 MySQL 内核研发后,也在腾讯把基于 MySQL 做的 TDSQL 迭代为成熟的分布式数据库产品。深耕 MySQL 和 PostgreSQL 开源生态多年,泽拓团队知道如何最高效高质地基于原有代码做深度研发,满足客户需求。

作为一个借力MySQL和PostgreSQL社区生态的数据库公司,这几年商业化的道路好走吗?依靠社区转化而非传统销售的商业模式,又是否行得通?以下是雷峰网在不修改对话原意的基础上所做的整理。


对话泽拓科技赵伟:数据库公司深陷的“自研军备竞赛”,用户真的在意吗? 泽拓科技 CEO 赵伟


社区关注什么 泽拓团队就能讲什么

雷峰网:之前看到,前几年有段时间泽拓团队强调过昆仑数据库有 HTAP 能力?

赵伟:昆仑数据库有 HTAP 的能力,除此之外还有空间数据管理和向量数据管理能力。由于昆仑数据库的计算节点基于 PostgreSQL 研发,大部分组件无需修改即可使用;少量组件(比如 PostGIS 和 pgvector )需要做内核研发使之适应昆仑数据库的架构。对这些第三方组件做调整的投入都不大,或许只有从零开始研发的工作量的 1%。

之前我们宣传昆仑数据库的 HTAP 能力,是因为有段时间数据库社区里厂商在宣传 HTAP,就像现在大家宣传大模型、RAG 和向量数据管理。昆仑数据库这些数据管理功能都有。社区里关注什么,团队就能讲什么。

HTAP 这个名词是前几年其他厂商提出来的,但 Oracle 很多年前就已经支持 AP 查询了。不过 Oracle 是集中式数据库,到互联网时代,很多中小型公司也有几十 TB 的数据要分析,Oracle 也难以承载大量数据分析需求,所以业界从20多年前开始用 HBASE、 Hive 等去迭代,有了国内外多个 AP 类数据库产品。后来市场就发明出一些需求,也可能是真实的需求,把 TP 和 AP 的功能融合在一个产品里,也就是HTAP。

雷峰网:为什么说是“发明出来”的需求,市场没有 HTAP 的真实需求吗?

赵伟:可能有,但我们实际拜访那么多客户里,很多时候 TP 和 AP 负载还是分开在两个数据库实例中运行。大多数情况下,对于一个 HTAP 数据库,大家往往只侧重使用其 TP 或者 AP 的功能。这样避免两类负载的资源竞争,确保两者性能都更高;而且开源社区有很多免费的数仓产品,客户自己多用些机器就能独立部署 TP 和 AP 数据库。当时我们做 HTAP 也主要是从技术的角度看觉得可能有一些需求,也想通过深度研发一系列技术来大幅改进昆数据库的 AP 性能。现在看,技术和产品层面我们的目标基本实现了,而在用户使用场景方面,更多用户更倾向于把昆仑数据库作为 TP 数据库来直接支撑应用系统,或者从多个其他数据库汇聚数据。

雷峰网:听下来我好奇,你们公司有找到自己产品跟市场的 PMF 吗?

赵伟:我们最本质的 PMF 就是企业级的 MySQL 和企业级的 PostgreSQL。昆仑数据库的计算节点是基于 PostgreSQL 开发的,存储节点是基于 MySQL 开发的,跟其他只支持 MySQL 协议和 SQL 语法的产品相比,对二者的兼容程度要高很多。DBA 的学习曲线也很平滑,他们原先对 MySQL 的运维管理的知识,有很多仍然适用于昆仑数据库。另外 PostgreSQL 近些年在国内外的普及度也在快速上升,昆仑数据库对 PostgreSQL 用户来说,在性能、弹性扩展能力等方面也具有独特价值。

雷峰网:这个 PMF 竞争力大吗?

赵伟:竞争力挺大,因为 Oracle 现在对社区版 MySQL 投入已经大大降低,把研发 MySQL 的资源都投到云上闭源版本了。过去 15 年 Oracle 在社区版 MySQL 做大量投入,基本每个季度发布新版本,就像掉个新的“馅饼”给全球用户。但现在定期发布的开源 MySQL 新版本 已经几乎没有新功能,基本就是在修 bug,对于用户来说以后“天上掉馅饼”的机会就很少了。如果 MySQL 用户有新的功能需求,或者有需要解决的问题,我们就能在昆仑数据库里把这个功能做出来给他们。

同时,PostgreSQL一直没有厂商维护,虽然开源社区的开放性非常优秀,但商业用户不仅需要企业级数据管理能力,也需要可靠的厂商技术支持。

雷峰网:为什么你们团队能做到这点?

赵伟:我们团队十几个人里面,有几个是之前 MySQL 的原厂内核开发者,还有几位 PostgreSQL 内核开发者,我们完全掌握这两个数据库的设计和实现、功能和用法;并且我们这个团队的核心开发者和技术支持人员都有国内外互联网大厂多年工作经验,解决过很多极致负载和极致需求下的技术难题。因为数据库作为基础软件,服务是很重要的,不像手机上下个 APP 就能用。用户需要专业的技术服务。

雷峰网:面对这么多国产数据库,也有观点认为,全自研的数据库可能会比借力开源生态的更有前景,您对此怎么看?

赵伟:从用户视角来看,用户更看重其选择的数据库以及其他基础软件产品能解决其现实问题和需求,有功能需求时供应商能研发出来或者按需更改、遇到 bug 能即时有效地解决,这才是关键。他们反而不会很在意产品自研率是 100% 、80%还是 50%。我们从一开始就大大方方在社区里讲,我们基于社区版的 MySQL 和 PG 深度研发了大量内核增强、优化扩展和新功能组件,使二者发生“核聚变反应”, 锤炼成全新的产品。对计算机软件而言,比自研率更重要的是能 Hold 住自己产品的完整设计和实现,从而按需增强现有功能和扩展开发新功能。而且,要遵循所使用的开源组件的开源协议。因此我们不会为了所谓的自研率做任何隐瞒。

那些 100% 自己写代码的产品,虽然其执着的精神可嘉,但是用户会担忧“产品要多少时间内才能稳定下来”“有多少DBA可以管理这些数据库”“有多少第三方组件适配支持”等问题。MySQL 和 PostgreSQL 开源数据库的成熟度比较高,我们基于此出发,在资金、人力上的投入比每一行代码都自己写的公司少很多,还可以更快完成产品开发迭代。

但有个大家容易忽视的前提是,我们的研发团队本来就对 MySQL 和 PostgreSQL 等组件非常熟悉,能理解其设计思路、知道如何高质量高效地增强和扩展,这是隐含条件。当前昆仑数据库的所有组件的最新代码中,泽拓团队自研的代码总量也占据了总代码量的一多半,并且团队 100% 理解掌握昆仑数据库架构、原理和每一行代码,我们的技术团队其实也具备完整而强大的数据库系统自研能力。

雷峰网:在您看来,泽拓和自研数据库的公司是完全在同一赛道上吗?

赵伟:宽泛点说,大家目标客户群及其所在的行业都一样,就是同个大赛道。但彼此的发展策略不同,比如我们是借力于开源生态,从现有的开源社区发展用户;有的公司是自己重新开辟一个生态系统,前期比较艰苦、投入非常大、见效慢,但一旦做成,整个生态就是他们自己的。


借力开源做数据库是“炼丹”

雷峰网:您是在什么契机下决定创建泽拓科技?

赵伟:2017、18 年左右,云计算普及度很高,国内外也有很多基础软件通过云平台销售——基础软件可以成为独立的产品,这是一种新的商业模式。以前只有 Oracle、微软少数几个美国公司能做到,那几年涌现出 MangoDB、Redis、ES 之类的公司,鼓舞人心,所以我也萌生这个念头。我 2019 年 8 月从腾讯离职出来筹备,公司在 2020 年底成立。

雷峰网:公司刚成立时,设立的产品方向是什么?

赵伟:当时就只是想着做分布式数据库,管理海量的数据,应对极致的负载。虽然产品的功能在持续开发,但有几个基本因素,是我们一直保持的。一是要从开源生态借力,因为创业公司资源有限,做事的效率要比大厂更高而且要更灵活地即时调整。我们把研发昆仑数据库称之为“炼丹”——“丹”的原料一部分是开源社区的组件(即MySQL和PostgreSQL),毕竟我们没有那么多资源从 0 写每行代码。第二是可以从 MySQL 和 PostgreSQL(PG) 的开源数据库社区用户群中发展用户,通过社区发展影响力,让大家知道我们的产品比开源免费版的价值,从而成为我们的商业客户。

雷峰网:为什么给产品起名叫昆仑数据库?

赵伟:我想要一个足够大气又朗朗上口的名字。一开始还想过喜马拉雅,后来想过青海湖,但觉得以湖命名太秀气了。我还列了个表,把全中国两个字的名山大川列了一遍,太行、昆仑、贺兰、峨眉、武当。最后就选了昆仑,万山之祖。

雷峰网:咱们是在 2022 年 8 月左右就已经打磨好产品可以落地商业化吗?

赵伟:当时产品作为数据库来说,基本功能差不多都有了,可以 POC,实际商业化是 2023 上半年开始。我在公司刚成立没多久就雇了第一个销售,但当时产品还没成型,没多久又让人家离开了。现在看那时在商业化方面还是有些急,太想尽早开拓客户。

雷峰网:现在 2025 年初,商业化两年后,目前的进度您满意吗?

赵伟:比当初想象中困难一些。一方面是经济大环境的影响,另一方面数据库作为基础软件,比其他软件推广难度更大。原先设想开源社区用户可以主动转化为我们的用户,后来发现还是得靠传统的商业化方法为主,由销售人员获得客户。

雷峰网:原先的设想难在哪里?是其他基于 MySQL 做数据库的公司带来的压力吗?

赵伟:要说竞争,可能就是公有云大厂,他们也有基于 MySQL 和 PG 做的云数据库,昆仑数据库和他们的产品确实有部分功能重叠。并且,数据库软件就像地基,用户选择产品也很谨慎,建立信任需要较长时间;而且在国内,一个公司用什么软件往往也不是一线技术人员能决定的。作为初创公司,商业化起步比较难,现在有了一批早期客户后,后续会越来越顺畅。

雷峰网:咱们的产品跟大厂有重叠,那差异化的地方是什么?

赵伟:蛮多的,比如昆仑数据库比 OceanBase 和 TDSQL 多了向量数据管理、空间数据管理,比 TDSQL 的 AP 性能更高,等等。虽然这些差异化的部分功能,客户是否需要也因人而异,但我特别想强调一点,昆仑数据库的独特优势是对 MySQL 做深度兼容,因为昆仑数据库的存储节点基于 MySQL 研发而成,不仅仅是其他数据库产品那样仅兼容 MySQL 的协议语法,相当于 MySQL 用户的 DBA 可以直接来运维管理昆仑数据库,上手难度很低。

雷峰网:最开始会选择什么样的客户去打磨产品?

赵伟:比如数据量大的,单个 MySQL 实例装不下,或是 MySQL 复杂查询性能较低,或是需要比 MySQL 更高的一致性、性能,以及更可靠的容灾和故障恢复能力的客户。

雷峰网:会倾向什么行业?因为许多数据库公司可能会选择金融行业作为产品打磨的开始。

赵伟:金融的竞争比较激烈,各大厂也都挤在金融行业里;而且通常成单周期比较长。虽然金融行业有很多 MySQL 用户,但我们现在这个阶段去金融行业可能还有些太早,我们可能要做到第一百个客户再去找金融行业。我们目前还在制造业、教育、医疗、能源、交通等行业开拓。

雷峰网:那在开拓客户的过程中,会面临很多定制化需求吗?

赵伟:会有些,但这些定制都是和数据有关的。用户有需求、产品原先没这功能,这就叫一定程度上的“定制”,但“定制”的功能是有通用性的,可以成为产品矩阵的组成部分。比如我们之前因为客户的需求增加了个功能,就是让他们从社区 MySQL 把数据动态迁移过来后,可以一段时间双库运行,还能随时增量对比校验双库数据相同。这个功能现在已经成为我们产品矩阵里的组件。

雷峰网:国内市场定制化需求会比较常见吗?

赵伟:有的,但不能让用户做“产品经理”,在 ToB 场景,很多用户常常不知道自己真正需要什么,我们要做的就是帮他们解决业务场景的问题,帮客户设计解决方案并规划产品能力然后研发实现。同时,如果是需要浪费很多时间和人力去做的应用层定制化开发,只能给一个客户使用,缺乏通用性、不能产品化,可能就要做取舍了。


DeepSeek给私有化部署数据库产品带来增长点

雷峰网:现在泽拓能实现收支平衡了吗?

赵伟:今年可能会。

雷峰网:前几年国内软件市场价格战也比较明显,泽拓会被影响到吗?

赵伟:公有云上的价格确实比较低,比如小客户 1 核 2G 一年可能就几百块钱。一个创业公司如果还在迭代产品阶段,一年买云数据库可能就花不到一万块。云厂商有体系化的优势,可以把价格打得很低。但我们不和他们比价格,毕竟后续技术服务都有成本,我们通过产品能力和技术服务获得差异化竞争优势。

雷峰网(公众号:雷峰网):咱们在 2023 年完成了 A 轮融资是吗?当时是怎么打动 VC 的?

赵伟:对,我们只做过两轮融资。投资人在 2022 年底找到我们,经过交流和对项目的深度考察,挺认可我们产品和团队。同时有个重要因素是,我们一直把估值控制在很合理的区间,我觉得这样做心里比较踏实。后来证明这是对的,至少投资人不会觉得价格太高。

雷峰网:那么,在您看来,DeepSeek 热潮发展起来后对数据库行业有什么影响?

赵伟:有了更多向量数据管理的需求。我们 2023 年底把向量数据管理能力加到昆仑数据库里去,当时 PGVector 迭代很快,但 PostgreSQL 是集中式数据库,单个向量就好几 KB,一个大模型 RAG 应用假设需要管理一亿个向量,就是 TB 级数据量;而且大模型每个向量的维度很大,导致向量数据的常见计算负载非常大。集中式数据库使用单台服务器的资源,承载不了这么大的存储和计算负载。

雷峰网:那 DeepSeek 热潮对数据库公司来说,增长点可能在哪里?

赵伟:DeepSeek 开启了国内各公司各单位可以放心大规模使用大模型的生态环境,尤其是政府事业单位、国企。大模型有个特点,比如 RAG 的向量数据包含了各个公司内部的特定领域知识,用户未必愿意把这样的数据放到云上,于是出现更多私有化部署的需求,这对数据库产品来说是个机会。因为公有云厂商还是更希望用户上云,可以减少实施成本。

雷峰网:那对于数据库的技术会提出新的要求吗?

赵伟:向量数据的特点是数据量和计算量特别大,所以要能非常有效地管理向量数据,目前还有提升空间。这是新的赛道,前两年大家想的还是怎么把 RAG 应用基于大模型跑起来,处于产品研发和推广阶段,数据量和计算负载都不大,在成本、效率方面也没那么在意,但接下来会开始越来越重视全系统效率、成本、可靠性、性能、业务连续性等方面。

雷峰网:在您看来,像向量数据库这类专用数据库,未来发展趋势如何?

赵伟:专用数据库也分多种,像图数据库和关系型数据库区别非常大,甚至可以说底层算法和理论相互冲突。以前 Oracle 试图做过 Oracle Graph,但似乎没有普及开来,因为用关系表存储图然后基于表连接实现图遍历,这样的效率太低了。另外,Redis 的纯内存数据库,其使用场景和需求以及运行的环境或条件也和关系型数据库完全不一样。所以这些专用数据库都有其特定的场景和用户群,与常见的关系数据库差异较大。向量数据是一种数据类型,可以嵌入关系型数据库里,我们在昆仑数据库中支持向量数据管理只用了不到 3 个月,因为昆仑数据库的基础能力可以支持包括向量数据在内的丰富的数据类型,我们仅需为实现向量数据的存储和计算能力即可。

雷峰网:国产数据库在 2020 年前后经历百花齐放,但 2024 年底,墨天轮中国数据库流行榜收录的数据库产品较前一年减少了大约 60 个。您怎么看待这种情况?

赵伟:我感觉本质上可能没有两三百家数据库公司,真正活跃在社区里、官网上有产品介绍和产品发布的,可能也就五六十个产品。而且这其中,国内几个大厂的产品又占了接近一半。细分到每个产品类别和维度后,比如 TP 型、AP;关系、图、NoSQL、时序、JSON;内存、集中式、分布式等等,每个小分类里头的产品其实并不多。不过这些产品如果仅在国内发展,那么空间仍然会比较受限。我们对于未来的发展抱有谨慎乐观的态度,但认为国内各基础软件厂商要出海做全球的客户。


专题介绍

2020年前后,国产数据库创业大潮汹涌。然而,随着AI大模型的出现,人们视线的聚焦与资本的兴趣也发生转变。五年过去,国内的数据库公司现状如何?他们在做什么新的尝试?又遇到什么新的困难?本专题与一系列数据库创业公司的创始人对话,回顾近年数据库公司在商业和技术领域的探索。纵然面对数据库市场的寒冬,从业者们各有招数,怀揣着对数据库的理想与确信,走出各具特色的商业化之路。我们诚邀对此专题感兴趣的从业者共同参与讨论,或是作为受访对象分享您的真知灼见。欢迎添加微信 Ericazhao23。


雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map