0
向量数据库近年水花激荡。
高效检索高维向量数据,对大模型训练和推理至关重要。2023 年大模型狂奔以来,向量检索——RAG(检索增强生成)技术中的一个重要组成部分——也成为数据库技术的核心焦点。
但随着 RAG 的广泛应用,其局限性也逐渐显露:它只能对知识本身做向量化,难以理解独立信息之间的链接,无法结合关系和语境,处理需要更深层次语义关系和上下文细微差别时的复杂查询就显无力。
如何解决这一困境?杭州悦数科技有限公司(下称悦数) CTO 叶小萌带领团队,在 2023 年与 LlamaIndex 联合提出 Graph RAG 设想,并快速分享这个概念的初步验证。
图数据库的优势在于处理关联关系,Graph RAG 通过知识图谱,能更精确全面检索相关信息,使模型能关联上下文给出答复。这个概念起初在国内水花平平,但悦数组建团队持续推动落地,去年 11 月推出悦数 RAG 产品,实现了基于图的检索增强生成,帮助企业应对知识孤岛问题。
微软也于去年 7 月 2 日开源了 Graph RAG 研究项目,让这一概念真正被大众广泛关注。但究其概念提出时间,悦数早于微软。把图库与向量结合的这个团队,起初只有一个人。开发 Graph RAG 的难度几何?致力于打造信创领域图数据库的悦数,又需要多做些什么?叶小萌向雷峰网(公众号:雷峰网)分享这些年的心路历程。
悦数 CTO 叶小萌
Graph RAG的先行者 一个人也是一支队伍
谈及悦数跟行业的差异化策略,叶小萌直言:技术。
大模型的出现在 2023 上半年带火 RAG。叶小萌介绍道,要让通过公域数据训练的大模型了解私域数据,就要先把私域数据保存下来,这是 RAG 技术的起点。而要快速在私域数据里找到关联内容,就需要将图片文字等知识内容向量化进行比较。
但在向量浪潮下,团队看到其缺陷:向量数据库只能对知识本身做向量化,难以呈现知识间的关联,也因此,擅长处理关联关系的图数据库,在此大有可为。
在悦数团队于 2023 年 8 月首次提出 Graph RAG 概念时,人们对这两者的结合还难以想象。但悦数并未退却,11 月组建团队开始打造这款 RAG 产品。一年后推出了悦数 RAG,目前已进入 PMF,预计今年能进行推广。
对于团队规模七八十人的创业公司而言,在原有产品上分出一条新的线并不容易。除了内核的图库外,做上层 RAG 的团队,起初只有古思为一个人。
2023 年,市面上有的 RAG 三种结合方式在古思为看来“都不是很令人兴奋”。学习 RAG 范式时,深耕图库多年的他敏锐捕捉到, RAG 利用无状态大模型做上下文理解和推理时无法绕过知识图谱,因为真实世界中知识组织结构都是网状的。当时 RAG 的明显缺陷能靠图做 index 来补充,“Graph RAG 足够复杂、足够有想象力,值得投入”,悦数于是开始了 RAG 的研究。
古思为向雷峰网回顾说,Graph RAG 就像一个小帐篷,里面能放很多东西,由此带来的挑战就是做抉择。例如,图的形式是选择现有的知识图谱进行事实检测和推理,还是从不同类型知识中二次处理增强变成图状数据,还是仅用图状结构生成总结?没有足够参考的情况下,每个决定都需反复斟酌。最终悦数取舍简化后呈现的初步验证反响不错;而当时定下来的实现方式,现在依然是 Graph RAG 的默认常用方法。
后续概念的落地比想象中复杂。2024 年上半年,悦数开始提供抽象工具给用户,但技术门槛令当时许多客户难以自己搭建 pipeline。如何让用户即便对图库无感知也能有很好使用效果?两三个月里跟四五十个客户聊过后,团队开始迭代一定程度开箱即用的方案,以消除用户使用产品的心智负担。
回顾起初的探索,对新技术狂热的古思为笑说,自己当时已充分利用生成式 AI 参与工作,如在 2023 年 9 月就成了 cursor 的付费用户,这让他的效率翻二十倍,虽然是一个人做研发,但又不完全是“一个人”。如今团队中不同角色逐渐完备,很多工作都是通过 v0.dev 完成,“这在一两年前不敢想象”。
如今,悦数 RAG 已经可以无缝衔接 deepseek,团队也在基于蒸馏技术、图上推理等功能进行 RAG 迭代,“做更多令人兴奋、更有回报的事情”。
古思为和客户讲解产品
悦数走在前沿,不止在 RAG 的探索。2024 年 4 月,国际标准化组织(ISO)发布了国际标准图查询语言 GQL,是 ISO 在四十多年里制定的第二个数据库查询语言国际标准。这个标准制定开始于 2019 年,在其发布第一版、第二版草稿征求意见的过程中,悦数一直跟踪投入研发。GQL 标准发布后的同年 11 月,悦数也推出悦数图数据库 v5.0 ,是全球第一款原生支持 GQL 的分布式图数据库产品。
开源的 NebulaGraph 经过三四年场景打磨和产品验证后,悦数基于 NebulaGraph 开始做企业级的商业化产品。在图数据库的增长势头下,悦数在 2023 年比 2022 年实现两倍多增长,2024 年又比 2023 年增长近三倍,已接近收支平衡。
在图库进入信创名录前 先做到“万事俱备”
悦数走在成为信创品牌的路上,但“悦数不是为了做信创而做信创”,在叶小萌看来,这是个自然发生的过程:信创的重要特征中,首当其冲便是自主可控,而悦数图数据库的每一行代码都是团队亲手写下,悦数本身已有 IP 和代码的自主权,是做信创的良好土壤。
不过,在 2027 年实现 “2+8+N” 的数据库 100% 国产替代目标下,数十种数据库类型中,目前也只有关系型数据库被收录在册,相对小众、发展势头仍较年轻的图数据库还不在信创名录之列。悦数能进入信创名录、得到认证,是叶小萌的目标之一。而在此之前,他们要做的是匹配各种信创操作系统或硬件,先万事俱备,再等东风吹来。
适配国产硬件生态并非易事。国产硬件起步较晚,国内 CPU 在近几年才集中快速增长。一般较常用的芯片基于 x86 架构和 arm 架构,但现有主要六大国产 CPU,龙芯、海光、兆芯、鲲鹏、申威、飞腾,其中有些比较小众的架构如 MIPS,对团队编译适配提出更高的时间和人力要求。但叶小萌也看到,虽然国产与国外硬件在 x86 的差距仍较大,但 arm CPU 的级别已与国际化水平非常接近。
与国产操作系统的适配也存在挑战,尤其当国产 OS 上游的 Linux 版本仍相对较老时。此外,悦数图数据库在去年 6 月通过中国信通院举办的“可信数据库”图数据库性能测试,是国内首个全项完成该测试的图数据库产品,这也体现了悦数做信创匹配国标的决心。
悦数RAG产品界面
以信创为发展目标的悦数,目前客户也一半以上都有信创需求。
叶小萌观察到,现在还愿意出大价格的企业,许多是国央企或至少有国资背景的企业,也因为此,政企领域的客户竞争总是较为激烈,最甚是金融业——金融业 IT 需求发展起步较早,每年预算高,大家都挤破头往里卷。
在价格战硝烟中,悦数尽量避免受到波及:投标时,悦数会避开除产品分数外其他分数(如价格分数、公司资质、评委打分等)占比过高的场景,也尽量避免卷入抢低价客户的漩涡。叶小萌相信,产品价格得体现产品本身给客户带来的价值,卷技术对行业有利,但卷价格“没法体现软件产品的价值,很不可取”。
数据库市场竞争如长跑 一二梯队已渐显
叶小萌毕业后不久,就扎进图数据库领域。
他在 2010 年底进入 Facebook,一年后开始做图数据库产品。2015 年左右,叶小萌回国,业务蒸蒸日上的蚂蚁正准备引入图库做风控。彼时国内图数据库市场刚起步,业界产品难以满足蚂蚁数据量和查询并发量的高需求。就这样,叶小萌成了团队负责人,开始了这款比 Facebook 的图数据库查询模式更复杂的项目——毕竟后者应用场景单一,基本查询需求都只跟社交网络有关。
蚂蚁曾将自研的图数据库囊括在金融解决方案中一起销售。叶小萌与客户沟通接触时,发现很多银行在数据库、中间件上都有现成配置,但在如反洗钱、反欺诈等新场景上,对图库有新需求。当时图数据库囊括在蚂蚁的成套方案中,无法单独拆分给银行使用,但叶小萌已从中嗅到图数据库的商机。
早期风控主要基于规则和简单算法,随着需求深度提升,传统算法难以满足,图数据库优势渐显。叶小萌举例说到,银行放贷业务要判断企业资质征信情况,便需要企业图谱,了解企业间十几二十层的控股关系,这种关联是图数据库的擅长领域;此外,贷后监控如资金流向等,也是图数据库能大展拳脚的地方。
叶小萌在产品发布会上演讲
亲历图数据库市场成长的浪潮,叶小萌也感受到,这些年的市场教育已卓有成效。现在团队接触客户不再需要介绍图数据库的定义功能,能直接从介绍行业经验和使用场景开始。
而作为从业者,他形容数据库市场的竞争有如跑八百米,进程近半,“虽然不排除有人最后冲刺反超,但到四百米左右已经可以分出第一梯队和第二梯队了”。如今,数据库市场开始大浪淘沙,产品差距只会越来越明显,他对此也抱有信心:淘汰完成后,最后能留下的玩家就是技术产品最好的。
技术狂人叶小萌领略过硅谷科技大公司的工程师文化,深受感染,希望能打造技术上最强的公司。也因为此,悦数的氛围十分接近他心之所向的工程师文化——大家专注做技术、以技术为导向,员工自驱力很强。尤其创立初期,公司团队里几乎全都是程序员,大家的共同点是:非常理想化、相信图数据库未来可期。
不过,对叶小萌来说,创业最难的是突破边界。浸润技术领域多年的他,在 2023 年商业化后开始接触客户,面对的对象从电子屏幕转变为人。“电脑比较简单,你发出指令它执行就可以,但跟客户见面聊天时,要观察对方对自己讲的话的反应、猜测他们背后的想法”,叶小萌感慨,自己仍走在突破自我的路上。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。