一个技术人“误入歧途”,做了个向量数据库新物种

向量数据库公司 Zilliz 近日宣布完成一笔 6000 万美元的 B+ 轮融资,累计融资 1.13 亿美元。这在长于本土的开源创企中,无疑是非常耀眼的一笔。

而时间回到 6 年前,当 Zilliz 的创始人星爵带着 Oracle 出身的背景寻找投资人,说出自己想要造一个新物种时,却不似当下这番光景,更多时候面对的是投资人的不解:

“怎么误入歧途呢?”

“你带着 Oracle 的背景,随随便便做个数据库公司,我肯定给你投钱啊。”

这些声音会让星爵开始审视要做的事情本质上对不对?自己和投资人的沟通方式需要如何改进?但有一点非常明确——敢为天下先,要做就要做这个世界上还不存在的东西,即便在短期内不被理解。

所幸,在 2017 年,星爵和他的团队成功拿到了一笔天使轮融资,开始了对“新物种”的研究。回顾公司发展,星爵将 2017 年的天使轮融资作为第一个里程碑;2019 年将第一款真正意义上的产品 Milvus 开源视作第二个;第三个里程碑则发生在 2020 年下半年至 2021 年上半年,Zilliz 确立了接下来的“五年规划”,即,把全球化作为核心发展目标。

在过去的 6 年创业时间里,星爵关注的重点一直只有技术创新,从用户需求中摸索新的方向,然后实现它,并做到极致。商业化、资本市场的认可等要素尚未进入星爵的重点关注地带,但也因为对技术的追求,让 Zilliz 正成为下一个基础软件市场新星。

“不做”产品做技术

“在我们刚成立的那段时间里,我们觉得自己做的事产品,但现在回头去看,我们当时做的是技术。”

Zilliz 的成立,来自于星爵对新技术的兴趣和自身事业转型的规划。

读华中科技大学研究生时,身在中国武汉的星爵跟随老师参与“网格计算”技术相关的研究,这一技术后来被认为是云计算的前身。机缘巧合之下,星爵所在的小组和由芝加哥大学教授主导的网格计算项目 Globus 取得联系,星爵也加入到 Globus 项目中去,学习和研究代码,并且和 Globus 合作,最终建立起中国教育科研网格——中国最大的网格计算项目之一。

这是星爵第一次通过开源协作的模式,深度参与到开源软件的建设,“如果不是开源,我很难想象到,一端是在中国武汉,另一端在美国芝加哥大学,相隔这么远的实验室科研人愿能够连接起来,这对我来说非常陌生,同时也是打开了去学习全球最新技术的大门。”

硕士毕业后,星爵到了美国数据库专业数一数二的威斯康星大学麦迪逊分校就读,2009 年博士毕业进入硅谷 Oracle 工作,参与当时 Oracle 的云数据库研发。2013 年,Oracle 12c 版本发布,主题是为云计算重新设计的数据库,星爵正是核心开发人员之一。到了 2015 年,12c 已经趋向于稳定,星爵萌生了回国创业的想法。

一方面,此时的星爵在技术上有过数据处理和分布式项目经历,也见识到了一个大型数据库软件该怎么去做,希望能在不同维度拓宽自身能力。加之受到硅谷创业文化的影响,星爵想要通过技术创业,完成从工程师到技术创业者的升华。

另一方面,在星爵看来,当时的数据分析走到了一个交叉路口,AI 模型、算法的研究如火如荼。基于 AI 研究,对各种非结构化数据,包括图片、视频、自然语言等的研究也到了一个新的高度,并且取得了一些很好的结果。计算机视觉领域的图片分类水平也首次超过了人类平均水平。在这种 AI 研究与非结构化数据研究的发展之中,星爵的心中隐隐浮现一个念头:在数据处理的基础软件领域,将会有新的技术出现,新的机会正在诞生。

带着对新技术的热情,星爵开始了创业之旅,“我们选择了的 AI 应用中的数据处理赛道,过去 5- 10 年间,中国的 AI 应用,以及非结构化数据处理是走在全球前列的,无论是数据的总量还是使用场景都领先于世界。”秉持着靠近需求源泉的原则,Zilliz 的故事从中国启程。2017 年,Zilliz 拿到天使轮融资,正式出发。

成立之后,Ziliiz 最初的定位是将数据库搬到 GPU 上,基于 GPU 硬件加速做新一代 OLAP 数据库系统,进而希望将性能提高 100 倍。星爵认为,AI 时代出现了一些 GPU、异构计算等新技术,那么便可以尝试将分布式计算和异构计算、数据处理等结合起来。Zilliz 先是做了一个通过 GPU 高效并行算法加速各种数据处理的引擎,将这一想法落地。

“我们没有想清楚把这个引擎用到什么地方去,只觉得这个东西性能很好,很创新,很酷!所以要先把它做出来。”

接下来,便是拿着不断地和用户交流,接收反馈。最终,Zilliz 发现这套技术可以很好地用在帮用户去加速 AI 应用中向量数据的分析和处理,并且此类用户需求是广泛存在和飞速增长的。在这样边做技术边摸索的过程中,Zilliz 逐渐将向量数据库作为核心产品方向,并坚持到了今天。

  开源 + 从用户需求出发

埋头“很酷”的技术 2 年后,Zilliz 在 2019 年迎来了“技术产品化”的关键转折点。

在做数据分析处理引擎期间,Zilliz 陆续接到了用户反馈,看到了向量数据分析与处理的强劲需求。以此需求为依托,2018 年下半年开始,Zilliz 启动了新项目的调研、开发工作,并在 2019 年将成果一口气开源,这个成果便是向量数据库——Milvus。

“对我们来说,是带着自身积累的,对大规模数据的处理能力、分布式计算能力、异构计算等能力,跨越了从技术到产品的鸿沟,找到了明确的产品方向,即向量数据库。”但对于 Milvus 之后的发展,当时的星爵心里也没底:“我们看到了用户需求,看到了市场机会,但我们不知道自己提供的产品是不是真的能够完美满足市场需求。”

出于这个“痛点”,在加上团队开放的工程师文化,Milvus 从发布之日起开源,采用 Apache 许可证。“开源开放是我们公司长期以来的基本原则,这是一群工程师很质朴的想法,我们希望好的技术可以更快传播出去,帮行业的人取得更好地成功,也通过开源把技术开放出去,获得更广泛地支持。”

对于这款开源产品成功与否的考量,标准只有一条:“它能不能取得一个很好的早期用户增长。”这个结果直观反映出产品是否真正解决了用户的痛点,是否真的为其他开发者创造了价值。最终,在开源的半年内,拥有了约 60 家企业级用户。“我记得从有了第一个用户之后,基本上每周都会有捷报,最初是每周一个用户,然后第二周增加了三四个,第三周又增加了七八个。”

事实上,Milvus 瞄准的价值市场,在过去基本是一篇空白。

在星爵看来,数据库行业在过去 20 年经历了一场巨大的“分化”,关系型数据库、分布式数据库、图数据库、文档数据库、时间序列数据库……未来,在 AI 时代,会有更多数据库类型出现,“比如我们现在提到量子计算,那很有可能接下来会出现一个面向量子计算的数据库。”整体上,这个行业在不断的分工与分化,类似汽车行业,在过去 100 年间,发展出几十上百个细分品类,在数据库领域也是同样,并且有两点是不变的:

第一,人类的需求是不断增加的,第二,人类社会的数字信息化程度在不断提高,那么人们对数据分析和处理的需求必然也是在上升的,因此便会催生出更多数据的应用场景,而在每个新兴的应用场景之下,都会出现一些更加具体、分工更加明确的数据库产品。

那么,再看回 Milvus,它并不需要和其他种类的数据库做比较,而是专注于为 AI 应用处理非结构化数据,比如为金融应用做欺诈分析、做物联网领域的移动 APP 等等,满足新兴的非结构化数据处理需求即可。

不仅仅是 Milvus,对于所有项目,Zilliz 的判断标准只有“需求”。

2021 年 9 月,Zilliz 发布 Millvus 的上游软件 Towhee。

“我们推出新项目只考虑一个问题,那就是解决用户需求。”Zilliz 会从用户需求中提炼出该做一个怎样的产品给到用户。具体到 Towhee,本质是用户在使用Millvus 的过程中,虽然能很好地解决数据分析问题,但是对于一些中小型公司来说,从各种不同的非结构化数据中提取向量数据本身需要投入很多资源。因此,为了解决这部分用户需求,Zilliz 推出开源的 embedding 框架,包含丰富的数据处理算法与神经网络模型,可以帮助用户完成原始数据到向量的转换。

在评估需求方面,Zilliz 的方法非常“朴实”,通常是在用户群中主动收集或接收需求,然后将用户反馈做汇总、归类、排序,筛选出高频需求,归纳趋同的需求。然后将数据结果放到研发社区做进一步讨论,最终根据讨论结果规划产品的设计与迭代排期。

只在云上挣钱

对于做技术该怎么挣钱的问题,星爵和他的团队很早就有一个标准:在公有云上通过服务赚钱。

落实到具体在什么时候实现商业价值的转换,就变得非常“随缘”。

2019 年 Milvus 产品开源之后,很长一段时间内,这只队伍都沉浸在“如何打造一个全球技术领先的产品”的目标之中。回看当时的想法,星爵是抱着“如果这个技术和产品能够解决用户的痛点,同时技术上又是全球领先的,那么一定能为公司创造价值,所以前些年我们并没有太去考虑商业模式,而是专注的把产品做好。”

对于 Milvus 团队来说,2020 年底,产品开始迈入成熟阶段,Milvus 已经拥有 500 多家企业级用户,产品趋于稳定。一方面,他们发现了新的用户核心需求:用户希望能在云上使用,在云上提供一个更加便捷的云服务。对用户来说,云服务可以省去安装部署的步骤,直接通过 API 调用,那么开发和维护成本也会降低。结合这两方面的因素,Zilliz 启动了公有云产品的研发。

日前,Zilliz Cloud 的测试版本正式上线。Zilliz Cloud 定位于依托公有云的全托管数据库即服务,旨在为向量数据处理、⾮结构化数据分析和企业 AI 应⽤开发提供⼀站式解决案。

Zilliz Cloud本质是 Database as a service,是将 Zilliz 向量数据库的能力以云上全托管的方式提供给用户,免去用户部署和运维的工作。同时,也帮用户解决云上数据安全的问题,包括数据合规、高可用、容灾等等,为各类在开发 AI 应用的企业,在其开发过程中,极大地简化非结构化数据管理的过程。

在云产品之前,Milvus 开源社区的用户想向 Zilliz 购买服务的,都会遭到拒绝,“很为很早之前我们就决定,云才是我们商业产品的形态,除此之外,不会收用户的钱。”

事实上,许多开源的基础软件都和 Milvus 一样,在走一条开源+长时间免费的道路。在星爵看来,基础软件的第一个特质就是技术门槛高,那么在研发阶段,就是一个慢工出细活的活动,需要长期投入,不断总结用户需求,将其做成通用产品。另一大特质则是一旦做出了个全球领先的技术和产品,就会出现“赢者通吃”的格局。而这也是 Zilliz 长期坚持以技术主导,开源开放的重要原因之一。

谈谈当下

当下,Zilliz 正沿着一年多前定下的策略,走全球化的路子。具体到刚刚起步的云服务业务,北美市场将是接下来一两年关注的重点。

“如果我们看全球市场的估量,在基础软件领域,美国市场占全球市场的 30%-40% 左右,是全球第一大单一市场。”因此,将全球划作为目标的 Zilliz 将国际化的主战场放到了北美。目前 Zilliz Cloud 已在 7 月支持 AWS,接下来将会进一步扩展能力,形成多云方案,包括支持谷歌 GCP,微软的 Agile,实现北美三大公有云的跨云方案。

对于 Zilliz 来说,其与大型公有云厂商之间是竞合关系,一方面 Zilliz Cloud 依托于公有云平台,另一方面,在星爵看来,同台竞技也更能催生技术创新,“我们的信心是源于我们是一个创业公司,可以更快速地迭代产品,实现技术创新,所以在和公有云厂商同态竞技的时候,我们会坚持开源开放,唯有产品和技术能保持核心竞争力,才能最终与大象共舞。”

谈及 Zilliz Cloud 未来的发展,星爵并没有做过多预测:“我不做预测,我们公司也很少做预测,预测容易打脸”。而商业化和营收,也依旧不是当下星爵关注的重点。面对在资本市场取得的成绩,星爵将其归因为团队以技术为导向,敢为天下先地去创造了新技术,并将其做到极致,“大家都知道稀缺性很重要,但往往在亲身实践的过程中,会发信追求稀缺性是一件很奢侈的事情,稀缺性是孤独的,相当不确定的,高风险的。”

同时,在星爵看来,将产品和技术做到极致之后再谈商业化,也会更加容易实现,“我们要先打造一个优异的产品,这个产品如果不做到全球领先,我们认为就不应该推向市场,更不应该拿去卖。”

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )