如何拥抱大模型时代?向量数据库公司 Zilliz 从挖掘海量数据规律谈起

近期,极客公园创新大会 2024 在北京闭幕。百度李彦宏、美国国家工程院院士张宏江、Google DeepMind 卢一峰、百川智能王小川、小鹏汽车何小鹏、向量数据库公司 Zilliz 栾小凡、钉钉叶军等 16 位创新者先后登台。

现场,嘉宾们分享了在大模型时代,AI 技术还将向哪些方向发展,产品和应用如何寻求转型,什么样的创业者和产品经理才能在新的 AI 时代成功,以及 AI 将对人类自身带来哪些深远影响。

其中,Zilliz 合伙人兼技术总监栾小凡表示,数据代表秩序,无论是搜索还是生成,本质都是利用大模型挖掘数据背后的规律。

栾小凡现场做了这样的一个比喻:数字宇宙是一片无边无际的数据和信息海洋,它的广阔仿佛无垠的星空。在这个充满混沌的环境里,工程师和科学家们一直在寻找导航、搜索、压缩和生成有意义内容的方法。这项任务的难度,就如同在浩瀚的宇宙中寻找一颗特定的星球。

毫无疑问,Zilliz 的工程师正是在人工智能系统中通过【概率】去创造混沌中的秩序,而概率是信息检索的基石。早期的信息检索系统主要依赖关键词匹配,但这种方法无法处理近义词和多义词,也难以处理不完整的查询,更不用说理解用户查询背后的真正意图了。近年来,随着概率模型和神经网络的引入,信息检索系统的质量和用户体验都得到了显著提升。人工智能增强搜索可以帮助人们在数字宇宙的混沌中找到秩序,从海量非结构化的数据中检索到价值信息。

提及产品转型,栾小凡以 Zilliz 团队为例,讲述了团队重做产品架构的故事。重做架构的原因有 5 点:首先,如何将产品与云基础设施结合?其次,很重要的点就是随着数据量的增大,原有的系统架构已经无法承载用户的数据,分布式系统就显得尤为重要。再者,如何与公共云结合。2021年,K8S 已经非常成熟的一个系统了,所以团队就一直在思考怎么能用 K8S 更好的去跑一个无状态的数据库。此外,对 AIGC 的使用场景中,Serverless 是非常重要的一个点。因为绝大多数的大模型都是 API 的 service,所以对于广大的开发者来讲,他们不希望自己去维护底层的基础设施。*后,情怀。抛开商业因素,Zilliz 希望做一款顶尖的数据库产品,希望可以做成一款分布式的向量数据库,结果也确实做出来了。

*后,栾小凡提到,如果将辽阔的非结构化数据视为浩瀚的星空,那么 Zilliz 就像一艘穿梭在星际的飞船,概率就是指引我们在这片星空中洞悉数据背后价值的罗盘。大模型之大,不仅在于模型参数增加带来的拟合能力变强,更在于训练数据增加使得模型对于数据的概率分布理解变得更加精准。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )