AGI 时代到来,为什么向量数据库成关键?

近日,由极客公园主办的 AGI Playground 2023 活动在北京圆满结束,活动汇聚了当下 AGI 领域最具公信力、话语权、前瞻性的行业领袖与公司,起底潮流下的大模型技术底层逻辑和新范式变革的底层思维。向量数据库公司Zilliz、360 集团、阿里云、百度、百川智能等行业头部公司参会,Zilliz 创始人兼 CEO 星爵、百川智能创始人王小川、360 集团创始人周鸿祎等明星创业者分别在不同的主题下进行了分享。

其中,Zilliz 创始人兼 CEO 星爵的演讲让人印象深刻。

星爵的演讲主题为《AGI 时代到来,为什么向量数据库成关键?》,在他看来:

●当下 CVP Stack 已经成为 AGI 时代重要的数据应用开发范式,代表 “V” 的向量数据库扮演着重要角色,Milvus 和 Zilliz Cloud 作为向量数据库中的佼佼者,无论是性能还是成本方面,都能很好地满足开发者的需求。

●向量数据库作为大模型的记忆体,能够为 LLMs 提供向量检索和存储的功能,是大模型开发和训练中不可缺少的重要组成部分。

●AGI 时代的下一个 Killer App 是智能体,向量数据库可以为其提供长期的记忆存储。

向量数据库成为新型开发范式 CVP Stack 的重要一环

向量数据库是一种为了高效存储和索引 AI 模型产生的向量嵌入(embedding)数据而专门设计的数据库。在传统的关系型数据库中,数据通常以表格的形式存储,而在向量数据库中,数据以向量的形式存储。向量(embedding)是一组数值,可以表示一个点在多维空间中的位置。向量数据库非常擅长处理大量的高维 embedding数据,这种数据在机器学习和深度学习应用中很常见。

LLM 时代之下,工具栈变得更加简化,开发者甚至可以实现用周末两天时间做出一个不错 demo 的设想,其背后的终极奥义便是 CVP Stack。其中,C 的意思是以 ChatGPT 为代表的大模型,它在 AI 程序中充当中央处理器的角色;V 代表 Vector Database,即以 Milvus 为代表的向量数据库,充当 embedding storage 的角色;最终会通过 prompt 的方式进行交互。

总结来看,在大模型时代下,无论是谁,只要拥有一个 ChatGPT 账号、会写 prompt、找到一个 embedding 的数据库为模型提供相关领域的知识,甚至为其提供一个缓存层,便可以轻而易举地成为一个很好的工程师。OSSChat(https://osschat.io)就是典型的应用,用于解决开源项目文档冗长、不易查找等问题,目前已经支持几十个主流的开源项目。

|Zilliz 创始人兼 CEO 星爵

向量数据库之于大模型的关键作用

向量数据库可以看作大模型的外置记忆快,能够长期存储大模型的数据,供模型随时调用。向量数据库在LLM领域的应用主要可以分为以下 6 类:管理私有数据和知识库、为大模型提供实时数据更新、实现大模型的个性化和增强、提供智能体的记忆、保存大模型的处理结果、构建更复杂的AI系统。

对于大模型应用开发者来说,向量数据库是一个非常重要的基础设施,可以在最大限度发挥大模型威力的同时保护数据隐私,实现更丰富的功能。LLMs 和向量数据库共同推动 AGI 的发展,二者缺一不可。

向量数据库为下一个 Killer App 提供长期的记忆存储

智能体是大模型的一个新兴应用场景,用于构建具有独立智能的虚拟人物、虚拟代理甚至人形机器人。向量数据库不仅可以帮助智能体记忆其感知的历史数据和上下文,帮其做出智能决策,还能使其根据长期记忆来实现自我演进,被认为是下一代 Killer App。

智能体需要记忆。人类的大脑有一个区域叫做海马体,负责长期记忆,记忆是人类智能很重要的部分,不可能今天把昨天的事情忘记还说自己很聪明。行业里面的正在尝试用向量数据库为智能体存储长期记忆,因为向量数据库的成本是很可控的。未来如果每个人都能够有几十个智能体帮助人类生产生活,像向量数据库这样具有语义检索的存储市场会迎来很大的增长。

向量数据库作为一款数据库产品,“更大更快更便宜”是未来发展的核心趋势。更大是指能处理更大的数据量,这意味着支持百亿条数据甚至更高的可扩展性;更快是指更高的性能,包括毫秒级的响应时间和高达数万的QPS;更便宜是指更少的资源消耗更高的性价比,在相同资源消耗的情况下提供更强大的性能。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )