近日,OSC 源创会上海站正式闭幕。据悉,OSC 源创会由开源中国社区主办,是聚焦开源、创新的技术沙龙,聚集了最优质的技术资源与行业案例,对话最优秀的技术领军人物,为广大开发者带来最新开源技术、前沿技术视角以及落地实践经验。
本次源创会以 LLM 基础设施为主题,话题聚焦大模型平台建设与基础设施研发,邀请了来自 Zilliz、百度、VMware 等多位业界专家参与。现场,专家们从向量数据库探讨到自动化编程新范式,从深度学习聊到大模型底座,用多个角度分享了自己在大模型相关技术与应用的见解。
Zilliz AI 云平台负责人陈将受邀参加并进行《向量数据库 - AI 时代的信息检索引擎》的主题分享。陈将主要介绍了从传统的信息检索系统到 AI 时代信息检索系统的演化,分享了向量数据库等基础设施在其中的应用和案例。
|Zilliz AI 云平台负责人陈将
陈将表示,今年随着大模型的火爆,向量数据库也开始出圈了。很多人对向量数据库的认知都是从 AI 大模型开始的,因为大模型虽然很强大但往往缺乏领域知识,所以业界流行用向量数据库打造大模型的记忆体。除此之外,向量数据库在信息检索领域还有非常多的应用。
事实上,向量数据库是一种划时代的信息检索引擎。人工智能和深度学习的创新使我们能够创建一种机器学习模型,即 embedding 模型。Embedding 模型将所有类型的数据表征为向量,以捕获其特征和含义。相比之下,传统的全文检索使用的是基于关键词的方式。向量编码能够更准确地捕捉数据的语义信息,提供更准确的搜索结果。例如通过智能手机拍照后搜索相似的图像,而传统的全文检索往往只能通过关键词匹配来进行搜索。向量数据库使用高效的算法和索引结构,如 k 最近邻(k-NN)索引、分层可导航小世界(HNSW)和倒排文件索引(IVF),以实现在高维空间中的快速检索。然而,传统的数据库并不擅长于向量搜索,性能不可同日而语。
此外,陈将提到,向量数据库在 AI 时代的信息检索中具有重要的地位和优势。它通过将数据编码为向量,并利用高效的搜索算法和索引结构,提供更精确、快速和准确的搜索结果,在网页搜索、推荐系统、视频图像搜索,检索增强生成等领域助力应用开发者以更强大更优秀的产品体验。
陈将所在的 Zilliz 不仅是向量数据库赛道的领先者,也在大模型时代为 AI 应用开发者提供了非结构化数据检索产品 Zilliz Cloud Pipelines。Zilliz Cloud Pipelines(https://zilliz.com/zilliz-cloud-pipelines) 可以将文档、文本片段和图像等非结构化数据转换成可搜索的向量并存储在 Collection 中,帮助开发者简化工程开发,助力其实现多种场景的 RAG 应用,将复杂生产系统的搭建和维护简化成 API 调用,真正做到降低检索系统搭建门槛,轻松实现 RAG 应用。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )