现象级向量数据库的崛起,可能隐藏着AI背后的惊天秘密!

时间:2024-03-07

过去的2023年,向量数据库可谓异军突起,不仅为大模型配备了一个超级大脑,还引得诸多云计算巨头争相追捧。国内外大型云服务商的技术大会上,向量数据库绝对是一个必被提及的话题。而如果你在2022年看过某些向量数据库那简陋的代码,就一定会想去了解短短一年内,在向量数据库领域到底发生了什么?向量数据库不断出现分叉和分层,在未来又将对数据库和云计算产业产生什么样的影响?

异军突起的原因

向量数据库赛道早在2022年就迎来了自己的爆发之年。在这一年,Milvus社区正式发布云原生向量数据库Milvus 2.0,Gihub上也出现了超过10家开源的向量数据库产品。数据库厂商Elastic和Redis也正式加入了战局,推出了向量检索功能。在云上,Milvus社区的发起团队Zilliz正式发布了全托管DBaas服务Zilliz Cloud,竞品包括了pinecone和Google Vertex AI这样的Saas公司和云厂商。

但在当时,只有技术大咖和投资机构认识到了向量数据库的潜力。在新产品不断喷涌的同时,各大向量数据库公司纷纷完成了千万美元级别的新一轮的融资。必须要说的是,2022年是向量数据库这一新兴技术由发展走向成熟的一年。还隐居幕后的它在等一个新机会,以便在更大的层面实现发展。

说了半天,依旧云里雾里,但大家其实早就应用过向量数据库了。它主要针对的是非结构化多模态数据的检索。例如以图搜图(拍立淘),以音搜音(Shazam),用视频搜视频这类需求。只不过,在2022年,这些一直是小众需求,所以一直不温不火。

一切转变发生在2023年3月23日,OpenAI在其发布的chatgpt-retrieval-plugin项目中推荐使用一个向量数据库,在写ChatGPT插件时为其添加“长期记忆”能力。然后我们可以看到,无论是Google Trends热搜,还是Github Star上,所有向量数据库项目的关注度都从那个时间节点开始起飞了。

为大模型配备超级大脑

横空出世的GPT-3.5/4带给我们的只有无限震撼,但走入其背后,其天然的缺陷和诸多的限制却让开发者头痛不已,例如其输入端上下文(tokens)大小的限制,就困扰着很多的开发者和消费者,像gpt-3.5-turbo模型的限制是4K tokens(~3000字),这意味着使用者最多只能输入3000字给GPT来理解和推理答案。

事实上,GPT作为LLM模型是没有记忆功能的,所谓的记忆功能只是开发者将对话记录存储在内存或者数据库中,当用户发送消息给GPT模型时,程序会自动将最近的几次对话记录(基于对话的字数限制在4096tokens内)通过prompt组合成最终的问题,并发送给ChatGPT。简而言之,如果用户的对话记忆超过了4096tokens,那么它就会忘记之前的对话,这成了目前GPT在需求比较复杂的任务中无法克服的缺陷。

在GPT模型的限制下,开发者们不得不寻找其他的解决方案,而向量数据库就是其中之一。向量数据库的核心思想是将文本转换成向量,然后将向量存储在数据库中,当用户输入问题时,将问题转换成向量,然后在数据库中搜索最相似的向量和上下文,最后将文本返回给用户。

再比如我们和ChatGPT间有一份很长的对话,我们可以将所有对话以向量的方式保存起来,当我们提问给ChatGPT时,我们可以将问题转化为向量对过去所有的聊天记录进行语义搜索,找到与当前问题最相关的“记忆”,一起发送给ChatGPT,极大地提高GPT的输出质量。

总结起来就是一句话,向量数据库为大模型配备了一个超级大脑。有了这个超级大脑,大语言模型变得更加强大了。通过这些功能,我们同样不难理解微软为向量数据库所下的定义:“一种将数据存储为高维向量的数据库类型,这些向量是特征或属性的数学表示。”在向量数据库里,数据被以一种称为“嵌入”的技术存储为向量。

现象级发展里的秘密

向量数据库领域发生的这种现象级转变,显示出AI生态式发展的重要性。如同芯片一样,AI成功应用的背后,必须也需要一个强大的生态支撑。同时,AI强势发展的同时,也必然会带动相关领域颠覆的发生。这一次,向量数据库确实给数据库和云计算产业带来了颠覆。

另一方面,关于向量数据库的发展,业界却开始有了不同的声音。这源于OpenAI在2023年11月首次开发者大会上发布的新功能——GPTs,对于典型的中小知识库场景,OpenAI已经替用户封装好了“记忆”与知识库的功能。因而也根本就不需要折腾什么向量数据库,只要把知识文件上传上去写好提示词告诉GPT怎么用,开发者就可以开发出一个代理出来。尽管目前知识库的大小仅限于几十MB,但这对于很多场景都绰绰有余,而且上限仍有巨大提升空间。

据此,有业内人士认为,向量与向量检索是一种新的数据类型和查询处理方法,而不是一种全新的基础性数据处理方式。小需求OpenAI亲自下场解决了,现有成熟数据库通过加装向量扩展可以解决标准需求。而加装一种新的数据类型与索引,对设计良好的现有数据库系统来说并不是什么复杂的事情。“向量”部分可以说没有任何技术门槛,对于有足够大规模足够复杂的场景的大厂商来说,自家工程师可以不费吹灰之力地用开源库实现这类需求,完全没有引入一个新的专用向量库的必要。因此专用向量数据库可能陷入了一个死局之中。

与认为专有向量数据为没出路的论调不同,云计算服务商却对向量数据库表现出了超常的热情。云计算服务商在普智时代,与AI走得越来越近,同时也必定会关注到与AI相关软件的新进展,并在相关领域,甚至第二落点展开新竞争。而作为2023人工智能工程五大新方向之一,向量数据库必然会引起云计算服务商的强势关注。

从技术角度来看,向量数据库天然具备和云计算结合的优势。Serverless带来的弹性和按需计费能力,对于向量数据库云托管服务用户来说同样非常具有吸引力。一方面,向量检索场景复杂,既有离线又有在线,负载波动大且往往面向多租户场景,Serverless大大降低了用户进行容量评估和业务隔离的复杂度。另外一方面,向量数据库的可用性和一致性往往没有关键的OLTP业务要求那么高,从技术而言向量数据库Serverless落地的可行性也将更加高。因此,围绕着Serverless向量数据库一定有一场新竞争。

软件吞噬世界,云计算吞噬软件。想想当年Hadoop的发展,就不难明白云计算厂商对向量数据库的热情来源。这样一来,围绕着向量数据库,数据库厂商与云计算公司的竞合关系也变得微妙起来。

在国内,云计算公司与独立第三方数据库公司竞争大于合作,在金融、医疗等领域智能化升级的过程中,向量数据库存在较大的线下部署的需求。这类场景的智能化需求较难采用基于公有云的向量数据库服务,而更有可能采用线下部署的方式。从竞合角度来看,云计算公司的向量数据库产品应与公有云方向发展一致,未来存在与独立第三方合作的可能性。

结语

从这场竞争与竞合并存的角逐中,我们不难明白向量数据库引发的热潮并没有过去,只不过这场热潮的范围,已经由纯技术转向了云市场的竞争。AI与云计算,在生态的领域又一次相遇,向量数据库也成为了通向智能云的一块新基石。