【人工智能】万字通俗讲解向量数据库 | 什么是向量数据库 | 有何不同 | 如何选择 | Vector Database | Chroma | Pinecone

【人工智能】万字通俗讲解向量数据库 | 什么是向量数据库 | 有何不同 | 如何选择 | Vector Database | Chroma | Pinecone | Milvus

Рет қаралды 10,590

7 ай бұрын

几乎每个大语言模型驱动的应用程序，都可能会用到向量数据库。那么，究竟什么是向量数据库，它与传统数据库有何不同，我们又该如何选择向量数据库呢？今天我们就来聊聊这个话题，为了方便大家的理解，整个内容并没有晦涩的术语或者复杂的数学公式，大飞我希望尽量能够做到雅俗共赏。
#人工智能 #vectordb #向量数据库 #pinecone #milvus

Пікірлер: 25

@xavierzhou7118 7 ай бұрын

非常优质的一期！干货满满！

@billwu7367 4 ай бұрын

很喜欢听大飞讲东西，实用朴实

@danlau007 7 ай бұрын

先给大飞点个赞，然后再看

@skitchsmisth2793 6 ай бұрын

牛，雅俗共赏，高水平视频

@michaelzap8528 3 ай бұрын

向量，向量数据库，向量X中的“向量”，是不是可以这么理解，它就是某个物体，某一个oject的特性。比如人，他的头，手，脚，胸，指甲，他的母语，他的数学水平等等这些特征，共同组成了这个人的“向量。有几个特征，就是几维的向量。数学上的向量是长度加方向。我的理解就是，加一个所谓的”方向“，其实就是强调，组成某个物体的”独有的特征“，如上述人的那些特征，如果特指这个人的特征，就可以称之为这个人的向量，或者简称向量。人或者物体的各个向量特征之间，是有比例关系的，也就是俗称的weight，权重。比如某个具体的人，他的向量权重，就是一个头，两只手，2只脚，会四种外语等等。把数据向量化，有一个好处，就是可以用线性代数的各种运算法则来进行运算。而计算机是特别擅长于搞线性代数的运算。比如图像图像学，基本就是现行代数具体运用。现在的各种网络神经系统，因为它的输入值，全部向量化，所以它的各种实现方式，就是简单的线性代数的运算。

@user-fu8lm2wt6y 6 ай бұрын

请问当前主流的向量数据库在faiss的基础上作了哪些功能呢？

@user-ed4fl8fg8k 2 ай бұрын

很专业，但是能不能出一个怎样建立企业或个人的LLM知识库的案例教程

@user-dw5su3hf2w 7 ай бұрын

请教一下：1、用Embedding models把原始数据转化成vector这一步是vector DB之外做的吗？即：是否vector DB的inputs其实是已经转化过的vectors，没有实际含义。2、如果VectorDB不存原始数据，那么即使根据查询的vector返回相似的vectors，用户是不是还需要自己建立索引找到这些vectors对应的原始数据？

@yuchengcao4705 7 ай бұрын

1是的，将原始数据转换成向量通常是在向量数据库（Vector DB）之外进行的。这个过程涉及使用嵌入模型（如深度学习模型）来处理原始数据，并将其转换成高维向量。这些模型可以是预训练的，也可以是为特定应用定制的，并且它们在将数据输入向量数据库之前就完成了向量化的工作。 2对，如果向量数据库不存储原始数据，那么当它返回查询的相似向量时，用户通常需要有一个机制来映射这些向量回它们对应的原始数据。这通常意味着需要维护一个索引或引用系统，该系统能够将每个向量与其原始数据关联起来。在某些情况下，向量数据库可能会存储一些元数据，这有助于此映射，但通常不会存储原始数据的全部内容。因此，一旦找到最相似的向量，就需要另一个步骤来检索与这些向量相对应的实际数据。这种设计的原因是向量数据库专注于高效地处理和搜索高维向量，而不是存储大量原始数据。存储原始数据可能需要显著更多的存储空间，并可能不适合向量数据库高效索引和查询的需求。这种分离也允许使用者根据自己的需求自由选择如何存储和管理原始数据。以上是GPT的回答