1.向量
向量是多维数据空间中的一个坐标点。
向量类型
图像向量 文本向量 语音向量
Embedding
非结构化数据转换为向量过程
通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度
Vector Embedding 向量嵌入
将非数值词语符号等非结构化数据编码成数值向量
Word Embedding 词嵌入
通过NN学习,文本中词语作为NN输入,输出对应词向量 Word Vector。词向量是一个数值向量,每个数值代表词语的某个特征
向量的每个数值表示某个特征,只要向量足够大,特征区分足够明显
2.向量数据库
向量数据库为向量数据提供专用的存储和索引机制
向量数据被存储为高维空间中的点
向量数据库发展阶段
向量存储类型
1.私域知识 Domain Knowledge
可以把向量数据库作为大模型的外挂知识库
2.本地存储 Local Storage
将向量数据存储到本地
3.长期记忆 Long Time Storage
大模型具有短期记忆,具有上下文信息数量限制。
向量数据库作为外部数据库 存储单次上传的超大文本 对外内容等信息,为大模型提供理论上没有上限的长期记忆
向量数据库作用
1.相似性搜索
根据向量距离或相似性对向量数据进行快速准确的相似性搜索,即可以根据语义或者上下文含义查找最相似或相关的数据
2.提升性能
相似度计算 相似性搜索 高效存储 分布式
向量数据库评价指标
1.准确率
检索相关的向量/检索出向量总数
2.召回率
检索相关的向量/向量数据中相关的向量总数
3.每秒平均吞吐
每秒向量数据库能够处理的查询请求次数
4.平均响应延迟
请求平均响应时间
向量相似度计算
向量索引
向量数据库索引分类
按照数据结构
哈希索引
树索引
图索引
倒排文件索引
按照量化压缩
相似性搜索算法
相似性搜索算法
向量数据量应用场景
图像相似性搜索
视频相似性搜索
音频相似性搜索
推荐系统
问答系统
混合搜索系统
大模型与向量数据库
当前主流向量数据库
2024年精选推荐的16个向量数据库:提升你的AI应用性能-CSDN博客
相关学习资料
三天搞定【大模型系列】之向量数据库教程(搭建、原理、实战)_哔哩哔哩_bilibili
【上集】向量数据库技术鉴赏_哔哩哔哩_bilibili
【下集】向量数据库技术鉴赏_哔哩哔哩_bilibili