sift是检查ann近邻召回率的标准数据集,ann可以选择faiss,milvus等库或者方法;sift数据分为query和base,以及label(groundtruth)数据。本文采用sift-1M进行解读,且看如下:
1、sift-1m数据集
官方链接地址:Evaluation of Approximate nearest neighbors: large datasets
2、读取上图文件格式数据
2.1解压数据集
tar -zxvf sift.tar.gz
x sift/
x sift/sift_base.fvecs
x sift/sift_groundtruth.ivecs
x sift/sift_learn.fvecs: truncated gzip input
tar: Error exit delayed from previous errors.
这是啥问题?我怀疑是下载失败,删除重新下载。再下载时发现已经解压了,这是啥error,,误人子弟啊。