比赛数据
corpus.tsv
-
介绍:语料库,从淘宝商品搜索的标题数据随机抽取doc,量级约100万。
-
格式:
doc_id
从1开始编号的,title
是是商品标题。
1 铂盛弹盖文艺保温杯学生男女情侣车载时尚英文锁扣不锈钢真空水杯
2 可爱虎子华为荣耀X30i手机壳荣耀x30防摔全包镜头honorx30max液态硅胶虎年情侣女卡通手机套插画呆萌个性创意
3 190色素色亚麻棉平纹布料 衬衫裙服装定制手工绣花面料 汇典亚麻
train.query.txt
-
介绍:训练集的query,训练集量级为10万。
-
格式:
query_id
从1开始编号,query
是搜索日志中抽取的查询词。
1 unidays
2 溪木源樱花奶盖身体乳
3 除尘布袋工业
qrels.train.tsv
-
介绍:训练集的query与doc对应关系,训练集量级为10万。
-
格式:
query_id
和doc_id
。数据来自于搜索点击日志,人工标注query和doc之间具备高相关性,训练集用来训练模型。
1 28
2 37
3 51
dev.query.txt
-
介绍:测试集的query,测试集量级为1000。
-
格式:
query_id
和query
,训练集id从1开始编号,测试集id从200001开始编号,query是搜索日志中抽取的查询词。
200001 鈴木雨燕方向機總成
200002 福特翼搏1.5l变速箱电脑模块
200003 a4红格纸