论文笔记(整理):轨迹相似度顶会论文中使用的数据集

0 汇总

数据类型数据名称数据处理
出租车数据波尔图

原始数据:2013年7月到2014年6月,170万条数据

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

 过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹
——>137W轨迹

CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒
根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

根据位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘
删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格
——>79,362条轨迹

KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

选择城市中心区域的轨迹,并移除少于10条记录的轨迹

——>超过60W条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

  • 删除了长度少于30的轨迹
  • 最终剩下120万条轨迹

ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

没有多少处理

哈尔滨

ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

8个月内13000辆出租车的轨迹。

选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。

这产生了150万条轨迹

西安

2018年10月的前两周

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

 

数据类型数据名称数据处理
出租车数据

德国

ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

2006年到2013年间

过滤位于城市(或国家)区域之外的轨迹

过滤包含少于20个点或超过200个点的轨迹

罗马

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

45157条轨迹

北京(T-drive)

AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

从10,357辆出租车中收集的
按小时划分这些轨迹,并丢弃短长度的轨迹

使用空间相似函数通过GPS坐标在北京道路网络上创建基准真值

KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

移除了少于10个采样点的轨迹

KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。

通过过滤异常值,这些轨迹的平均长度为25。

新加坡

15,054辆出租车的轨迹

对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集

人流mobility数据北京(

Geolife)

2007年4月到2012年8月收集的17621条轨迹

Sigspatial 2022 TSNE: trajectory similarity network embedding

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹

CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
  • 这样的操作产生了8214条轨迹
  • 前4928条轨迹用于训练数据,其余的用于测试数据

2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹
 

移除了少于10条记录的轨迹

大约8,000条轨迹

1 2023

1.1 ICDE 2023 Contrastive Trajectory Similarity Learning with Dual-Feature Attention

使用了三个真实世界的轨迹数据集:

(1)Porto ——2013年7月到2014年6月间,葡萄牙波尔图的170万条出租车轨迹;

(2)西安——2018年10月的前两周内,中国西安的210万条网约车轨迹(滴滴)

(3)德国 ——2006年到2013年间,170.7千条用户提交的轨迹。(openStreetMap)

  • 过滤位于城市(或国家)区域之外的轨迹,
  • 过滤包含少于20个点或超过200个点的轨迹

预处理后的数据集在表II中进行了总结。

1.2 AAAI 2023 GRLSTM: Trajectory Similarity Computation with Graph-Based Residual LSTM

  • 北京的轨迹来自T-drive项目的出租车轨迹。
    • 这些出租车轨迹是在几天内通过出租车id,GPS坐标和时间戳从10,357辆出租车中收集的
    • 按小时划分这些轨迹,并丢弃短长度的轨迹
    • 使用空间相似函数(Shang et al. 2017b)通过GPS坐标在北京道路网络上创建基准真值
    • T-Drive trajectory data sample - Microsoft Research
  • 纽约的轨迹从NYC Open Data - (cityofnewyork.us)获取
    • 使用相同的预处理方法来处理这些轨迹并获得基准真值
  • 对于这两个数据集,我们将这些数据随机分为训练集,验证集和测试集,比例为[0.2,0.1,0.7]

2 2022

2.1 CIKM 2022 Efficient Trajectory Similarity Computation with Contrastive Learning

为两个数据集设置相同的采样率,即15秒。

根据轨迹的开始时间戳将每个数据集划分为训练集和测试集,其中前100万条轨迹用于训练,其余的用于测试

2.2 CIKM 2022 Aries: Accurate Metric-based Representation Learning for Fast Top-k Trajectory Similarity Query

波尔图数据集:从2013年到2014年,有超过四百辆出租车的170万辆车轨迹。

我们根据它们的位置和时间戳,在三个月内选择了一个相对集中的轨迹集,数量为100𝑘。

然后我们删除少于50个点的记录,并将整个区域划分为1500×1500大小的网格。

经过预处理,我们在波尔图获得了79,362条轨迹。

2.3 CIKM 2023 Can Adversarial Training benefit Trajectory Representation? An Investigation on Robustness for Trajectory Similarity

  • 波尔图的数据集——从2013年7月到2014年6月的12个月期间的170万条出租车轨迹
    • 删除了长度少于30的轨迹
    • 最终剩下120万条轨迹
  • 北京数据集(Geolife)
    • 2007年4月到2012年8月收集的17621条轨迹
    • 也选择了那些至少满足长度为30的轨迹,并且在连续采样点之间的时间间隔小于20秒
    • 这样的操作产生了8214条轨迹
  • 对于波尔图数据集,训练数据由800,000条轨迹组成,其余的用于测试数据。
  • 对于Geolife数据集,前4928条轨迹用于训练数据,其余的用于测试数据。

2.4 Sigspatial 2022 TSNE: trajectory similarity network embedding

Geolife ——由182个用户从2007年到2012年在中国北京收集的17,621条轨迹组成。

选择了城市中心区域的轨迹,并将该区域离散化为200m×200m的网格单元。

移除了所有点太稀疏(少于10个点的轨迹),并在Geolife中获得了10,504条轨迹。

2.5 KDD 2022 Spatio-Temporal Trajectory Similarity Learning in Road Networks

  • 北京包含了从2008年2月2日到2008年2月8日在中国北京收集的1500万个出租车轨迹点。
  • 罗马包含了367,052条来自意大利罗马的出租车轨迹,覆盖了30多天。

  • 首先将所有轨迹映射匹配到来自OpenStreetMap的相应道路网络。
    • 这样,原始GPS轨迹数据就转换成了按时间顺序排列的顶点序列。
    • 进一步,获取了来自城市地区的轨迹,并移除了少于10个采样点的轨迹。
    • 这个预处理得到了在北京的348,210条轨迹和在罗马的45,157条轨迹。

2.6 KDD2022  TrajGAT: A Graph-based Long-term Dependency Modeling Approach for Trajectory Similarity Computation

  • 西安的出租车轨迹
    • 从2007年到2010年的17,621条人类移动轨迹
  • 波尔图
    • 从2013年到2014年的超过170万条出租车轨迹
  • 预处理:选择城市中心区域的轨迹,并移除少于10条记录的轨迹
  • 处理后,我们获得了西安数据集的7641条轨迹和波尔图数据集的超过600,000条轨迹

2.7 ICDE 2022 TraSS: Efficient Trajectory Similarity Search Based on Key-Value Data Stores

(1)TDrive ,包含了两周内北京的321,387条出租车轨迹(752MB)

(2)Lorry,包含了广州的4,394,397条JD物流卡车轨迹(136GB)

(3)合成,为了验证TraSS的可扩展性,我们使用了由Lorry数据集复制7次生成的五个合成数据集

2.8 ICDE 2022 TMN: Trajectory Matching Networks for Predicting Similarity

• Geolife  由中国北京的182名用户收集,它包含了广泛的人类户外运动,这些运动是用户的GPS位置。总共,Geolife中有17,612条轨迹。

• Porto  包含了超过170万辆车的路线轨迹,主要由葡萄牙波尔图的442辆出租车收集。

遵循之前的工作,过滤掉位于稀疏区域的轨迹,保留城市中心区域的轨迹用于训练和测试。

也移除了少于10条记录的轨迹。

  • 这是因为计算较长序列的相似性更为困难和耗时。
  • 此外,轨迹数据集通常以许多GPS错误和其他问题为特征,如果受到影响,短轨迹会严重受到这些错误的影响

经过预处理后,Geolife数据集中有大约8,000条轨迹,Porto数据集中有600,000条轨迹

2.9  ICDE 2022 Continuous Trajectory Similarity Search for Online Outlier Detection

1)北京(Geolife)

        该数据集保留了182名用户在三年多的时间里的所有旅行记录,包括多种交通方式(步行、驾驶和乘坐公共交通)。

        轨迹每1-5秒采样一次,两个相邻点之间的平均速度为5.73 m/s。

        北京的道路网络有65,129个节点和85,322条边。

2)新加坡。

        该数据集追踪了新加坡的15,054辆出租车的轨迹。

        对于每辆出租车,GPS信息在整整一个月内以半分钟到三分钟的采样率持续收集。

        它在两个相邻点之间的平均距离远高于GeoLife。

        新加坡的道路网络包含20,801个节点和42,309条边。

这是一个私有数据

3)波尔图。

        该数据集包含了442辆出租车在波尔图市,葡萄牙一整年(从2013年7月1日到2014年6月30日)的轨迹。

        其道路网络具有最细的粒度,有100,484个节点和129,303条边。

3 2021

3.1 ICDE 2021 REPOSE: Distributed Top-k Trajectory Similarity Search with Local Reference Point Tries

我们在3种类型的数据集上进行实验。

1)小规模和小空间跨度:旧金山(SF),波尔图(Porto),罗马(Rome),T-drive [33]。

2)大规模和小空间跨度:成都和西安。

3)大规模和大空间跨度:OSM。

数据集统计信息显示在表III中。

在预处理阶段,我们删除长度小于10的轨迹,并将长度大于1000的轨迹分割成多条轨迹。我们均匀且随机地选择100条轨迹作为查询集。

1http://sigspatial2017.sigspatial.org/giscup2017/home 2https://www.kaggle.com/c/pkdd-15-predict-taxiservice-trajectory-i 3http://crawdad.org/roma/taxi/20140717 4https://gaia.didichuxing.com 5https://www.openstreetmap.org

3.2 ICDE 2021 T3S: Effective Representation Learning for Trajectory Similarity Computation

我们的实验使用了以下两个数据集:

• Geolife [17] 是一个基于GPS的轨迹数据集,由2007年4月至2012年8月在中国北京的182名用户收集。该数据集包含17,621条轨迹,并记录了广泛的人类户外活动。

• Porto [18] 是一个包含超过170万辆车路线轨迹的数据集,由葡萄牙波尔图的442辆出租车收集。该数据集用作评估交通监测模型的基准。

3.3 KDD 2021 A Graph-based Approach for Trajectory Similarity Computation in Spatial Networks

使用来自不同城市的两个空间网络。一个是来自北京市的,即北京道路网络(BRN)。另一个是来自纽约市的,即纽约道路网络(NRN)。

在BRN数据集中,有28,342个兴趣点和27,690条边;在NRN数据集中,有95,581个兴趣点和260,855条边。

对于BRN中的轨迹,我们使用来自T-drive项目的出租车行驶数据。BRN中的出租车轨迹是按出租车id收集的,一条轨迹的时间范围可能持续几天。因此,我们按小时分割这些轨迹,然后我们总共可以得到5,621,428条轨迹。通过过滤异常值,这些轨迹的平均长度为25。

对于NRN中的轨迹,我们使用来自纽约的出租车行驶数据。在原始数据集中,有697,622,444次行程,我们随机抽样其中的一部分来生成轨迹数据集。经过预处理后,我们的实验中有10,541,288条轨迹,它们的平均长度为38。详细信息总结在表1中。

对于这两个轨迹数据集,我们都以20%、10%和70%的比例随机分割它们为训练集、评估集和测试集。

4 2020

4.1 IJCAI 2020 Trajectory Similarity Learning with Auxiliary Supervision and Optimal Matching

ECML/PKDD 15: Taxi Trajectory Prediction (I) | Kaggle

4.2 2020 ICDE Parallel Semantic Trajectory Similarity Join

  • 纽约轨迹数据(NTD)和北京轨迹数据(BTD)。
    • NTD包含一张道路网络和1000万辆出租车行程。每个出租车行程都是一个起点-终点对。
    • 将从源到目的地的最短路径视为一次行程的轨迹。
    • 此外,使用了一个真实的POI数据集,其中包含了纽约市的19,969个POI。
      • 每个POI都有一个带有纬度和经度的空间坐标和一个文本描述。
      • 因为POI可能不匹配轨迹点,我们将每个POI映射到道路网络中最近的节点,并将POI视为语义轨迹中的一个对象。
  • 在BTD中——T-drive
    • BTD中的原始轨迹非常长,因为每条轨迹都包含了特定时间段内的所有行程,这可能是几天。
    • 我们将这些轨迹划分为半小时的子轨迹。目的是创建具有现实长度和持续时间的行程。
    • 为了用文本描述增强每个轨迹点,我们从包含200万条推文的真实推文集合中随机选择一条推文,并将推文的文本描述与轨迹点关联起来。 

https://publish.illinois.edu/dbwork/open-data/

5 更早

5.1 ICDE 2018 Deep Representation Learning for Trajectory Similarity Computation

第一个数据集在葡萄牙的波尔图市收集,持续19个月,包含170万条轨迹。每辆出租车每15秒报告一次其位置。我们移除了长度少于30的轨迹,得到了120万条轨迹。

第二个数据集包含了在中国哈尔滨市收集的8个月内13000辆出租车的轨迹。我们选择了长度至少为30,且连续采样点之间的时间间隔少于20秒的轨迹。这产生了150万条轨迹。

我们根据轨迹的开始时间戳将两个集合划分为训练数据和测试数据。对于这两个集合,前80万条轨迹用于训练,其余的轨迹用于测试。

5.2 2019 ICDE Computing Trajectory Similarity in Linear Time: A Generic Seed-Guided Neural Metric Learning Approach

第一个数据集[33],被称为Geolife,包含了从2007年到2010年的17,621条人类移动轨迹。

第二个数据集[23]包含了从2013年到2014年的超过170万条出租车轨迹。

为了减小M的维度,我们选择了城市中心区域的轨迹,并将该区域离散化为50m × 50m的网格单元。

然后,我们删除了记录少于10条的轨迹。经过这样的预处理,我们在Geolife中获得了8203条轨迹,在波尔图中获得了601,071条轨迹。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/145475.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AOP:分页参数统一校验

需求说明 为了保证系统的安全性,需要对所有的 查询列表 接口,添加分页参数,并对分页参数进行校验, ,保证参数的合法性。 比如, pageSize(每页显示条数),如果不做校验&a…

完整指南:如何使用 Node.js 复制文件

文件拷贝指的是将一个文件的数据复制到另一个文件中,使目标文件与源文件内容一致。Node.js 提供了文件系统模块 fs,通过该模块可以访问文件系统,实现文件操作,包括拷贝文件。 Node.js 中文件拷贝方法 在 Node.js 中,有…

Python3数据科学包系列(一):数据分析实战

一: 数据分析高级语法:序列(Series) # -*- coding:utf-8 -*-from pandas import Seriesprint(-------------------------------------序列Series定义与取值-------------------------------------------) print("""Series序列可以省略,此时索引号默…

What is an HTTP Flood DDoS attack?

HTTP 洪水攻击是一种针对 Web 和应用程序服务器的第 7 层分布式拒绝服务 (DDoS) 攻击。HTTP 洪水攻击通过使用 HTTP GET 或 HTTP POST 请求执行 DDoS 攻击。这些请求是有效的,并且针对可用资源,因此很难防范 HTTP 洪水攻击。 匿名…

【AI视野·今日Robot 机器人论文速览 第四十四期】Fri, 29 Sep 2023

AI视野今日CS.Robotics 机器人学论文速览 Fri, 29 Sep 2023 Totally 38 papers 👉上期速览✈更多精彩请移步主页 Interesting: 📚NCF,基于Neural Contact Fields神经接触场的方法实现有效的外部接触估计和插入操作。 (from FAIR ) 操作插入处理结果&am…

Go_原子操作和锁

原子操作和锁 本文先探究并发问题,再探究锁和原子操作解决问题的方式,最后进行对比。 并发问题 首先,我们看一下程序 num该程序表面看上去一步就可以运行完成,但是实际上,在计算机中是分三步运行的,如下…

相机数据恢复!详细步骤解析(2023新版)

和朋友在外面旅游用相机拍了好多有意义的照片和视频,但是导入电脑后不知道是被我删除了还是什么原因,这些照片都不见了,请问有方法恢复吗?” 在数字摄影时代,我们依赖相机记录珍贵的瞬间。然而,相机数据丢失…

LeNet网络复现

文章目录 1. LeNet历史背景1.1 早期神经网络的挑战1.2 LeNet的诞生背景 2. LeNet详细结构2.1 总览2.2 卷积层与其特点2.3 子采样层(池化层)2.4 全连接层2.5 输出层及激活函数 3. LeNet实战复现3.1 模型搭建model.py3.2 训练模型train.py3.3 测试模型test…

MyBatisPlus(七)等值查询

等值查询 条件查询&#xff1a;使用 Wrapper 对象&#xff0c;传递查询条件。 QueryWrapper&#xff08;不要使用&#xff09; 代码 Testvoid eq() {QueryWrapper<User> wrapper new QueryWrapper<>();wrapper.eq("name", "张三");List<…

httpserver 下载服务器demo

实现效果如下&#xff1a; 图片可以直接显示 cpp h 这些可以直接显示 其他的 则是提示是否要下载 单线程 还有bug 代码如下 先放上来 #include "httpserver.h" #include "stdio.h" #include <stdlib.h> #include <arpa/inet.h> #include…

Vue控制textarea可输入行数限制-案例

控制只能输入六行内容 UI部分代码 //我使用了antd ui库 <a-form-model-item ref"address_group" label"规则描述" prop"address_group" > <a-textarea:rows"6"style"width: 60%"placeholder"一次最多输入6行…

【数据结构】队列和栈

大家中秋节快乐&#xff0c;玩了好几天没有学习&#xff0c;今天分享的是栈以及队列的相关知识&#xff0c;以及栈和队列相关的面试题 1.栈 1.1栈的概念及结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作…

MySQL数据查询性能如何分析--Explain介绍说明

1、Explain是什么 Explain是MySQL执行查看执行计划命令的指令&#xff0c;使用EXPLAIN关键字可以模拟优化器执行SQL查询语句&#xff0c;从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。 2、Explain官网介绍 http://dev.mysql.com/doc/refma…

【MySQL】数据类型(二)

文章目录 一. char字符串类型二. varchar字符串类型2.1 char和varchar比较 三. 日期和时间类型四. enum和set类型4.1 set的查询 结束语 一. char字符串类型 char (L) 固定长度字符串 L是可以存储的长度&#xff0c;单位是字符&#xff0c;最大长度是255 MySQL中的字符&#xff…

Makefile学习

一、Makefile的介绍 1.1 什么是Makefile 相信在Linux系统中经常会用到make这个命令来编译程序&#xff0c;而执行make命令所依赖的文件便是Makefile文件&#xff0c;make命令通过Makefile文件编写的内容对程序进行编译。make命令根据文件更新的时间戳来决定哪些文件需要重新编…

纯css html 真实水滴效果

惯例,不多说直接上图 秉承着开源精神,我们将这段代码无私地分享给大家&#xff0c;因为我们深信&#xff0c;信息的共享和互相学习是推动科技进步的关键。我们鼓励大家在使用这段代码的同时&#xff0c;也能够将其中的原理、思想和经验分享给更多的人。 这份代码是我们团队用心…

一百八十六、大数据离线数仓完整流程——步骤五、在Hive的DWS层建动态分区表并动态加载数据

一、目的 经过6个月的奋斗&#xff0c;项目的离线数仓部分终于可以上线了&#xff0c;因此整理一下离线数仓的整个流程&#xff0c;既是大家提供一个案例经验&#xff0c;也是对自己近半年的工作进行一个总结。 二、数仓实施步骤 &#xff08;五&#xff09;步骤五、在Hive的…

Purism 推出注重隐私的 Linux 平板电脑

导读一款昂贵的 Linux 平板电脑&#xff0c;注重安全和隐私。让我们拭目以待。 Purism 是一家日益流行的计算机硬件产品制造商&#xff0c;专门提供配备注重隐私的开源 Linux 发行版的笔记本电脑、台式机和移动设备。 最近&#xff0c;他们发布了一款新产品 Librem 11 平板电…

ARM底层汇编基础指令

汇编语言的组成 伪操作 不参与程序执行&#xff0c;但是用于告诉编译器程序怎么编译.text .global .end .if .else .endif .data 汇编指令 编译器将一条汇编指令编译成一条机器码&#xff0c;在内存里一条指令占4字节内存&#xff0c;一条指令可以实现一个特定的功能 伪指令 不…

嵌入式Linux应用开发-基础知识-第十六章GPIO和Pinctrl子系统的使用

嵌入式Linux应用开发-基础知识-第十六章GPIO和Pinctrl子系统的使用 第十六章 GPIO 和 Pinctrl 子系统的使用16.1 Pinctrl 子系统重要概念16.1.1 引入16.1.2 重要概念16.1.3 示例16.1.4 代码中怎么引用pinctrl 16.2 GPIO子系统重要概念16.2.1 引入16.2.2 在设备树中指定引脚16.2…