论文标题
英文标题:Enhancing Pavement Sensor Data Harvesting for AI-Driven Transportation Studies
中文标题:为人工智能驱动的交通研究增强路面传感器数据采集
作者信息
-
Manish Kumar Krishne Gowda
Purdue University,
465 Northwestern Avenue, West Lafayette, IN 47907
Email: mkrishne@purdue.edu -
Andrew Balmos
Purdue University,
465 Northwestern Avenue, West Lafayette, IN 47907
Email: abalmos@purdue.edu -
Shin Boonam
Indiana Department of Transportation,
1205 Montgomery Street, West Lafayette, IN 47906
Email: BShin@indot.IN.gov -
James V. Krogmeier
Purdue University,
465 Northwestern Avenue, West Lafayette, IN 47907
Email: jvk@purdue.edu
论文出处
-
提交日期:2024年8月1日
-
总字数:6879字(包括摘要、正文和参考文献)
摘要
本文提出了综合的交通传感器数据管理指南,涵盖静态存档数据和实时数据流。通过部署开源的“Avena”软件平台和NATS消息系统作为安全通信代理,确保了可靠的数据交换。同时,利用TimescaleDB等强大的数据库进行有组织的存储,并通过Grafana等可视化平台提供实时监控能力。对于静态数据,提出了结合云存储和关系数据库的标准,以高效处理非结构化和海量数据集。通过FME等云数据传输工具,实现了从本地存储到云端的高效迁移。此外,将强大的可视化工具集成到框架中,有助于从复杂数据集中提取模式和趋势。这些提案通过INDOT的实际案例研究进行了验证,展示了其在研究项目中的有效性。
引言
交通研究旨在探索网络设计、评估路面材料在不同负载和天气条件下的行为、优化交通工程的关键要素等。这些研究的目标是提高交通系统的整体质量,确保公共安全。为此,研究人员在交通网络中部署了大量传感器,这些传感器持续提供交通动态和路面状况的信息,生成了大量需要有效管理的数据。然而,管理如此庞大且多样化的数据集是一个重大挑战,因为数据量大、需要密集的清理和预处理以减少错误和不一致性。因此,需要有效的工具和技术来处理和分析数据,最好是在实时和集中信息数据库中进行。这样的策略可以帮助更好地组织数据,推导出潜在的模式和关系,应用数据抽象技术,并据此做出基于证据的决策,从而促进可持续交通基础设施的长期发展。
动机与范围
全球每年进行的交通研究项目众多,许多项目涉及研究人员和工程师前往现场进行实验、长时间物理监控传感器,并手动将收集的数据传输回中央位置进行分析。这种方法存在多个缺点,包括劳动密集型的实验监控和数据后处理、数据丢失或错误、延迟处理和实验反馈延迟等。这些问题可以通过自动化的实时监控和中央数据存储位置的早期检测来避免。实时数据可视化工具可以提供即时的路面健康洞察和更深入的情境感知,减少后处理工作量。因此,需要一个全面的实时数据监控和交付系统。
方法论
本文首先提出了静态数据库管理的操作标准和实时数据管理的系统架构,并通过INDOT的两个项目展示了这些指南的实际应用。
静态数据管理指南
静态数据管理指南包括以下几个关键组成部分:
-
数据源:静态数据源是已知大小和固定容量的,通常保存在本地存储介质中,如硬盘和存储盘,或原始在线存储库中。本地存储不仅限制了数据的可访问性和协作能力,还增加了因硬件故障导致数据丢失的风险。将这些静态数据源纳入强大的在线框架可以受益于多种基于网络的数据分析工具,并减少与内部数据管理相关的安全风险。
-
云数据传输工具:高效可靠的数据传输工具对于传感器数据迁移到在线领域至关重要。这些工具必须兼容不同大小和格式的数据文件,并支持自动化调度,以减少手动干预。错误检测和日志功能可以防止数据传输过程中的网络问题导致的数据损坏或退化。虽然Python等脚本语言可以通过广泛的API兼容性实现定制化的高效数据传输,但需要掌握语言特定的语法和语义,这可能会限制研究社区对框架的适应性。
-
数据库:将大量传感器数据托管在云存储上可以显著增强数据处理和资源管理能力。为了协助对广泛数据集进行全面分析,研究人员需要对数据的范围和范围有一个基本的了解。这种对传感器数据集的执行摘要可以帮助研究人员更好地规划和策略化对研究数据的全面深入分析。此外,对遥测数据的简洁概述可以帮助研究人员进行数据质量评估、初步错误检测、识别差距和不规则性以及假设形成,从而促进资源优化。
-
可视化工具:静态传感器数据建模的可视化工具的一般特征与实时数据可视化工具相似。然而,传感器数据的性质可能决定了在静态数据库上下文中进行视觉分析的工具选择。例如,具有高粒度的数据可能需要支持平滑函数或插值方法的工具来减少噪声,而对于极大数据集,可视化工具必须使用下采样或交互式过滤等技术有效地处理规模。
静态数据案例研究
本文将静态数据管理指南应用于两个由Purdue-INDOT联合研究团队维护的数据库。第一个数据库包含I-69高速公路部分路段的路面传感器数据,第二个数据库包含INDOT研究部门的加速路面测试(APT)的历史记录。
-
I-69数据库:包含压力传感器和应变计数据,存储在MATLAB兼容文件中。研究人员开发了一个MATLAB应用程序来检查和可视化数据,但该程序在处理大数据集时响应缓慢,且难以进行跨实验比较分析。为了解决这些问题,研究人员将压力传感器和应变计的峰值和谷值坐标捕获到一个表格格式中,并将关键数据(如文件名、测试段ID、传感器ID等)以结构化表格格式存储。这种格式整合了相关信息,使研究人员能够跨不同文件进行传感器数据的交叉分析。
-
APT数据库:包含来自不同类别传感器的读数,用于研究路面性能。数据格式化包括对沥青激光轮廓数据、沥青预交通激光轮廓数据、沥青传感器数据、沥青静态载荷数据、混凝土激光轮廓数据、混凝土预交通激光轮廓数据和FWD相关传感器数据的处理。这些数据通过Python语言进行格式化,并使用Safe的FME软件作为数据传输工具上传到Oracle数据库。
实时数据管理架构
实时数据管理架构包括以下几个关键组成部分:
-
数据源:指生成传感器数据的系统,使分析和研究成为可能。多种传感器被部署用于交通研究,包括土压力传感器、应变计、摄像头、湿度传感器、空气质量传感器和激光轮廓传感器。数据采集系统(DAQ)主动监控这些传感器,采样并收集传感器数据。
-
数据接口:指在DAQ上托管的软件应用程序,促进传感器数据在DAQ和NATS消息系统之间的传输。NATS是一个安全、轻量级的消息服务,设计用于创建多节点分布式平台、云原生应用程序和物联网解决方案。NATS作为发布-订阅模型中的消息代理,避免了系统中的冗余数据交换。
-
数据库:在端到端系统中集成强大的数据库,提供有组织和高效的存储解决方案,并允许研究人员在安全、易于访问的存储库中方便地访问数据。理想的数据库候选者应能够管理高速时间关键型传感器数据,适应更多传感器、更大数据集、处理大规模查询,并支持通知和警报功能。
-
可视化平台:与所选数据库无缝集成的数据表示和可视化工具对于实时监控传感器测量值至关重要。这些工具使研究人员能够对传感器数据进行初步评估,并评估模式和趋势是否符合预期行为。
实时数据案例研究
实时数据管理架构在I-65高速公路的两个实验现场进行了集成,展示了概念设计的功能方面。实验中使用了土壤压缩传感器、土压力传感器和土壤湿度温度传感器,用于评估交通负载分布、监测建筑材料的结构稳定性、评估路面组件对天气变化的响应等。Campbell Scientific DAQ系统用于采样和监控嵌入式传感器,并通过MQTT协议将数据传输到中央服务器。NATS作为消息代理,将DAQ输出的传感器数据流与数据库连接起来。RedPanda Connect软件在中央位置持续运行,接收数据负载并通过TimescaleDB数据库进行存储。Grafana用于从TimescaleDB数据库中查询数据,以实现实时监控和可视化。
结果
实时系统架构无缝集成,为I-65现场试验提供了一个强大的实时数据处理系统。基于Avena框架的案例研究系统实现了低延迟的传感器数据交换,TimescaleDB支持实时数据存储,Grafana实现了有效的数据可视化和实时传感器监控。静态数据管理解决方案为项目数据管理提供了灵活性,如案例研究中包含的项目性质多样化。Oracle等关系数据库在管理大型数据库的关键摘要时保证了ACID属性,而Blob存储解决方案则以低成本或无成本的方式经济地存档了大量未处理的传感器数据。ArcGIS等专业数据可视化工具满足了研究人员的项目特定数据可视化需求。
结论
本文深入分析了从I-65和I-69 Greenfield地区仪器路段的现场测试中收集的传感器数据的最佳管理实践。研究提出了针对大规模历史数据集的管理建议,包括将摘要和指标数据存储在关系数据库中,未处理数据存储在Blob存储中。研究人员更倾向于传感器指标而非原始传感器数据本身,他们通过应用分析方法将数据存储在Oracle等关系数据库中,并在现有的INDOT数据系统中使用。最后,提出了一个完整的端到端系统架构,用于通过远程数据采集系统实时收集嵌入式传感器数据。案例研究系统使用了太阳能供电的Campbell设备,主要用于自动但本地的数据采集。数据管理解决方案利用Avena框架,现代化了实时远程数据采集的设计,并在数据流上启用了边缘计算。因此,传感器可以24/7监控,实时生成有用的指标并推送到集中存储,大大减少了测量与INDOT数据驱动决策之间的延迟。然而,Campbell DAQ硬件的限制促使进一步探索在路边DAQ中引入Avena的可能性,以实现更开放的数据流。系统提案为交通研究中的静态和实时数据管理提供了全面的端到端解决方案。案例研究验证了提案的功能性和有效性,并增强了其操作的信心。该工作将鼓励研究人员在交通研究领域内和跨领域的各种实际项目中采用和整合提案。