为什么80%的码农都做不了架构师?>>>
童鞋们,
还记得在美剧《疑犯追踪》中,
Finch发明的人工智能“The Machine”吗?
它通过获得和关联大量数据,
可分析出即将发生的犯罪事件并发出预警。
可以说是灰常滴了不起了。
那么在现实中,
我们是怎么对犯罪数据进行分析的呢?
今天我们就来一起了解一下,如何通过 Apache Spark 和 Hive ETL 分析犯罪数据。
第一部分:了解有关提取、转换和加载 (ETL) 的信息
在这个教程中,您将学习对英国犯罪数据进行分析,从一开始直到获取最终结果,涵盖数据下载、数据转换,将数据加载至分布式数据仓库 Apache Hive,随后使用 Apache Spark 进行后续分析:
- 替代传统 ETL 工具的 Spark 和 Hive
- 从英国警方数据库中提取数据
- 数据清理
- Apache Hive 和 ETL
- 运行 Hive SQL 脚本并显示结果
第二部分:探索分析方法
在这个教程中,您将了解如何集成不同来源的数据。您还将看到对犯罪率的规范化统计数据的计算,这有助于轻松比较不同地区的犯罪率:
- 将人口普查数据导入 Hive 中
- 犯罪数据和人口普查数据集概述
- 英国犯罪数据集
- 警察机构 IT 系统概述
- 人口普查和犯罪数据分析
- R 直方图
点击“阅读原文” get 新技能,以更聪明的方式扼杀犯罪!