数据源
社交媒体平台
云平台
网站资源
物联网(IOT)
数据库
特点
分布式
数据源一般分布在不同的设备上,这些设备通常由网络连接在一起,网络空间的安全及其重要;
异构性
数据的来源广泛,比如社交媒体平台、云平台、网站资源、 物联网(IOT)、数据库;
多样性
数据的格式多样,比如关系型数据库,非关系型数据库;
流式产生
数据是实时产生的,这些实时的数据会被近实时或实时的收集,从而可以让系统及时的进行分析。
数据收集层
定义
数据收集层是与数据源直接对接的模块,负责接近实时或实时的收集数据源中的数据。
特点
拓展性
可以灵活的适配不同的数据源,在接入大量数据源的情况下,也不会产生系统瓶颈;
可靠性
数据传输过程中没有数据丢失,但也有部分系统在特定场景下可以容忍丢失少量数据;
安全性
在收集敏感数据的场景下,应该有完善规范的机制保证数据收集过程中不会产生安全隐患;
低延迟
在数据流量巨大的情况下,数据收集系统应该能够保证以低延迟的条件下将数据传输到后端的存储系统之中;
注意
在需要关联分析和挖掘的应用场景下,需要将数据收集到一个中央化的存储系统中。
数据存储层
定义
负责海量结构化与非结构化数据的存储。
特点
拓展性
伴随着数据量的递增,当现有集群存储系统存储能力快达到上限时,需要及时的增加新的机器来扩充存储能力,因此要求集群存储系统本身具备非常好的线性拓展能力;
容错性
配备完善的容错机制来确保系统及相关设施出现故障时不会导致数据的丢失;
存储模型
支持结构化、半结构化、非结构化数据的存储。
资源管理与服务协调层
资源管理
定义
集群资源共享,对资源进行统一的管理及使用,使用轻量级隔离方案对各个应用进行隔离,搭建轻量级弹性资源管理平台。
优势
资源利用率高
充分利用集群中的资源;
运维成本低
集群资源共享,集群少从而维护成本低;
数据共享
集群资源共享,无需进行跨集群数据传输。
服务协调层
定义
负责分布式集群系统中Leaer选举、服务标示、分布式队列、分布式缓存、分布式锁等通用功能的支持。
计算引擎层
定义
针对不同的应用场景需要设计不同的计算引擎层,主要考虑的问题有在线/离线处理数据、实时性要求程度、系统吞吐率要求程度。
分类
批处理
时间要求低,处理时间周期为分钟-小时,甚至是天,高吞吐率(单位时间内处理的数据量尽可能大),典型的应用场景有搜索引擎构建索引、批处理数据分析等;
交互式处理
时间要求高,处理时间周期为秒,这种场景一般涉及人机交互,典型的应用场景有数据查询、参数化报表生成等;
实时处理
时间要求高,处理时间周期为秒,典型的应用场景有广告系统、舆情监测等。
数据分析层
定义
面向用户应用程序提供易用、高效、多样化的数据处理工具,主要包括应用程序API、类SQL查询语言、数据挖掘SDK等。
数据可视化层
定义
运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。