大数据平台

选型

大数据平台选型有三种选择:

1、使用云平台,优点是建设周期短、运维成本低,缺点费用贵、数据安全性;

2、使用商业化的大数据平台,优点搭建部署方便、稳定性好,缺点是成本高、不够灵活;

3、自己造轮子,优点就是根据需要定制部署,缺点周期长、成本高、坑特别多。

公司高层视数据如命,使用公有云平台是不可能的,大数据团队刚建成、预算不足,只能走向自主建设这条艰辛路。经历了大数据平台从有到无,功能越来越完善,稳定性和性能逐步提升,支持的业务越来越多。体会到自主建设一个生产级别的大数据平台,要踩了很多坑。所以记录一下大数据平台的技术演进历程,一来用于总结经验,二来也给其他正准备自己建设大数据平台的同学提供参考。

总体架构

 

  • 数据源,支持多种数据源,可以实现对公司的各个业务线的数据进行接入整合;
  • 接入层,业务mysql数据库定时同步和基于canel的实时同步结合,日志数据实时接入,互联网海量数据实时爬取清洗;
  • 存储层,hdfs分布式文件系统实现海量数据存储,hbase提供数据实时读写,kafka消息队列实现数据缓存;
  • 计算层,离线计算引擎用于数据挖掘和机器学习模型训练,实时计算引擎实现日志的实时分析和处理,深度学习引擎用于人工智能算法的运行;
  • 分析层,实时SQL用于探索性分析和多维分析,机器学习算法用于商机的分类和推荐,NLP分析实现自然语言处理,深度学习算法用于图片水印和违禁图片识别;
  • 数据服务层,对外提供数据服务;
  • 数据应用层,个性推荐为PC端和单品通app端提供推荐服务;用户画像可以抽象出标签化的用户模型是提升会员质量的基础;用户行为分析对用户访问网站的规律进行分析可用于智能推荐;统计报表对数据进行挖掘分析,提供报表作为决策的依据,实现商业智能;运营支持对运营部门的需求提供大数据支持;数据大屏方便用户直观的了解运营情况,包括实时交易图、统计大屏和基地大屏。

数据采集

需要采集的数据有三类:
  • 业务数据,主要存储是关系型数据;
  • 日志类,主要存储是文件;
  • 爬虫抓取类,主要存储是文件。

业务数据

Sqoop阶段

公司业务数据库使用的mysql,最初业务数据同步使用sqoop定时同步,主要问题有三个:数据同步有延时,同步后的数据有串行、对业务库压力大。所以想找到更好替代方案。

Kafka Connect阶段

这个时候confluent 的kafka connect 进入我们的视野,看完官网的介绍和原理,设计理念特别好,支持各种数据源,完全满足我们的需求,经过部署测试,稳定性太差,根本无法用到生产环境。

Sqoop+canal阶段

最后又把目光又回到了sqoop上,利用sqoop的job实现增量同步,同时对并行度进行优化基本可以满足要求。对业务数据库压力大的问题并没有解决,考虑专门创建一个mysql备库用于我们同步数据,这时候闪现了一个想法可以考虑直接读取mysql的binlog日志进行同步,先在github上找找有没有开源的轮子,在万能的github上找到了canal。最后的方案就是通过sqoop+canal的方案,sqoop用于第一次全量同步,canal用于增量同步。

日志数据

可选的方案有三个:

flume、logstash、filebeat。最后的选择的是filebeat直接接入kafka,没有使用logstash原因是对服务器压力太大,flume更侧重数据传输。

爬虫抓取类

爬虫抓取集群和大数据集群网络环境差,爬取的文件格式复杂,这种情况是flume最擅长的。

平台管理

平台建设开始就要考虑的数据资源和计算资源的管理,避免使用混乱,否则后患无穷。

数据资源管理

hdfs、hive、hbase启用安全策略,开发了专门的元数据管理平台,对数据进行管理,包括数据所属人,数据的用途。

计算资源管理

引用账号和队列,每个产品线对应一个用户组,每个用户对应一个队列,针对队列设置配额。

性能优化

硬件环境

  • 系统盘和数据盘分开。避免使用一个磁盘的两个分区作为系统盘和数据盘,这样可以避免数据盘负载太高导致系统变卡。
  •  数据盘不需要做raid,直接使用单个磁盘。使用raid0虽然性能高,但是单个磁盘损坏会导致整个raid磁盘不能使用,使用raid5数据可靠性高,但是性能不高。更重要的是,我们数据的安全性靠的是软件保证。
  • 每台机器的磁盘数和磁盘空间尽可能一样。
  • 系统盘一定要是使用单独的磁盘,最少200G空间以上
  • 使用高转速磁盘,至少1000转以上,避免磁盘成为瓶颈。
  • 集群机器之间至少10Gigabit(万兆)以太网。
  •  内存、CPU、磁盘、带宽和磁盘io要保持一个合理的性价比。例如正常情况下内存越大越好,但是内存大到一定阶段,cpu和带宽就会成为瓶颈,如果加大cpu和带宽,最后磁盘io就有可能是瓶颈。

操作系统

  • 禁用swap,使用交换分区会严重影响程序的性能。现在的内存已经不是很稀缺了,而且内存和磁盘速度相差太大。
  • 增大操作系统的最大打开文件数。
  • 设置数据盘的noatime属性。
  • 文件系统选择ext4

部署建议

hdfs

Namenode节点不要和datanode节点部署在一起 

Yarn

  • yarn分配的内存是机器总内存的75%,剩余的内存用于操作系统、系统缓存、程序等使用。
  • nm节点和datanode节点部署到同样的机器上。
  • RM节点选择和namenode节点部署到同一个机器。

Zookeeper

  • zookeeper节点选择负载比较少的机器部署,不要和nodemanager部署到同一台机器上
  • zookeeper节点数3个
  • zookeeper数据最好存储到单独的磁盘上,不要和数据盘用同一个盘

spark

  • 计算节点尽快能接近数据节点
  • 配置多个磁盘作为spark的本地目录,最好能和datanode的数据目录用同一个,spark-on-yarn由yarn.nodemanager.local-dirs确定

kafka

  • kafka最好单独部署一个集群,如果机器资源不够也需要有单独的磁盘
  • kafka尽可能部署到负载比较小的机器上

其它优化

shuffle相关参数调优

hdfs小文件合并

任务隔离

大数据集群的规模是随着业务发展逐渐增大,导致集群机器配置不一致,主要是有一批配置低的机器最初用来跑MR任务,一批配置高的机器使用跑spark任务,最好不同的任务能提交到指定的机器运行,所以引入了对NodeManager打标签。将配置低的机器打标签为MR任务,配置高分为spark离线任务和spark Streaming任务。同时对队列也设置相应的标签。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44893.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国家数据局 VS 省级大数据局

来源:数据学堂 全文共 10672 个字,建议阅读 16 分钟 欢迎关注“谈数据”同名微信公众号,更多精彩等您来! 省级大数据局是新一轮机构改革中许多省份的“自选动作”,对完善地方政府数据治理体系意义重大。研究发现&am…

大数据平台功能

一 前言 计算机设备和信息数据的相互融合,对各个行业来说都是一次非常大的进步,已经渗入到工业、农业、商业、军事等领域,同时其大数据平台软件也得到一定发展。就目前来看,各类编程语言的发展、人工智能相关算法的应用、大数据时…

1028万!重庆统计局招标大数据平台,开建统计数据中台

2022年9月15日,重庆市统计大数据平台(CQS22C01140)发布中标(成交)结果公告,如下: 项目编号 CQS22C01140 项目名称 重庆市统计大数据平台 服务范围 大数据已成为新型生产要素和国家基础性战略资源,积极发挥政…

B2G最全的国内政务数据开放平台大汇总 数据驱动国计民生

数据是国家的战略性资源。政府部门在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据,这些数据是社会的公共资源。 在保障国家秘密、商业秘密和个人隐私的前提下,如果将政府数据最大限度地开放出来,让社会进行充分融合和利用&a…

【大数据】中国省级大数据管理局

当下各级政府正在如火如荼地推进的智慧城市建设,大数据无疑更是关键中的关键。然而,从各地智慧城市、数字政府建设的具体实践来看,最大痛点和瓶颈也正是数据的匮乏。各地大数据匮乏的核心症结在于各级部门未能充分认识到大数据的重要性&#…

AllData一站式大数据平台【二】

1、机器学习算法平台ai-studio MLOPS-基于机器学习算法平台建设AllData MLOPS平台 2、AI算法应用市场ai-tasks 数据平台的人工智能引擎:AI算法驱动1、数据准备2、模型开发支持自定义与可视化模型开发3、训练和超参数调节4、模型服务5、模型调整和理解6、模型监控…

大数据_数据中台_数据汇聚联通

目录 一、数据采集、汇聚的方法和工具 1、线上行为采集 2、线下行为采集 3、互联网数据采集 4、内部数据汇聚 二、数据交换产品 1、数据源管理 2、离线数据交换 3、实时数据交换 三、数据存储的选择 1、在线与离线 2、OLTP与OLAP 3、存储技术 构建企业级的数据中台…

【企业微信】JS-SDK引入实现向企微群聊发送图文消息

一、需求 企业自建应用商城需要实现分享商品链接到群聊。&#xff08;标题/描述/图片/点击跳转商品链接H5详情页&#xff09;&#xff0c;API&#xff08;打开已有群聊并发送信息&#xff09;可实现企微文档 二、引入Js-sdk 方式一&#xff1a;链接引入 <script src"…

行业报告 | AI 赋能,人形机器人产业提速,把握产业链受益机会(上)

文 | BFT机器人 01 核心观点 核心观点: 人形机器人产业发展仍处于 0-1 阶段&#xff0c;当前行业投资逻辑偏向事件驱动型的主题投资&#xff0c;但可落地服务场景的人形机器人成长空间非常广阔&#xff0c;值得长期关注。本文将围绕以下热点问题作出讨论: D当前节点人形机器人产…

一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”&#xff0c;OpenAI护城河似乎一下子荡然无存&#xff0c;整个大模型市场格局面临巨变。据媒体报道&#xff0c;在以往&#xff0c;中国大模型公司可以靠商业授权赚钱利润&#xff0c;随着Llama 2开始允许商用&#xff0c…

寻寻觅觅,彩电厂商能否“智”取未来?

彩电业&#xff0c;还能不能好&#xff1f; 电视行业的发展&#xff0c;一直伴随着漫长的价格战。从黑白到彩电再到超大屏&#xff0c;从CRT到平板再到液晶&#xff0c;在每一轮技术革新之后&#xff0c;市场总会经历从落到起&#xff0c;从起到落的循环&#xff0c;然后陷入价…

Visualglm-6b

【官方教程】VisualGLM技术讲解_哔哩哔哩_bilibili报告文件下载: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd8wpc 提取码: 8wpcVisualGLM-6B 是一个开源的&#xff0c;支持图像、中文和英文的多模态对话语言模型&#xff0c;语言模型基于ChatGLM-6B&#xff0c;具有…

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

7月最新大模型排名&#xff01;3700道保密试题、20个大模型参与评测&#xff5c;SuperCLUE CLUE中文语言理解测评基准 中文通用大模型综合性评测基准SuperCLUE 2023年7月榜单 7月25日&#xff0c;SuperCLUE发布大模型7月榜单。 SuperCLUE: A Benchmark for Foundation Mo…

2022春招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择&#xff0c;决定从杭州“搬迁”到了上海&#xff0c;一切安顿好之后&#xff0c;终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦&#xff0c;希望对同样有跳槽需求的同行小伙伴们有些小小的帮助。 【注】文末提供面试技术交流群…

【算法岗面试】某小厂V面试题

文章目录 一、关于Bert模型以及蒸馏的问题&#xff1a;1.1 蒸馏的思想&#xff0c;为什么要蒸馏&#xff1f;1.2 蒸馏中的学生模型是&#xff1f;1.3 有哪些蒸馏方式?1.4 Bert 的输入是什么&#xff1f;1.5 字向量的 embedding 怎么训练得到的&#xff1f; 二、关于 transform…

2022秋招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

算法岗面试题目汇总

目录 阿里巴巴一面 阿里巴巴二面 oppo一面 笨鸟科技 京东二面&#xff1a; 算法题&#xff1a; 阿里巴巴一面 特征值怎么去除掉行业和市值的影响&#xff1f;去残差是什么意思&#xff1f; cnn的那个项目数据处理是怎么做的&#xff1f; 卷积神经网络预测股票走势项目内…

大数据岗位和算法岗,面试官最爱问的10大问题

目录 1. 什么是数据结构&#xff1f; 2. 描述数据结构的类型&#xff1f; 3. 什么是线性数据结构&#xff1f;举例说明 4. 数据结构有哪些应用&#xff1f; 5、文件结构和存储结构有什么区别&#xff1f; 6、什么是多维数组&#xff1f; 7. 什么是链表数据结构&#xf…

量化岗经典面试题——赛马

本文源自&#xff1a;微信公众号QuantJob https://mp.weixin.qq.com/s/pO_6ZGKzCcNr2IJN7fH74A 有25匹马&#xff0c;每匹都以不同于其它马的恒定速度奔跑。由于赛道只有5条&#xff0c;每场比赛最多可有5匹马。如果你需要找3匹跑得最快的马&#xff0c;需要多少场比赛才能找…