大数据_数据中台_数据汇聚联通

目录

一、数据采集、汇聚的方法和工具

1、线上行为采集

2、线下行为采集

3、互联网数据采集

4、内部数据汇聚

二、数据交换产品

1、数据源管理

2、离线数据交换

3、实时数据交换

三、数据存储的选择

1、在线与离线

2、OLTP与OLAP

3、存储技术


        构建企业级的数据中台第一步就是要实现各个业务系统的数据的互联互通,从物理上打破数据孤岛。主要通过数据汇聚和交换的能力来实现。在面对不同场景,根据数据类型、数据存储要求等进行不同方案的选择。

一、数据采集、汇聚的方法和工具

1、线上行为采集

客户端埋点

全埋点:在终端设备上记录用户所有的操作行为,一般在内嵌SDK做一些初始化配置就可以实现全部收集行为的目的。也叫无痕埋点、无埋点等。优点:不用频繁升级,可获取全量数据 缺点:存储、传输成本高

可视化埋点:在终端设备上记录用户的一部分操作,一般通过服务端配置的方式有选择性的记录与保存。优点:不用频繁发布,成本比全埋点低,比较灵活;缺点:可能未收集到想要的数据,需要重新配置等

代码埋点:根据需求定制每次的手机内容,需要对相应终端模块进行升级。优点:灵活性强、可以单独设计方案,对对存储、带宽等可以做较多优化;缺点:成本高,维护难度大,升级周期长。

服务端埋点

服务端埋点常见的形态有HTTP服务器中的access_log,即所有web服务的日志数据。优点:降低客户端的复杂度、提高信息安全;缺点:无法采集客户端不与服务端交互的信息。

2、线下行为采集

线下数据一般通过硬件采集,如Wifi探测针、摄像头、传感器等。

3、互联网数据采集

这种数据采集方式一般采用网络爬虫,使用一种按照既定规则自动抓取互联网信息的程序或脚本,常用来做网站的自动化测试和行为模拟。常见的网络爬虫框架:Apache Nutch 2、WebMagic、Scrapy、PhpCrawl等,互联网数据采集要遵守相应的安全规范、协议等

4、内部数据汇聚

数据组织形式分类

结构化数据:规则、完整,能够用二维表来表现的数据,常见数据库、excel中的数据。

半机构化数据:数据规则、完整,但不能通过二维表来表现的数据,比如JSON、XML等复杂结构

非机构化数据:数据不规则、不完整,也不能通过二维表来表现,需要复杂的逻辑才能从中提取,如图片、图像、音频等。

   ②数据时效和应用场景分

离线:主要用于用户大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式,通过连接读取数据,读取数据过程中可以有全量、增量的方式,通过统一处理后写入到目标存储。

实时:主要面向低延时的数据应用场景,一般通过增量日志或通知消息的方式实现,业界有canal,flink等方式来实现。

③ETLELT

ETLExtract-Transform-Load,抽取-转换-存储),抽取过程中加工,优点:节省存储,简化后续处理  缺点:数据不全或丢失,处理效率低

ELTExtract-Load-Transform,抽取-存储-转换),抽取完成后进行加工,优点:数据齐全,利用大数据等分布式后期处理效果更高  缺点:存储占用较大,无用数据太多可能会造成效率低

常见数据汇聚工具

Canal:一种通过伪装自己为Mysql等slave,通过监控日志变动的数据推动工具。常作为mysql数据变动的数据收集工具,但其不适合多消费和数据分发场景。

Sqoop:通用的大数据解决方案,在结构化数据和HDFS之间进行数据迁移的工具,基于Hadoop的MapReduce实现。优势:特定场景,数据交换效率高。缺点:定制程度高,不易操作,并且依赖MapReduce,功能扩展性方面受到约束和限制。

DataX:阿里的一套插件式离线数据交换工具,它是基于进程内读写直连的方式。

二、数据交换产品

前面介绍的工具一般都只能满足一些单一的场景或者过程。为了满足复杂的企业数据交换场景,我们需要一个完整的数据交换产品,包含数据源管理、离线数据处理、实时数据处理等等。

1、数据源管理

数据源的管理主要是管理数据所用的存储,用于平台在做数据交换时,可以方便地对外部存储进行相应的管理。

数据源的分类:

关系型数据库:如Oracle、Mysql、SQL Server、Creenplum等

NoSQL存储:如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4j等

网络及MQ:如Kafka、HTTP等

文件系统:如HDFS、FTP、OSS、CSV、TXT、EXCEL等。

大数据相关:如HIVE、Impala、Kudu、MaxCompute等

2、离线数据交换

离线数据交换时针对数据时效要求低、吞吐量大的场景,解决大规模数据的批量迁移问题。

离线数据同步技术的亮点:

①前置稽核

②数据转换

③跨集群数据同步

④全量同步

⑤增量同步

3、实时数据交换

实时数据交换主要负责把数据库、日志爬虫等数据实时接入Kafka、Hive、Oracle等存储中。其两个核心服务为:数据订阅服务(Client Server)、数据消费服务(Consumer Server)。

实时交换架构图示例

三、数据存储的选择

数据的存储我们一般要考虑数据的规模、数据生产方式以及数据的应用方式,通过方面综合考虑。

1、在线与离线

在线存储是指存储设备和所存储的数据时刻保持“在线状态”,可供用户随意读取,满足计算平台对数据访问的速度要求。在线存储一般为磁盘、磁盘阵列、云存储等。

离线存储是为了对在线存储的数据进行备份,已防可能发生的数据灾难。离线存储的数据不会经常被调用。常见的典型产品是硬盘、磁带和光盘等。

2OLTPOLAP

OLTP和OLAP他们并不是竞争或互斥关系,而是相互协作,合作共赢。

OLTP

OLAP

用户

面向操作人员,支持日常操作

面向决策人员,支持管理需求

功能

日常操作处理

面向分析

DB设计

面向应用,事务驱动

面向主题,分析驱动

数据

当前的、最新的、细节的、二维的、分立的

历史的、聚集的、多维的、集成的、统一的

存取

可更新,读/写数十条记录

不可更新的,但周期性刷新,读上百万条记录

工作单位

简单的事务

复杂的查询

DB大小

100MB到GB级

100GB到TB级别

3、存储技术

1、分布式系统

分布式系统常见包括分布式文件系统(存储系统需要多种技术的协同工作,其中文件系统为其提供最底层存储能力的支持)和分布式键值系统(用户存储关系简单的半结构化数据)

2NoSQL数据库

NoSQL的优势,可以支持超大规模数据存储,灵活的数据模型很好支持web2.0应用,具有强大的横向扩展能力等,典型的有:键值数据库、列族数据库、文档数据库和图数据库等,如:HBASE、MongoDB等。

3、云数据库

云数据库是基于云计算技术的一种共享基础架构方法,是部署和虚拟化在云计算环境中的数据库。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44884.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【企业微信】JS-SDK引入实现向企微群聊发送图文消息

一、需求 企业自建应用商城需要实现分享商品链接到群聊。&#xff08;标题/描述/图片/点击跳转商品链接H5详情页&#xff09;&#xff0c;API&#xff08;打开已有群聊并发送信息&#xff09;可实现企微文档 二、引入Js-sdk 方式一&#xff1a;链接引入 <script src"…

行业报告 | AI 赋能,人形机器人产业提速,把握产业链受益机会(上)

文 | BFT机器人 01 核心观点 核心观点: 人形机器人产业发展仍处于 0-1 阶段&#xff0c;当前行业投资逻辑偏向事件驱动型的主题投资&#xff0c;但可落地服务场景的人形机器人成长空间非常广阔&#xff0c;值得长期关注。本文将围绕以下热点问题作出讨论: D当前节点人形机器人产…

一周AIGC丨Meta 发布新一代开源大模型 Llama 2,大模型裁员潮不远了?

人们把Meta发布免费可商用版本 Llama 2比作“安卓时刻”&#xff0c;OpenAI护城河似乎一下子荡然无存&#xff0c;整个大模型市场格局面临巨变。据媒体报道&#xff0c;在以往&#xff0c;中国大模型公司可以靠商业授权赚钱利润&#xff0c;随着Llama 2开始允许商用&#xff0c…

寻寻觅觅,彩电厂商能否“智”取未来?

彩电业&#xff0c;还能不能好&#xff1f; 电视行业的发展&#xff0c;一直伴随着漫长的价格战。从黑白到彩电再到超大屏&#xff0c;从CRT到平板再到液晶&#xff0c;在每一轮技术革新之后&#xff0c;市场总会经历从落到起&#xff0c;从起到落的循环&#xff0c;然后陷入价…

Visualglm-6b

【官方教程】VisualGLM技术讲解_哔哩哔哩_bilibili报告文件下载: https://pan.baidu.com/s/1gfdpyfT6EVnygMPDO_iwvQ?pwd8wpc 提取码: 8wpcVisualGLM-6B 是一个开源的&#xff0c;支持图像、中文和英文的多模态对话语言模型&#xff0c;语言模型基于ChatGLM-6B&#xff0c;具有…

7月最新大模型排名!3700道保密试题、20个大模型参与评测|SuperCLUE

7月最新大模型排名&#xff01;3700道保密试题、20个大模型参与评测&#xff5c;SuperCLUE CLUE中文语言理解测评基准 中文通用大模型综合性评测基准SuperCLUE 2023年7月榜单 7月25日&#xff0c;SuperCLUE发布大模型7月榜单。 SuperCLUE: A Benchmark for Foundation Mo…

2022春招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

新鲜出炉的 NLP 算法岗社招面试经验分享

最近终于做好了选择&#xff0c;决定从杭州“搬迁”到了上海&#xff0c;一切安顿好之后&#xff0c;终于有功夫可以好好整理一下近期面试遇到的一些问题以及自己的一些小经验啦&#xff0c;希望对同样有跳槽需求的同行小伙伴们有些小小的帮助。 【注】文末提供面试技术交流群…

【算法岗面试】某小厂V面试题

文章目录 一、关于Bert模型以及蒸馏的问题&#xff1a;1.1 蒸馏的思想&#xff0c;为什么要蒸馏&#xff1f;1.2 蒸馏中的学生模型是&#xff1f;1.3 有哪些蒸馏方式?1.4 Bert 的输入是什么&#xff1f;1.5 字向量的 embedding 怎么训练得到的&#xff1f; 二、关于 transform…

2022秋招,算法岗最全面试攻略,吃透28个必问题直接速通大厂

算法是比较复杂又基础的学科&#xff0c;每个学编程的人都会学习大量的算法。而根据统计&#xff0c;以下这28个问题是面试中最容易遇到的&#xff0c;本文给出了一些基本答案&#xff0c;供算法方向工程师或对此感兴趣的程序员参考。 除了文章提到的这些题目之外我还整理了很多…

算法岗面试题目汇总

目录 阿里巴巴一面 阿里巴巴二面 oppo一面 笨鸟科技 京东二面&#xff1a; 算法题&#xff1a; 阿里巴巴一面 特征值怎么去除掉行业和市值的影响&#xff1f;去残差是什么意思&#xff1f; cnn的那个项目数据处理是怎么做的&#xff1f; 卷积神经网络预测股票走势项目内…

大数据岗位和算法岗,面试官最爱问的10大问题

目录 1. 什么是数据结构&#xff1f; 2. 描述数据结构的类型&#xff1f; 3. 什么是线性数据结构&#xff1f;举例说明 4. 数据结构有哪些应用&#xff1f; 5、文件结构和存储结构有什么区别&#xff1f; 6、什么是多维数组&#xff1f; 7. 什么是链表数据结构&#xf…

量化岗经典面试题——赛马

本文源自&#xff1a;微信公众号QuantJob https://mp.weixin.qq.com/s/pO_6ZGKzCcNr2IJN7fH74A 有25匹马&#xff0c;每匹都以不同于其它马的恒定速度奔跑。由于赛道只有5条&#xff0c;每场比赛最多可有5匹马。如果你需要找3匹跑得最快的马&#xff0c;需要多少场比赛才能找…

算法岗必须人手一篇顶会?超详细面经:无论文、无实习拿下腾讯CV算法岗

点击上方“迈微AI研习社”&#xff0c;选择“星标★”公众号 重磅干货&#xff0c;第一时间送达 从迈微社友群中了解到&#xff0c;很多社友还是在校学生&#xff0c;并且有好些同学现在面临求职的阶段&#xff0c;特向大家推荐清雨卢同学的历程总结&#xff0c;应该会给大家一…

2019算法岗面试经验汇总

作者&#xff1a;太蔡了来源&#xff1a;牛客网&#xff0c;Jerry的算法和NLP 背景&#xff1a;211本&#xff0c;C9硕&#xff0c;都是非科班。主要投CV的算法岗&#xff0c;无竞赛&#xff0c;无论文&#xff0c;两-三个实验室CV相关项目&#xff0c;一段旷视的暑期实习经历。…

腾讯148道面试题,(程序员必备学习方向)全会拿45Koffer没问题

相信你可能经历过这些&#xff1a; 已经工作两三年了&#xff0c;每个项目都会加班加点全力以赴去完成&#xff0c;薪资增长幅度却不如人意。 听说年后离职的老同事&#xff0c;金三刚拿下高薪offer&#xff0c;年薪直奔50万了。 由于现在的公司接触不到新技术&#xff0c;对自…

九龙证券|地产股突然爆发!李蓓再度公开唱多,北上资金却在减持

李蓓又发声了&#xff0c;继续看好地产股&#xff01; 4月7日&#xff0c;明星私募基金经理李蓓在半夏出资官微发文&#xff0c;就地产职业和地产股出资时机共享了她的最新观念。李蓓以为&#xff0c;地产职业在阅历供应侧变革后&#xff0c;未来在供需层面存在剪刀差&#xff…

金标股份冲刺A股上市:计划募资约6亿元,许光荣为董事长

近日&#xff0c;上海金标文化创意股份有限公司&#xff08;下称“金标股份”&#xff09;递交招股书&#xff0c;准备在深圳证券交易所主板上市。本次冲刺上市&#xff0c;金标股份计划募资5.96亿元&#xff0c;东方证券为其保荐机构。 据招股书介绍&#xff0c;金标股份是一…

股东刚减持,股价却起飞?用Python量化A股解禁数据,利空出尽是利好? | 邢不行

2019年6月11日&#xff0c;宁德时代上市一周年之际&#xff0c;有45%的股票迎来了解禁。 这些由大股东、高管、早期投资者持有的股份&#xff0c;原先无法交易&#xff0c;但从这一天起就可以自由卖出了。 很多人出于对解禁后巨大卖盘的担忧纷纷提前卖出&#xff0c;导致宁德时…

【雅思口语】安娜口语学习记录 Part2

第二部分&#xff1a;主题卡片陈述 在这一部分&#xff0c;考官会递给考生一张主题卡片&#xff0c;卡片上附有问题和相关观点。拿到卡片后&#xff0c;考生有一分钟时间准备&#xff0c;同时可以在提供的草纸上作笔记(不可以拿出考场)。 然后&#xff0c;考生应该就所给的话题…