论大数据服务化发展史

文章目录

  • 引言
  • 正文
  • 单一指令阶段
  • 脚本化阶段
  • 用户界面操作阶段
  • 大模型+AIOPS阶段
  • 总结

引言

一直想写一篇服务化相关的文章,那就别犹豫了现在就开始吧

正文

作为大数据基础架构工程师,业界也笑称“运维Boy”,日常工作就是在各个机器上部署以及维护服务,例如部署Hadoop、Kafka、Pulsar这些等等,用于给公司业务提供数据导入、存储、分析服务。这些事情在经历了十多年已经演变出以下几个阶段,今天就以唠嗑的形式进行展开说说
在这里插入图片描述

单一指令阶段

这是最原始的阶段,在机器/操作系统上的所有事情都要由大数据SRE通过一条条执行进行操作,举个简单的例子。当公司需要你新搭建数仓时,也就相当于要搭建以下三层

  • 存储层:搭建Hadoop、Hive、HBase集群等,这是用于将所有公司数据包括用户数据的存储
  • 导入层:搭建FlinkCDC、Flume、Kafka/Pulsar等数据导入服务,这是用于将数据导入到存储层
  • 分析层:搭建Doris、ClickHouse、Presto、SpringBoot等服务,这是用于将存储层的数据按照预期的想法进行计算出最终可直接用于分析的结果,例如庞大的公司昨天赚了多少钱?分别是各个城市赚了多少?相比上个月多了多少等等

换算到真正要做的事情,那大致流程就是,先申请机器(物理机或者云服务)、初始化环境例如搭建SSH等等,然后下载各个组件的安装包上传到对应的机器,针对对应的组件进行配置修改以及各个组件启动的前置动作,最后再根据具体的启动指令来挨个启动机器等等。如果机器只有几台,你不会觉得什么,但是如果有三四十台的时候,你会觉得手软以及抱怨。大致抱怨以下几点

  • 工作量大:要靠人工登陆每台机器重复执行那么多的步骤
  • 容易出错:这类动作重复多次容易出现人工操作失误导致影响
  • 体验差:这类事情做多了对于SRE来说是煎熬,并不会有太多技术上的成长,最后沦为只会执行这几个指令的“工具人”

脚本化阶段

人类历史发展本质上就是对资源的利用,为了更合理的利用资源因此衍生出了各种革命,例如第一次工业革命通过蒸汽替代人力,第二次工业革命通过各种能源燃料更大幅代替人力,第三次也就是最近几十年的互联网革命,本质上也是省资源避免大量的重复劳动。

上面这段话想表达的是, 互联网行业可以说90%以上的重复劳动都是没啥意义的,就相当于在一辆豪华的汽车🚗内是有人在里面蹬三轮,这不是很滑稽吗。因此如果你发现自己的工作中还存在大量 单一指令阶段的事情,那么务必要想办法进行脚本化。脚本本质上就是一本操作指南,给“操作系统”看的,举个例子如果你是一个果园园主,你雇了30个人进行水果采摘,你肯定不会去给每一个人讲解如何识别水果、水果具体的采摘的流程是怎么样子的,要用手托住果子在用剪刀轻轻减哪个部位之类的话。因为这样不仅耽误大量你的时间,并且每年水果成熟时你都要重复一遍,因此更高效的方式是花上一天时间写一本“水果采摘指南”,后续的每一个采摘的人直接看下指南即可知道该怎么做,这个指南就是脚本。

那么工作中也是一样,可以将下载组件包、解压包、更改配置、服务启动/重启等操作直接封装成脚本,然后将可能会变的东西作为参数传进来,这样的话无论是针对多少台机器进行操作,你只需要在这些机器上执行一下脚本即可。在这个基础上还能做二次优化,就是在所有机器配置SSH后,你只需要在执行脚本时传入要做变更机器的标识例如IP,执行的机器就会自动将这些“逻辑”分发到各个机器上进行执行,这样的操作方式是不是更加舒服?或者说这是不是才是一个相对成熟的流程?

那么此时大家觉得这个流程是否还存在问题?可以思考🤔一会再继续往下看。其实也很简单,就是对开发人员的专业能力是比较高的,换成是上面的例子来解释就是,果园园主不想花时间去学习写“水果采摘指南”,或者说所有果园园主单独写指南从上帝视角看本质上就是资源的浪费,要怎么解决这个问题呢。也不复杂,直接让上帝提供几份“水果采摘指南”,各个果园园主只需要选择适合自己的直接用岂不美哉?那么就引出了用户界面操作阶段

用户界面操作阶段

在读这篇文章的你相信对网站操作也不陌生了,例如咱们不需要知道网络底层是怎么操作,代码是怎么编写的,就能完成多人跨网络、跨时空的沟通,这些本质上要归功于用户界面操作阶段, 因为这些东西已经包装成了几个按钮。大数据SRE的工作内容其实也是可以作成几个按钮来大幅提升效率的,例如要在某些服务上搭建数仓,那么只需要在Web页面上勾选要部署服务的机器标识例如IP,然后选择想要安装的服务,然后点击确定即可完成安装,然后安装完后在Web页面就有这个服务的专门管理页面,例如服务启动、配置更改、使用情况监控等等,是不是一下子觉得高级了起来?

更重要的是,你发现甚至你都不用掌握过多的SRE的知识也能完成这份工作?并且即便后续在更大的场景例如要在几百台、几千台机器进行部署维护你也不怕了?这就是互联网的魅力,所以说互联网革命也是人类历史上对资源利用的一大进步,如果咱们深处互联网时代,甚至从事互联网工作,而不具备互联网思维,那岂不是一种倒退吗或者形象点就是一个远古人生活在21世纪还在钻木取火,这就挺奇怪的。

在这个阶段是否还有能改进的地方,接下来是我的设想或者是YY时间也就是 大模型+AIOPS阶段

大模型+AIOPS阶段

最近几年随着大模型的爆发,有不少企业以及个人已经用它来提升和改进自己的工作效率。那么以后是否还有这样的一种模式,就是我们只要跟机器人,或者说是一位“虚拟同事”发送 给我搭建一套数仓指令是否就可以了?它会自动接续这条自然语言的语意,咱们进行各个流程的操作,在一些关键流程我们人类只需要进行审批确认没问题即可,剩下的事情交给机器去做就够了。

在这个基础上,运维人员也不用天天盯着监控告警了,我们可以将历史发生过的事故数据以及专业知识喂人工智能,并训练它针对具体事情该做出怎样的决策,举个简单的例子比如某台机器的CPU过高,那么自动排查问题并进行修复,最后再将排查的结果以及修复的流程发给人类即可,这岂不美哉?而人类过多的做这些事情本质上还是一种资源的浪费,因为存在过多过多重复劳动、过多没有太多价值的事情,如果一个人的一辈子都在做这种事情,那本质上我们还是几万年前那个吭哧吭哧钻木头🪵的原始人,一切的一切都从来没有变过。

总结

以上是我对大数据服务化粗糙的认知,输出出来是希望能引发一些思考🤔,当然写的过程中也引发了我自己的不少思考。这个过程中虽然存在一点批判,但绝不是针对具体的个人,而是针对目前常见的一些流程设计,单纯觉得有些设计可以变得更“美”一些。如果对服务化感兴趣的伙伴可以去针对性的学习专业的知识来改善工作内容,本篇文章仅仅是唠嗑,存在很多瑕疵,但我始终相信,多人沟通讨论可以构建设计一个更加完美的设计,因此如果能引发其他人的共鸣或者不同想法💡其实都是好事。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/304737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式锁-redission

5、分布式锁-redission 5.1 分布式锁-redission功能介绍 基于setnx实现的分布式锁存在下面的问题: 重入问题:重入问题是指 获得锁的线程可以再次进入到相同的锁的代码块中,可重入锁的意义在于防止死锁,比如HashTable这样的代码…

python基础——MySQL

文章目录 一、引入pymysql二、使用三、执行非查询性质的SQL语句四、执行查询性质的SQL语句五、数据插入 一、引入pymysql 除了使用图形化工具以外,我们也可以使用编程语言来执行SQL从而操作数据库。 在Python中,使用第三方库:pymysql来完成对MySQL数据库…

【知识扫盲】DHCP Server扫盲与作用

DHCP Server在实际应用中非常广泛,它适用于各种规模的网络环境,从小型办公室到大型企业网络,都能发挥重要作用。以下是一些具体的使用场景,用通俗易懂的语言进行解释。 1. 办公室网络环境 在一家公司的办公室里,通常会…

【机器学习算法】决策树和随机森林在计算机视觉中的应用

前言 决策树和随机森林在计算机视觉中有着广泛的应用。决策树作为一种简单而强大的分类模型,可以用于图像分类、目标检测、特征提取等任务。它能够根据图像的特征逐层进行判断和分类,从而实现对图像数据的智能分析和理解。随机森林作为一种集成学习方法&…

如何在Ubuntu系统使用docker部署DbGate容器并发布至公网可访问

文章目录 1. 安装Docker2. 使用Docker拉取DbGate镜像3. 创建并启动DbGate容器4. 本地连接测试5. 公网远程访问本地DbGate容器5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定公网地址远程访问 本文主要介绍如何在Linux Ubuntu系统中使用Docker部署DbGate数据库管理工…

算法——链表(1)

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 此篇文章与大家分享链表专题的第一部分 如果有不足的或者错误的请您指出! 1.链表常用技巧总结 1.1引入虚拟头结点 在力扣上,基本提供的链表题目都是"无头的",但是针对无头链表,我们最…

使用Android完成案例教学

目录 题目:完成在Android平台下2个玩家分别利用2个手机连接在同一局域网下通过滑动摇杆分别使红飞机和黄飞机移动的开发。(全代码解析) 题目:完成在Android平台下2个玩家分别利用2个手机连接在同一局域网下通过滑动摇杆分别使红飞…

c++之旅第九弹——模版

大家好啊,这里是c之旅第九弹,跟随我的步伐来开始这一篇的学习吧! 如果有知识性错误,欢迎各位指正!!一起加油!! 创作不易,希望大家多多支持哦! 一.模版的概念…

ORB-SLAM3整体流程详解

0. 简介 在之前,作者曾经转过一篇《一文详解ORB-SLAM3》的文章。那篇文章中提到了ORB-SLAM3是一个支持视觉、视觉加惯导、混合地图的SLAM系统,可以在单目,双目和RGB-D相机上利用针孔或者鱼眼模型运行。与ORB-SLAM2相比,ORB-SLAM3…

qiankun框架中基于actions机制实现主应用与子应用间的双向通信

文章目录 一、原理1、setGlobalState:2、onGlobalStateChange:3、offGlobalStateChange:4、图解 二、示例主应用1、在父应用中使用initGlobalState设置全局状态actions并导出供其他组件使用。2、在main.js中引入actions实例并在注册子应用时通…

Ubuntu20.04安装ROS过程记录以及常见报错处理

官网安装步骤如下: http://wiki.ros.org/cn/noetic/Installation/Ubuntu#A.2BXwBZy1uJiMU- 第一个:添加ROS软件源 sudo sh -c echo "deb http://packages.ros.org/ros/ubuntu $(lsb_release -sc) main" > /etc/apt/sources.list.d/ros-la…

中位数和众数-第12届蓝桥杯选拔赛Python真题精选

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第49讲。 中位数和众数&…

逆向入门:为CTF国赛而战day05day06

用的汉化版的 昨天做了一道题目,然后下了那个apkide改之理,就没了 今天再来一题。 我发现:ascii表要好好学。这里#号是35就被写到题目里去了。 CTF reverse 不一样的flag_ctf reverse flag.bin-CSDN博客

linux下如何查看防火墙状态

systemctl status firewalld (看防火墙进程) cat /etc/selinux/config (看是否启用linux安全模式)

最新版两款不同版SEO超级外链工具PHP源码

可根据个人感觉喜好自行任意选择不同版本使用(版V1或版V2) 请将zip文件全部解压缩即可访问! 源码全部开源,支持上传二级目录访问 #已更新增加大量高质量外链(若需要增加修改其他外链请打开txt文件) #修…

设计模式学习笔记 - 设计模式与范式 -行为型:9.迭代器模式(上):相比直接遍历集合数据,使用迭代器模式有哪些优势?

概述 上篇文章,我们学习了状态模式。状态模式是状态机的一种实现方式。它通过将事件触发的状态转移和动作执行,拆分到不同的状态类中,以此来避免状态机类中的分支判断逻辑,应对状态机类代码的复杂性。 本章,学习另外…

day02 VS Code开发单片机

VS Code开发单片机 1.1 安装 MinGW-w64 1)MinGW-w64介绍 VS Code 用于编辑 C 代码,我们还需要 C 编译器来运行 C 代码,所以安装 VS Code之前我们需要先安装 C 编译器。这里我们使用 MinGW-w64(Minimalist GNU for Windows 64-bit)。 MinGW-w64 是一个用于Windows操作系…

B站自研新一代视频编码器 BILIAV1

1. AV1 视频编码标准介绍 AV1是开放媒体联盟(AOM, Alliance for Open Media)开发的第一代开放,免版税的视频编码标准。AV1于 2018 年 3 月定稿,相同画质下,码率比 H.265/HEVC 低 20% 左右。经过 Google、N…

【打印SQL执行日志】⭐️Mybatis-Plus通过配置在控制台打印执行日志

目录 前言 一、Mybatis-Plus 开启日志的方式 二、测试 三、日志分析 章末 前言 小伙伴们大家好,相信大家平时在处理问题时都有各自的方式,最常用以及最好用的感觉还是断点调试,但是涉及到操作数据库的执行时,默认的话在控制台…

idea中输入法被锁定如何清除

今天遇到一个问题?idea中输入法被锁定了,无论怎么切换输入法,切换中英文,在idea中输出的均为英文内容,该如何解决呢?(idea官网:JetBrains: 软件开发者和团队的必备工具) …