大数据开发--01.初步认识了解

一.环境准备

1.使用虚拟机构建至少三台linux服务器

2.使用公有云来部署服务器

 

 

 二.大数据相关概念

大数据是指处理和分析大规模数据集的一系列技术、工具和方法。这些数据集通常涉及海量的数据,包括结构化数据(如关系型数据库中的表格)以及非结构化的数据(如图像、音频或视频文件等)。

大数据的特点之一是规模巨大,可以达到数百TBPB级别。另一个特点是多样性,不同类型的数据可能需要不同的处理和分析方法。此外,大数据还具有高速增长的趋势,随着互联网的普及和社会化媒体的发展,大量的新数据源不断涌现。

为了有效地处理和分析这些大规模的数据集,大数据技术提供了一系列解决方案。其中一些常见的技术包括:

  1. 分布式存储系统:通过将数据分散存储在多个物理位置上,可以提高系统的可靠性、可扩展性和性能。

  2. 数据库管理系统(DBMS):用于组织和管理结构化数据的软件工具,如关系型数据库或NoSQL数据库。

  3. 数据挖掘技术:使用统计学、机器学习等方法从大规模数据中提取有价值的信息和模式。

  4. 实时分析:通过实时处理和分析大量流式数据来支持决策制定和业务运营。

  5. 云计算平台:提供弹性计算资源,可以根据需求动态扩展或缩减系统规模,以满足大数据的处理需求。

   三V

  • Volume(大量):大数据通常指的是数据量非常庞大,传统数据库管理系统无法有效处理的数据集合。随着互联网的发展和信息化程度的提高,大数据集合的规模越来越大,从几TB到PB、甚至EB级别的数据都很常见。

  • Variety(多样性):大数据来源多样,包括结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML、JSON格式的数据)和非结构化数据(如文本、音频、视频等)。这些不同类型的数据需要以不同的方式来进行处理和分析。

  • Velocity(高速度):大数据集的数据产生速度非常快,需要实时或近实时地对数据进行处理和分析。例如,社交媒体平台上的用户生成的数据、传感器产生的数据等都具有高速度的特点。

大数据技术被广泛应用于各个领域,如金融、医疗、零售、制造、互联网等,帮助企业和组织更好地理解市场趋势、用户行为、业务情况等,从而做出更明智的决策和规划。随着大数据技术的不断发展和普及,大数据在推动企业数字化转型和创新方面发挥着越来越重要的作用。

 

 

 

三.分布式存储相关概念

1.概念

分布式存储是一种将数据分散在多个物理位置的计算机系统中的技术。它允许用户从任何地方访问和共享数据,而不必依赖于单一的物理服务器或存储设备。

分布式存储通过使用多台计算机来实现数据冗余高可用性可扩展性。每个节点(即一台计算机)都负责存储一部分数据,并与其他节点进行通信以协调数据的更新和访问。这种架构可以提供更高的性能、更好的容错能力和更大的容量,适用于需要处理大量数据的应用程序或系统。

分布式存储通常使用一些常见的技术来实现,如文件系统复制(例如RAID)、网络文件系统(NFS)、对象存储(如Hadoop Distributed File System)和数据库分片等。这些技术可以提供不同的功能和性能特点,以满足不同应用的需求。

在分布式存储中,数据的一致性是关键问题之一。为了确保数据的正确性和可用性,通常使用一些机制来协调节点之间的通信、同步数据更新并解决冲突等问题。常见的解决方案包括基于Paxos算法的分布式一致性协议(如ZooKeeper)和基于Raft算法的分布式一致性协议(如Hazelcast)等。


 2.特点

分布式存储系统通常具有以下特点:

  1. 冗余和容错:分布式存储系统通常会在多个存储节点上存储数据的多个副本,以确保数据不会丢失。当某个存储节点发生故障时,系统能够继续提供数据访问服务,以保证数据的可靠性。

  2. 负载均衡:分布式存储系统会根据数据量和访问量等因素,将存储任务均匀地分配到不同的存储节点上,以确保系统的性能能够得到最大化的利用。

  3. 可扩展性:分布式存储系统可以根据需求方便地进行横向扩展,增加存储节点以支持更大规模的数据存储和访问需求。

  4. 高性能:通过在多个存储节点上并行地存储和访问数据,分布式存储系统能够提供更快的数据读写速度和响应时间,以满足用户对高性能的需求。

  5. 可用性:由于数据被分散存储在多个节点上,即使其中一部分节点发生故障,系统仍然可以继续提供数据访问服务,以确保数据的可用性。

 

 

 四.大数据常见两种架构

1.去中心化架构

 

 

2.中心化架构

五.分布式计算

分布式计算是一种通过将计算任务分解为多个独立的子任务,并将这些子任务分配到不同的计算机节点上进行并行处理的技术。这种技术可以提高系统的性能和可扩展性,适用于大规模数据集或复杂计算问题。

在分布式计算中,通常使用一个主进程来协调各个子进程之间的通信和资源管理。每个子进程负责执行特定的任务,并将结果返回给主进程。通过将任务分解为多个独立的子任务并进行并行处理,可以大大提高系统的性能和吞吐量。

常见的分布式计算框架包括HadoopSpark等。这些框架提供了一个统一的编程模型和工具链来管理大规模数据集和执行复杂的计算任务。它们支持多种存储格式(如文件系统、数据库)以及各种计算引擎(如MapReduce、Spark),可以根据需求灵活地选择不同的组件组合。

分布式计算在大数据处理中具有广泛的应用场景。例如,它可以用于大规模数据的存储和管理、数据分析和挖掘、机器学习模型训练等任务。通过将这些任务分解为多个并行执行的任务,可以大大提高系统的性能和吞吐量,从而更好地满足用户的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/278505.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WanAndroid(鸿蒙版)开发的第二篇

前言 DevEco Studio版本:4.0.0.600 WanAndroid的API链接:玩Android 开放API-玩Android - wanandroid.com 1、WanAndroid(鸿蒙版)开发的第一篇 2、WanAndroid(鸿蒙版)开发的第二篇 3、WanAndroid(鸿蒙版)开发的第三篇 4、WanAndroid(鸿蒙版)开发的第…

【研发日记】Matlab/Simulink技能解锁(一)——在Simulink编辑窗口Debug

文章目录 前言 时间阈值断点 信号阈值断点 周期步进 Signal Value Lable Data Inspector 分析和应用 总结 前言 近期在一些研发项目中使用Matlab/Simulink时,遇到了挺多费时费力的事情。所以利用晚上和周末时间,在这些方面深入研究了一下&#x…

深入解析JVM加载机制

一、背景 Java代码被编译器变成生成Class字节码,但字节码仅是一个特殊的二进制文件,无法直接使用。因此,都需要放到JVM系统中执行,将Class字节码文件放入到JVM的过程,简称类加载。 二、整体流程 三、阶段逻辑分析 3…

VS2022 配置QT5.9.9

QT安装 下载地址:https://download.qt.io/archive/qt/ 下载安装后进行配置 无法运行 rc.exe 下载VS2022 官网下载 配置 1.扩展-管理扩展-下载Qt Visual Studio Tools 安装 2.安装完成后,打开vs2022,点击扩展,会发现多出了QT VS Tools,点…

NeRF——基于神经辐射场的三维场景重建和理解

概述 三维重建是一种将物理世界中的实体转换为数字模型的计算机技术。其基本概念是通过对物理世界中的物体或场景进行扫描或拍摄,并使用计算机算法将其转换为三维数字模型。抽象意义上的三维模型指的是:形状和外观的组合,并且可以渲染成不同…

unity3d Animal Controller的Animal组件中Speeds,States和modes基础部分理解

Speeds 速度集是修改你可以做的原始动画,增加或减少运动,旋转,或动画速度。它们与 州 所以,当动物在运动状态下,在飞行或游泳时,你可以有不同的速度 如果你的性格动画是 (已到位), 你一定要调整速度 位置 和 旋转 每一种的价值观 速度装置 …否则,它们不会移动或旋转。 每个速…

使用Docker在windows上安装IBM MQ

第一步、安装wsl 详见我另一篇安装wsl文章。 第二步、安装centos 这里推荐两种方式,一种是从微软商城安装,一种是使用提前准备好的镜像安装,详见我另一篇windos下安装centos教程。 第三步、安装windows下的Docker desktop 详见我另一篇wind…

MATLAB的使用(二)

一,算法需求 算法五特性(1)有穷性。有穷性是指算法需在有穷步骤、有穷时间内结束。 (2)确定性。确定性是指每个步骤都有确切的意义,相同的输入有相同的输出。 (3)有效性。有效性是指可通过已实现的运算在有限次完成,或叫可行性。 (4)输入。…

ttkbootstrap界面美化系列之主窗口(二)

一:创建主窗口 在利用ttkbootstrap构建应用程序时,可以用tkinter传统的tk方法来创建主界面,也可以用ttkbootstrap中的window类来创建,下面我们来看看两者的区别 1,传统方法创建主界面 import tkinter as tk import …

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Span)

作为Text组件的子组件,用于显示行内文本的组件。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 该组件从API Version 10开始支持继承父组件Text的属性,即如果子组件未设置…

2.26OS分类,中断(内,外),系统调用,操作系统结构、引导,虚拟机(两类VMM),进程

外核可以申请分配连续的磁盘块以支持频繁的随机访问,其它的方式是采用虚拟存储 分层结构

代码随想录阅读笔记-哈希表【三数之和】

题目 给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a b c 0 ?请你找出所有满足条件且不重复的三元组。 注意: 答案中不可以包含重复的三元组。 示例: 给定数…

OceanBase原理之内存管理

第1章 前言 1.1 多租户管理简介 OceanBase数据库中,应用了单集群多租户的设计,使得一个集群内能够创建多个彼此独立的租户。在OceanBase数据库,租户成为了资源分配的单位,同时还是数据库对象管理和资源管理的基础。 在某种程度…

力扣思路题:最长特殊序列1

int findLUSlength(char * a, char * b){int alenstrlen(a),blenstrlen(b);if (strcmp(a,b)0)return -1;return alen>blen?alen:blen; }

2024蓝桥杯每日一题(DFS)

备战2024年蓝桥杯 -- 每日一题 Python大学A组 试题一:奶牛选美 试题二:树的重心 试题三:大臣的差旅费 试题四:扫雷 试题一:奶牛选美 【题目描述】 听说最近两斑点的奶牛最受欢迎,…

【力扣精选算法100道】——带你了解(数组模拟栈)算法

目录 💻比较含退格的字符串 🎈了解题意 🎈分析题意 🚩栈 🚩数组模拟栈 🎈实现代码 844. 比较含退格的字符串 - 力扣(LeetCode) 💻比较含退格的字符串 &#x1f3…

从历年315曝光案例,看APP隐私合规安全

更多网络安全干货内容:点此获取 ——————— 随着移动互联网新兴技术的发展与普及,移动APP的应用渗透到人们的衣食住行方方面面,衍生出各类消费场景的同时,也带来了无数的个人隐私数据泄露、网络诈骗事件。 历年来&#xff…

PyTorch学习笔记之激活函数篇(二)

文章目录 2、Tanh函数2.1 公式2.2 对应的图像2.3 对应生成图像代码2.4 优点与不足2.5 torch.tanh()函数 2、Tanh函数 2.1 公式 Tanh函数的公式: f ( x ) e x − e − x e x e − x f(x)\frac{e^x-e^{-x}}{e^xe^{-x}} f(x)exe−xex−e−x​ Tanh函数的导函数&am…

【python】学习笔记04-函数

4.1 函数介绍 1. 函数是: 组织好的、可重复使用的、用来实现特定功能的代码段 2. 使用函数的好处是: • 将功能封装在函数内,可供随时随地重复利用 • 提高代码的复用性,减少重复代码,提高开发效率 4.2 函数的定义 …

数据库系统概念(第二周 第二堂)(关系模型)

目录 回顾 关系模型 历史与现状 组成成分 数据结构——关系 关系定义 关系性质 关系和关系模式 难点概念理解 关系属性的分类 一、超码(superkey) 二、候选码(candidate key) 三、主码(primary key&#…