云计算基础
作业(问答题)
(1)总结云计算的特点。
- 透明的云端计算服务
- “无限”多的计算资源,提供强大的计算能力
- 按需分配,弹性伸缩,取用方便,成本低廉
- 资源共享,降低企业IT基础设施建设维护费用
- 应用部署快速而容易
- 软件/应用功能更新方便快捷
- 节省能源,绿色环保
- 集计算技术之大成,具有很强的技术性、工程型特点
(2)分析云计算的优势。
云计算作为现代信息技术的关键组成部分,为企业和个人提供了丰富的服务和解决方案,其优势可以从以下几个方面深入分析:
1.敏捷性与灵活性:
- 快速部署:用户可以即时获取计算资源,无论是服务器、存储空间还是应用程序,几分钟内就能完成资源的创建和部署,极大地提高了业务上线速度。
- 灵活扩展:云计算支持按需分配资源,可以根据业务负载自动扩展或缩减资源,满足业务高峰期和低谷期的需求变化,避免了过度投资和资源闲置。
2.成本节约:
- 按需付费:云计算采用订阅或按使用量计费模式,取代了传统的前期大量资本投入购买硬件和软件的做法,将固定成本转化为可变成本,减轻企业的财务压力。
- 资源利用率提升:通过多租户资源共享和高效的资源调度,云计算平台能够提高服务器、存储和其他基础设施的使用效率,避免了单个组织内部资源的浪费。
3.可扩展性和弹性:
- 动态扩展:云服务提供商的基础设施规模巨大,用户可以无缝地扩大或缩小资源规模,特别是在面对突发流量或项目需求变化时,能够快速应对而不影响服务质量。
- 高可用性:云计算通过冗余和分布式架构确保服务高可用,即使部分硬件故障也不会导致服务中断。
4.安全性与合规性:
- 数据保护:云服务商通常会采用高级的数据加密技术、多重身份验证、防火墙以及其他安全措施,提供可能超越传统本地部署的安全水平。
- 备份与恢复:云服务自带灾难恢复和数据备份机制,有助于企业在发生意外情况时快速恢复业务运作。
5.全球化部署和协作:
- 全球覆盖:云服务允许用户在全球多个地理位置快速部署应用和服务,支持跨国公司实现全球化的业务拓展。
- 即时协作:云环境有利于团队成员之间的远程协作,无论地理位置如何,都能访问同一套资源,协同办公。
6.技术创新和集成:
- 创新技术便捷接入:云计算平台上整合了大量的先进技术,如AI、大数据分析、物联网(IoT)、机器学习等,用户无需自行研发就能直接利用这些服务。
- 开发运维一体化(DevOps):云计算促进了持续集成/持续部署(CI/CD)实践,加速了软件产品的迭代和上市速度。
综上所述,云计算凭借其强大的灵活性、经济高效性、高可用性和安全性等特性,已经成为企业和开发者实施数字化转型、增强竞争力的战略工具。
• 云计算将提供一种新的计算模式和服务模式。云计算将是计算技术的一次重大变革,作为今后计算发展的潮流将大大改变现有的计算模式,对计算技术领域本身以及各个应用行业都将带来重大的影响,提供更多的发展机遇
• 通过云计算人们能获得前所未有的强大计算能力,并能按需分配,按需付费,提升了本地计算能力但使用成本低廉,而且还能大幅削减不断升级软硬件系统的费用
• 通过云计算平台强大的计算和存储能力,人们将能完成传统系统所无法完成的计算和处理,开发出更强大的应用功能,提供更多智能化应用
(3)云计算的关键技术有哪些?
主要包括以下关键技术
- 虚拟化技术:虚拟机的安装、设置、调度分配、使用、 故障检测与失效恢复等
- 云计算构架技术:研究解决适合于云计算的系统软硬 件构架
- 资源调度技术:解决物理或虚拟计算资源的自动化分 配、调度、配置、使用、负载均衡、回收等资源管理
- 并行计算技术:针对大数据或复杂计算应用,解决数 据或计算任务切分和并行计算算法设计问题
- 大数据存储技术:解决大数据的分布存储、共享访问、 数据备份等问题
- 云安全技术:解决云计算系统的访问安全性、数据安 全性(包括数据私密性)等问题
- 云计算应用:面向各个行业的、不同形式的云计算应 用技术和系统
- 此外,还有云计算中心的节能和散热等工程技术问题
(4)什么是大数据?有哪些特征?
什么是大数据
大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集。
大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。
有哪些特征
大数据特征:
(1)数据量大(Volume)
大数据的起始计量单位至少是PB(1 000个TB)、EB(100万个TB)或ZB(10亿个TB)。非结构化数据的超大规模和增长,比结构化数据增长快10~50倍,是传统数据仓库的10~50倍。
(2)类型繁多(Variety)
大数据的类型可以包括网络日志、音频、视频、图片和地理位置信息等,具有异构性和多样性的特点,没有明显的模式,也没有连贯的语法和句义,多类型的数据对数据的处理能力提出了更高的要求。
(3)价值密度低(Value)
大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式做可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器学习算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。
(4)速度快、时效高(Velocity)
处理速度快,时效性要求高,需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。
(5)大数据和云计算有什么关系?
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源。广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务;这种服务可以是IT和软件、互联网相关,也可以是其他服务;它意味着,计算能力也可作为一种商品通过互联网进行流通。
大数据或称海量数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策提供更具参考价值的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
其他知识点
什么是云计算
通过集中式远程计算资源池 ,以按需分配方式 ,为终端用户提供强大而廉价的计算服务能力
- 工业化部署、商业化运作的大规模计算能力
- 一种新的 、可商业化的计算和服务模式
- 计算能力像水电煤气 一样,按需分配使用
- 资源池物理上对用户透明 就像在云端一样
云计算的分类
按云计算服务层面进行分类
- SaaS:Software as a Service 提供各种应用软件服务
- PaaS:Platform as a Service 提供软件支撑平台服务
- IaaS:Infrastructure as a Service 提供接近于裸机(物理机或虚拟机)的计算资源 和基础设施服务
按云计算系统类型进行分类
公用云、私有云、社区云、混合云
大数据的类型
• 结构特征
– 结构化数据
– 非结构化/半结构化数据
• 获取和处理方式
– 动态(流式/增量式/线上)/实时数据
– 静态(线下数据)/非实时数据
• 关联特征
– 无关联/简单关联数据(键值记录型数据)
– 复杂关联数据(图数据)
大数据其他知识点
并行计算基础
作业(问答题)
总结和分析MapReduce工作原理
MapReduce是一种编程模型和相关的实现,用于处理和生成大型数据集。用户指定一个map函数,处理一个键值对,生成一组中间键值对,以及一个redce函数,合并与同一个中间键相关联的所有中间值。
MapReduce的工作原理可以总结为将大规模的数据处理任务分解为多个小的子任务,并在分布式集群上并行执行这些子任务。通过将计算任务分布到多个机器上,MapReduce能够实现高效的数据处理和计算,并具有容错性和可伸缩性。
工作原理包括以下关键步骤和组件:1. Map阶段:在MapReduce中,输入数据被分割成多个小的数据块,并由多个Map任务并行处理。每个Map任务将输入数据块作为输入,并生成一系列键值对作为输出。2. Shuffle阶段:在Shuffle阶段,Map任务的输出被重新分区和排序,以便将具有相同键的键值对发送到同一个Reduce任务。这个阶段的目的是将相同键的数据进行合并和分组。3. Reduce阶段:在Reduce阶段,每个Reduce任务接收到一组具有相同键的键值对,并对它们进行处理。Reduce任务可以对这些数据进行聚合、计算或其他操作,并生成最终的输出结果。
其他知识点
为什么需要并行计算
- 贯穿整个计算机技术发展的核心目标:提高计算性能!
- 提高计算机性能的主要手段:提高处理器字长、提高集成度、流水线等微体系结构技术、提高处理器频率
- 单核处理器性能接近极限:1.VLSI集成度不可能无限制提高 2.处理器的指令级并行度提升接近极限 3.处理器速度和存储器速度差异越来越大 4.功耗和散热大幅增加超过芯片承受能力
- 单处理器向多核并行计算发展成为必然趋势
- 应用领域计算规模和复杂度大幅提高
上述问题的解决方案:并行计算
越来越多的研究和应用领域将需要使用并行计算技术、并行计算技术将对传统计算技术产生革命性的影响
并行计算技术的分类
按数据和指令处理结构:
弗林(Flynn)分类
按并行类型
按存储访问构架
按系统类型
按计算特征
按并行程序设计模型/方法
并行计算的主要技术问题
多核/多处理器网络互连结构技术
存储访问体系结构
分布式数据与文件管理
并行计算任务分解与算法设计
并行程序设计模型和方法
数据同步访问和通信控制
可靠性设计与容错技术
并行计算软件框架平台
系统性能评价和程序并行度评估
MPI并行程序设计
MPI主要功能
用常规语言编程方式,所有节点运行同一个程序,但处理不同的数据
提供点对点通信(Point-point communication)
提供同步通信功能(阻塞通信)
提供异步通信功能(非阻塞通信)
提供节点集合通信(Collective communication)
提供一对多的广播通信
提供多节点计算同步控制
提供对结果的规约(Reduce)计算功能
提供用户自定义的复合数据类型传输
MPI的特点和不足
MPI的特点
- 灵活性好,适合于各种计算密集型的并行计算任务
- 独立于语言的编程规范,可移植性好
- 有很多开放机构或厂商实现并支持
MPI的不足
- 无良好的数据和任务划分支持
- 缺少分布文件系统支持分布数据存储管理
- 通信开销大,当计算问题复杂、节点数量很大时,难以处理,性能大幅下降
- 无节点失效恢复机制,一旦有节点失效,可能导致计算过程无效
- 缺少良好的构架支撑,程序员需要考虑以上所有细节问题,程序设计较为复杂
为什么需要大规模数据并行处理?
为什么需要海量数据并行处理技术?
海量数据及其处理已经成为现实世界的急迫需求
处理数据的能力大幅落后于数据增长,需要寻找有效的数据密集型并行计算方法
海量数据隐含着更准确的事实
为什么需要MapReduce?
并行计算技术和并行程序设计的复杂性
海量数据处理需要有效的并行处理技术
MapReduce是目前面向海量数据处理最为成功的技术