Spark介绍

Spark简介

Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等.
Spark是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用内存并行计算框架,用于构建大型的、低延迟的数据分析应用程序.
Spark使用强大的Scala语言开发,它还提供了对Scala、Python、Java(支持Java 8)和R语言的支持.
Apache顶级项目,项目主页:http://spark.apache.org

Spark历史

2009年由Berkeley's AMPLab开始编写最初的源代码.
2010年开放源代码.
2013年6月进入Apache孵化器项目.
2014年2月成为Apache的顶级项目(8个月时间).
2014年5月底Spark1.0.0发布,打破Hadoop保持的基准排序纪录.
2014年12月Spark1.2.0发布.
2015年11月Spark1.5.2发布.
2016年1月Spark1.6发布.
2016年12月Spark2.1发布......

Spark优势

通用性强:   Spark提供了完整而强大的工具,包括SQL查询、流式计算、机器学习和图算法组件.
易用性好:   支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程. 
运行速度快: 使用DAG(全称 Directed Acyclic Graph,有向无环图)执行引擎以支持循环数据流与内存计算(当然也有部分计算基于磁盘,比如shuffle).
随处运行:   可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源.

在这里插入图片描述

Spark生态

在这里插入图片描述

spark core
实现了spark的基本功能、包括任务调度、内存管理、错误恢复与存储系统交互等模块;spark core中还包含了对弹性分布式数据集(resileent distributed dataset)的定义.spark sql
是spark用来操作结构化数据的程序,通过SPARK SQL,我们可以使用SQL或者HIVE(HQL)来查询数据,支持多种数据源,比如HIVE表就是JSON等;
除了提供SQL查询接口,还支持将SQL和传统的RDD结合,开发者可以在一个应用中同时使用SQL和编程的方式(API)进行数据的查询分析,SPARK SQL是在1.0中被引入的.Spark Streaming
是Spark提供的对实时数据进行流式计算的组件,比如网页服务器日志或者是消息队列都是数据流.MLLib
是Spark中提供的机器学习功能的程序库,包括很多机器学习算法,比如分类、回归、聚类、协同过滤等.GraphX
是用于图计算的比如社交网络的朋友关系图.

Spark应用

Yahoo将Spark用在Audience Expansion中的应用,进行点击预测和及时查询等.
淘宝技术团队使用了Spark来解决多次迭代的机器学习算法、高计算复杂度的算法等,应用于内容推荐、社区发现等.
腾讯大数据精准推荐借助Spark快速迭代的优势,实现了在'数据实时采集、算法实时训练、系统实时预测'的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上.
优酷土豆将Spark应用于视频推荐(图计算)、广告业务,主要实现机器学习、图计算等迭代计算.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/330710.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站流量统计分析

网站流量统计分析:洞悉用户行为的关键 在当今数字化时代,网站流量统计分析已经成为了企业成功的关键因素之一。通过深入了解用户的行为和偏好,企业可以更好地调整其营销策略、优化用户体验以及提高转化率。本文将探讨网站流量统计分析的重要性…

13.js对象

定义 一种复杂数据类型,是无序的(不保留键的插入顺序),以键值对({key:value})形式存放的数据集合 对象的创建 (1)字面量创建 var 对象名{ } (2)内部构造函数创建 v…

模板编译之入口分析

Vue 是一个渐进式 JavaScript 框架,提供了简单易用的模板语法,帮助开发者以声明式的方式构建用户界面。Vue 的模板编译原理是其核心之一,它将模板字符串编译成渲染函数,并在运行时高效地更新 DOM。本文将深入探讨 Vue 模板编译的原…

Logstash笔记

目录​​​​​​​ 一、简介 二、单个输入和输出插件 三、多个输入和输出插件 四、pipeline结构 五、队列和数据弹性 六、内存队列 七、持久化队列 八、死信队列 (DLQ) 九、输入插件 1)、beats 2)、dead_letter_queue 3)、elasticsearch 4)、file 5)、redis 十、…

【研发日记】嵌入式处理器技能解锁(一)——多任务异步执行调度的三种方法

文章目录 前言 Timer中断调度 Event中断调度 StateFlow调度 分析和应用 总结 参考资料 前言 近期在一些嵌入式系统开发项目中,在使用嵌入式处理器时,遇到了挺多费时费力的事情。所以利用晚上和周末时间,在这些方面深入研究了一下&…

2024年学浪视频怎么下载到手机相册

随着2024年的到来,学浪平台继续为广大学习者提供优质的在线教育资源。然而,如何将这些宝贵的视频内容下载到手机相册,方便随时离线观看呢?无论您是想在旅途中学习,还是希望在没有网络的情况下复习课程,本文…

selenium安装出错

selenium安装步骤(法1): 安装失败法1 第一次实验,失败 又试了一次,失败 安装法2-失败: ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。: c:\\programdata\\a…

YoloV9实战与改进——专栏目录

摘要 🔥🚀本专栏教你如何嗨翻Yolov9!🚀🔥 🚀炸裂升级:嗨,小伙伴们!这里有一波Yolov9的升级大招,带你领略最新论文的精华!💥 什么注意…

【EXCEL_VBA_基础知识】08 在VBA中使用公式 ※

课程来源:王佩丰老师的《王佩丰学VBA视频教程》,如有侵权,请联系删除! 目录 1. 函数在哪找? 1.1 工作表函数(Application.WorksheetFunction.func) 1.2 VBA函数 2. 常用VBA变量 3. 函数应用…

乡村振兴与乡村文化传承创新:保护和传承乡村文化,推动乡村文化创新发展,打造具有文化魅力的美丽乡村

一、引言 在当代中国,乡村振兴已成为国家发展的重要战略之一。乡村不仅是自然资源的富集地,更是中华优秀传统文化的发源地。保护和传承乡村文化,推动乡村文化创新发展,对于打造具有文化魅力的美丽乡村,实现乡村全面振…

从需求角度介绍PasteSpider(K8S平替部署工具适合于任何开发语言)

你是否被K8S的强大而吸引,我相信一部分人是被那复杂的配置和各种专业知识而劝退,应该还有一部分人是因为K8S太吃资源而放手! 这里介绍一款平替工具PasteSpider,PasteSpider是一款使用c#编写的linux容器部署工具(使用PasteSpider和…

基于Docker部署GitLab环境搭建

文件在D:\E\学习文档子目录压缩\专项进阶,如ngnix,webservice,linux,redis等\docker 建议虚拟机内存2G以上 1.下载镜像文件 docker pull beginor/gitlab-ce:11.0.1-ce.0 注意:一定要配置阿里云的加速镜像 创建GitLab 的配置 (etc) 、 日志 (log) 、数…

Eclipse下载安装教程(包含JDK安装)【保姆级教学】【2024.4已更新】

目录 文章最后附下载链接 第一步:下载Eclipse,并安装 第二步:下载JDK,并安装 第三步:Java运行环境配置 安装Eclipse必须同时安装JDK !!! 文章最后附下载链接 第一步&#xf…

上位机图像处理和嵌入式模块部署(mcu常见三种烧录方法)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 和单纯的windows上位机开发、嵌入式linux开发不一样,mcu的开发,是需要通过烧录器把编译好的镜像烧入到开发板里面的。这是很…

Unreal Engine5 Landscape地形材质无法显示加载

UE5系列文章目录 文章目录 UE5系列文章目录前言一、解决办法 前言 在使用ue5做地形编辑的时候,明明刚才就保存的Landscape地形完全消失不见,或者是地形的材质不见了。重新打开UE5发现有时候能解决,但大多数时候还是没有解决,我下…

QT5.15.2及以上版本安装

更新时间:2024-05-20 安装qt5.15以上版本 系统:ubuntu20.04.06 本文安装:linux-5.15.2 下载安装 # 安装编译套件g sudo apt-get install build-essential #安装OpenGL sudo apt-get install libgl1-mesa-dev# 下载qt安装器 https://downl…

Java之SpringSecurity使用心得

文章目录 一、内存身份认证二、jdbc身份认证三、自定义登录页 一、内存身份认证 添加pom依赖 <!-- Spring Security提供的安全管理依赖启动器 --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-s…

必示科技参与智能运维国家标准预研线下编写会议并做主题分享

近日&#xff0c;《信息技术服务 智能运维 第3部分&#xff1a;算法治理》&#xff08;拟定名&#xff09;国家标准预研阶段第一次编写工作会议在杭州举行。本次会议由浙商证券承办。 此次编写有来自银行、证券、保险、通信、高校研究机构、互联网以及技术方等29家单位&#xf…

YoloV8改进策略:蒸馏改进|CWDLoss|使用蒸馏模型实现YoloV8无损涨点|特征蒸馏

摘要 在本文中&#xff0c;我们成功应用蒸馏策略以实现YoloV8小模型的无损性能提升。我们采用了CWDLoss作为蒸馏方法的核心&#xff0c;通过对比在线和离线两种蒸馏方式&#xff0c;我们发现离线蒸馏在效果上更为出色。因此&#xff0c;为了方便广大读者和研究者应用&#xff…

1076: 判断给定有向图是否存在回路

解法&#xff1a; 直观的方法用邻接矩阵dfs,这是错误的代码 #include<iostream> #include<vector> using namespace std; int arr[100][100]; int f 0; void dfs(vector<int>& a, int u) {a[u] 1;for (int i 0; i < a.size(); i) {if (arr[u][i]…