【Spark】win10配置IDEA、saprk、hadoop和scala

终于,要对并行计算下手了哈哈哈。

一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。
用python调用multiprogress编写的代码,用多线程也要一个多月跑完。
我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。


安装过程见:
spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。

博客园:windows上安装和运行spark scala
Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中

下面采用的是博客园的步骤。先IDEA,再saprk、hadoop、scala。
第二个微信链接,是先scala、hadoop,再spark。都可以

安装jdk

安装intelj IDEA,配置scala插件

wechat文章:2023最新版IntelliJ IDEA安装教程(非常详细)从零基础入门到精通,看完这一篇就够了

安装spark

  • https://archive.apache.org/dist/spark/spark-3.5.0/ 官网下也可以
    这里需要注意的是验证部门,也就是解压完spark文件后,官方提醒要验证一下下载包是否有错。参考下面链接step4
    How to Install Apache Spark on Windows 10:https://phoenixnap.com/kb/install-spark-on-windows-10

在这里插入图片描述

安装hadoop

  • https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.6/hadoop-3.3.6-src.tar.gz
    需要注意的是,带【src.tar.gz】下载解压后的hadoop没有bin文件,要去https://gitcode.net/mirrors/cdarlint/winutils/-/tree/master/hadoop-3.3.5/bin选择版本下载补充。(我不理解为什么)
    3.3.6是最新版本hadoop,但是上面gitcode库中,bin更新到3.3.5,所以注意版本
    https://downloads.apache.org/hadoop/common/hadoop-3.3.5/
  • 另一个方法是在https://downloads.apache.org/hadoop/common/hadoop-3.3.6/,选择【tar.gz】结尾的文件,也就是几百兆的那个,很大的。里面自带bin文件
    具体可见Spark简单介绍,Windows下安装Scala+Hadoop+Spark运行环境,集成到IDEA中 中安装hadoop的
  • 如果在cmd验证时,输入hadoop,显示有一个错误是Error: JAVA_HOME is incorrectly set。解决方法一:
    Error: JAVA_HOME is incorrectly set. Please update F:\hadoop\conf\hadoop-env.cmd解决方法。
    在这里插入图片描述
    环境变量设置java_home办法:JAVA_HOME环境变量的配置(Win10系统)
    随后关掉cmd再重新打开输入hadoop,不会报错了。

安装scala SDK

scala和spark版本对应,看这个链接:https://mvnrepository.com/artifact/org.apache.spark/spark-core
我3.5对应scala的2.12或者2.13。然后去官网下载,配好环境变量就行
https://www.scala-lang.org/download/all.html

安装Maven

我没有装,有需要再来


我的综合版本:
IDE:Intelij IDEA 2023.2.2
spark-3.5.0-bin-hadoop3
hadoop-3.3.6-tar.gz
Scala 2.13.12

验证scala

在IDEA中新建项目。2023版本跟网上的一些之前版本例子不一样,尤其是在【build system】这里,选择红框的。
这样新建的项目中才可以生成新的scala类。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/140270.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python实验2

1、实验题目:个人用户信息注册 模拟用户个人信息注册,需要输入用户个人信息 姓名、性别、年龄、血型、身高、电话 信息,并输出显示。 源代码: print(用户个人信息注册) name input("请输入您的姓名:") sex…

基于微信小程序四六级助手系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言用户微信小程序端的主要功能有:管理员的主要功能有:具体实现截图为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考论文参考源码获取 前言 💗博主介绍:✌全网粉丝10W…

论文阅读_大语言模型_Llama2

英文名称: Llama 2: Open Foundation and Fine-Tuned Chat Models 中文名称: Llama 2:开源的基础模型和微调的聊天模型 文章: http://arxiv.org/abs/2307.09288 代码: https://github.com/facebookresearch/llama 作者: Hugo Touvron 日期: 2023-07-19 引用次数: 11…

Linux下的系统编程——线程同步(十三)

前言: 在多线程编程中,如果多个线程同时访问和修改共享资源,可能会产生竞争条件和数据不一致的问题。同步机制用于协调线程之间的访问和操作,确保数据的正确性和一致性。为了避免多个线程同时访问和操作共享资源导致的问题&#…

云上亚运:所使用的高新技术,你知道吗?

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 公众号:网络豆云计算学堂 座右铭:低头赶路,敬事如仪 个人主页: 网络豆的主页​​​​​ 目录 前言 一.什么是云上亚运会 二.为什么要使用云…

Redis缓存相关问题

目录 缓存穿透 缓存雪崩 缓存击穿 Redis集群方案 主从复制Replication 哨兵sentinel 高可用介绍 Redis sentinel介绍 Redis sentinel使用 配置sentinel 启动sentinel 测试sentinel Redis内置集群cluster Redis cluster介绍 哈希槽方式分配数据 Redis cluster的…

使用ElementUI完成登入注册的跨域请求提高开发效率

🎬 艳艳耶✌️:个人主页 🔥 个人专栏 :《Spring与Mybatis集成整合》​​​​​​​ ⛺️ 生活的理想,为了不断更新自己 ! 目录 ​编辑 1、前言 1.1.什么是ELementUI 2、完成登陆注册前端页面 2.1环境搭建 运行…

八大排序(二)快速排序

一、快速排序的思想 快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序列中的某元素作为基准值,按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右…

MinGW相关错误

1、go编译c报错 cc1.exe: sorry, unimplemented: 64-bit mode not compiled in 参考:BeifangCc go编译c报错 cc1.exe: sorry, unimplemented: 64-bit mode not compiled in 说明当前gcc是32位,无法在当前64位机器上正常工作,需要更新gcc 下载…

2023手把手教授neo4j安装及环境配置

安装包下载: 首先进入Neo4j官网:Neo4j Graph Database & Analytics | Graph Database Management System 在上方选择栏中选择“Products”,在其中选择“Deployment Center”,点击“Download Neo4j to get started” 然后往下…

【Tomcat】Tomcat 运行原理

Tomcat 运行原理 一. Servlet 运行原理1. 接收请求2. 根据请求计算响应3. 返回响应 二. Tomcat 的伪代码1. Tomcat 初始化流程2. Tomcat 处理请求流程3. Servlet 的 service 方法的实现 一. Servlet 运行原理 在 Servlet 的代码中我们并没有写 main 方法, 那么对应的 doGet 代…

ARM Linux DIY(十三)Qt5 移植

前言 板子带有屏幕,那当然要设计一下 GUI,对 Qt5 比较熟悉,那就移植它吧。 移植 Qt5 buildroot 使能 Qt5,这里我们只开启核心功能 gui module --> widgets module 编译 $ make ODIY_V3S/ qt5base编译报错:找不…

Flink TaskManger 内存计算实战

Flink TaskManager内存计算图 计算实例 案例一、假设Task Process内存4GB。 taskmanager.memory.process.size4096m 先排减JVM内存。 JVM Metaspace 固定内存 256mJVM Overhead 固定比例 process * 0.1 4096 * 0.1 410m 得到 Total Flink Memory 4096-256-410 3430m 计…

【线性代数】为什么 AA* = |A|E

A A ∗ 矩阵相乘,刚好是行列式展开的定义 AA*矩阵相乘,刚好是行列式展开的定义 AA∗矩阵相乘,刚好是行列式展开的定义 矩阵提取一个因子 ∣ A ∣ ,所有元素需要除 ∣ A ∣ 矩阵提取一个因子 |A|,所有元素需要除 |A| 矩…

【C/C++笔试练习】——printf在使用%的注意事项、for循环语句的三个条件、运算符优先级、删除公共字符

文章目录 C/C笔试练习1.%符号在printf用作格式说明符的注意事项(1)输出%5.3s(2)判断%中小数点含义 2.for循环语句的三个条件(3)判断循环次数(4)判断循环次数 3.运算符优先级&#xf…

【ACDC数据集】:预处理ACDC心脏3D MRI影像数据集到VOC数据集格式,nii转为jpg,label转为png

【Segment Anything Model】做分割的专栏链接,欢迎来学习。 【博主微信】cvxiaoyixiao 本专栏为公开数据集的预处理,持续更新中。 文章目录 1️⃣ ACDC数据集介绍2️⃣ ACDC数据集样例 3️⃣ 预处理ACDC目标 4️⃣ 处理结果样图 5️⃣ 代码 6️⃣ 划分测…

文件高效批量重命名,轻松重命名不同类型的文件名并隐藏编号

你是否曾经因为文件名混乱而感到困扰?你是否希望有一种方法可以快速、简单地管理你的文件名?如果你的答案是肯定的,那么我们的产品——文件重命名工具,将是你的完美解决方案! 首先我们要进入文件批量改名高手主页面&a…

Sqilte3初步教程

文章目录 安装创建数据库创建和删除表插入行数据 安装 Windows下安装,首先到下载页面,下载Windows安装软件,一般是 sqlite-dll-win32-*.zip sqlite-tools-win32-*.zip下载之后将其内容解压到同一个文件夹下,我把它们都放在了D:\…

搭建ELK+Filebead+zookeeper+kafka实验

部署 Zookeeper 集群 准备 3 台服务器做 Zookeeper 集群 192.168.10.17 192.168.10.21 192.168.10.22 1.安装前准备 关闭防火墙 systemctl stop firewalld systemctl disable firewalld setenforce 0 安装 JDK yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-…

DolphinDB x 龙蜥社区,打造多样化的数据底座

近日,浙江智臾科技有限公司(以下简称“DolphinDB”)正式签署 CLA 贡献者许可协议,加入龙蜥社区(OpenAnolis)。 DolphinDB 主创团队从 2012 年开始投入研发产品。作为一款基于高性能时序数据库,D…