通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代，流式处理技术对于实时数据分析至关重要。EMR Serverless Spark提供了一个强大而可扩展的平台，它不仅简化了实时数据处理流程，还免去了服务器管理的烦恼，提升了效率。本文将指导您使用EMR Serverless Spark提交PySpark流式任务，展示其在流处理方面的易用性和可运维性。

前提条件

已创建工作空间，详情请参见创建工作空间。

操作流程

步骤一：创建实时数据流集群并产生消息

在EMR on ECS页面，创建包含Kafka服务的实时数据流集群，详情请参见创建集群。
登录EMR集群的Master节点，详情请参见登录集群。
执行以下命令，切换目录。

cd /var/log/emr/taihao_exporter

4. 执行以下命令，创建Topic。

# 创建名为taihaometrics的Topic，分区数10，副本因子2。
kafka-topics.sh --partitions 10 --replication-factor 2 --bootstrap-server core-1-1:9092 --topic taihaometrics --create

5. 执行以下命令，发送消息。

# 使用kafka-console-producer发送消息到taihaometrics Topic。
tail -f metrics.log | kafka-console-producer.sh --broker-list core-1-1:9092 --topic taihaometrics

步骤二：新增网络连接

进入网络连接页面。

在EMR控制台的左侧导航栏，选择EMR Serverless > Spark。
在Spark页面，单击目标工作空间名称。
在EMR Serverless Spark页面，单击左侧导航栏中的网络连接。

2.在网络连接页面，单击新增网络连接。

3.在新增网络连接对话框中，配置以下信息，单击确定。

当状态显示为已成功时，表示新增网络连接成功。

步骤三：为EMR集群添加安全组规则

获取集群节点交换机的网段。您可以在节点管理页面，单击节点组名称，查看关联的交换机信息，然后登录专有网络管理控制台，在交换机页面获取交换机的网段。

2.添加安全组规则。

在集群管理页面，单击目标集群的集群ID。
在基础信息页面，单击集群安全组后面的链接。
在安全组规则页面，单击手动添加，填写端口范围和授权对象，然后单击保存。

步骤四：上传JAR包至OSS

上传kafka.zip中的所有JAR包至OSS，上传操作可以参见简单上传。

步骤五：上传资源文件

在EMR Serverless Spark页面，单击左侧导航栏中的资源上传。
在资源上传页面，单击上传文件。
在上传文件对话框中，单击待上传文件区域选择pyspark_ss_demo.py文件。

步骤六：新建并启动流任务

在EMR Serverless Spark页面，单击左侧的任务开发。
单击新建。
输入任务名称，新建一个Application（流任务） > PySpark类型的任务，然后单击确定。
在新建的任务开发中，配置以下信息，其余参数无需配置，然后单击保存。

5.单击发布。

6.在发布任务对话框中，单击确定。

7.启动流任务。

单击前往运维。
单击启动。

步骤七：查看日志

单击日志探查页签。
在Driver日志列表中，单击stdOut.log。在打开的日志文件中，您可以看到应用程序执行的相关信息以及返回的结果。

通过 EMR Serverless Spark 提交 PySpark 流任务

前提条件

操作流程

步骤一：创建实时数据流集群并产生消息

步骤二：新增网络连接

步骤三：为EMR集群添加安全组规则

步骤四：上传JAR包至OSS

步骤五：上传资源文件

步骤六：新建并启动流任务

步骤七：查看日志

相关文档

相关文章

PostgreSQL使用（二）

[数据集][目标检测]导盲犬拐杖检测数据集VOC+YOLO格式4635张2类别

graham 算法计算平面投影点集的凸包

Linux云计算 |【第一阶段】ENGINEER-DAY3

C++ :友元类

Intel和AMD用户再等等！微软确认Win11 24H2年底前登陆

VS2019安装MFC组件

Linux的热插拔UDEV机制和守护进程

前端不懂 Docker ？先用它换掉常规的 Vue 项目部署方式

如何在 Mac 上下载安装植物大战僵尸杂交版? 最新版本 2.2 详细安装运行教程问题详解

Linux云计算 |【第一阶段】ENGINEER-DAY5

大模型只是轮子，与其闭门重复造轮子，不如深耕场景应用

JavaWeb JavaScript ① JS简介

第三届智能机械与人机交互技术学术会议（IHCIT 2024）

Artix7系列FPGA实现SDI视频编解码，基于GTP高速接口，提供3套工程源码和技术支持

Python+Flask+MySQL/Sqlite的个人博客系统（前台+后端管理）【附源码，运行简单】

实战：Eureka的概念作用以及用法详解

C/C++ json库

docker 部署wechatbot-webhook 并获取接口实现微信群图片自动保存到chevereto图库等

「实战应用」如何用DHTMLX将上下文菜单集成到JavaScript甘特图中（三）