【Azure 架构师学习笔记】- Azure Databricks (2) -集群

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。
接上文 【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

前言

在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。

ADB 集群

首先了解一下ADB 的集群, ADB的集群本质上就是一堆Azure VM,在创建之时已经按照特定模板,配置有Spark和可以并行操作Spark的能力的机器。用于并行执行ADB的代码。

ADB 的集群有两种:

  1. Interactive:通过GUI手动创建的集群,通常共享给多用户多notebook使用。
  2. Job:一个临时的集群,绑定到Databricks的作业,根据作业运行情况自动启停。

集群访问模式

ADB 有三种可选类型,如下图:
在这里插入图片描述
Access modes

  • Single User:单用户使用
  • Shared:多用户使用
  • No isolation shared:管理员可以隐藏这个集群。

Databricks Runtime Version

Databricks runtime是预配环境,其软件,优化配置已经初始化到你的集群中,一般来说,如果不清楚这些版本的区别,那就选择最新版本。

  • Standard:用于大多数常规场景。
  • ML:用于专门的机器学习场景。
  • Uncategorized:不属于上面两种场景的时候使用。

在这里插入图片描述

自动控制

ADB 的自动控制部分有两个功能:

  1. Enable autoscaling:会根据上面选择的最小,最大节点进行按需升级,注意它是按需的,而不是直接一次性到大设置的最大节点数。降级也同理,并不是一次性降下来。 除非负载在短时间内降到很低。

  2. Terminate after ? minutes of inactivity:没有活动多少分钟后,停止集群,从而节省不必要的费用。不过也要根据job的运行规律而定,不能一刀切。
    在这里插入图片描述

Worker 和 Driver types

目前主流集群都以主节点(Worker)和子节点(Driver)为结构,worker node是用来控制的,而Driver 则是实际执行的。这些节点物理上就是一系列的windows VM。 可以看到下面两个图中VM 类型的选择,不同类型性能和价格都不一样。

在这里插入图片描述
在这里插入图片描述

  • General Purpose:适合开发,标准的job 运行。
  • Memory Optimized: 适合内存密集型运算。
  • Storage Optimized:ADB中有一个功能叫Delta Lake,这个后续介绍,这种类型适合Delta Lake使用。
  • GPU Accelerated: 对于大规模GPU 负载, 机器学习等都更加合适。
    通常来说两个类型可以相同,不过如果要频繁集中数据到driver node,那么就需要考虑增加VM 的性能。

Advanced Options

这里更多是对常规集群的增强或者定制化配置:在这里插入图片描述

  • Azure Data Lake Storage credential passthrough: 这个功能适用于增强Data Lake对于内部用户的安全性。
  • 在这里插入图片描述
  • Spark Config:这是对Spark进行深度配置的区域。可以作为性能优化,或者其他特别需求之用。
  • Environment Variables:类似于Spark Config, 通过特定的内容,调整Spark的安装。
  • Logging:指定集群日志的输出位置。
  • Init Scripts:可以通过bash来安装额外的库和包。

虽然大部分情况下默认的配置已经足够,但是对于那些需要迁移现有Spark 负载到新的ADB 情境下,那么自定义就有必要了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/214602.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

golang学习笔记——go流水线示例

range与数组、切片、集合 Go 语言中 range 关键字用于 for 循环中迭代数组(array)、切片(slice)、通道(channel)或集合(map)的元素。在数组和切片中它返回元素的索引和索引对应的值,在集合中返回 key-value 对。 for 循环的 range 格式可以对 slice、map、数组、字…

SVN的下载的文件/文件夹,绿色图标没出来的解决办法

文章目录 一、适用情况示例二、SVN中文件左下角图标消失的解决步骤1. 图标消失的原因2.打开注册表3.svn相关设置4.重启生效 一、适用情况示例 SVN 下载: 如下图,左侧绿/红色图标没出来: 二、SVN中文件左下角图标消失的解决步骤 1. 图标消失…

html通过CDN引入Vue组件抽出复用

html通过CDN引入Vue组件抽出复用 近期遇到个需求,就是需要在.net MVC的项目中,对已有的项目的首页进行优化,也就是写原生html和js。但是咱是一个写前端的,写html还可以,.net的话,开发也不方便,还…

Redis 五大经典业务问题

一 缓存穿透 缓存穿透是指当请求的数据既不在缓存中也不存在于数据库中时,请求会直接穿透缓存层,到达数据库层。这通常是由于恶意攻击或者程序错误造成的,比如攻击者故意请求不存在的大量数据,导致缓存不命中,所有的请…

Servlet学习笔记

简介 浏览器请求处理流程:浏览器发请求 > 服务器tomcat( > 应用程序 ( > servlet) ) Servlet应用的三大作用域:request,session,application tomcat存放项目的层级结构 注释:servlet原引用包名 javax.serv…

机场信息集成系统系列介绍(2):机场航班报文处理系统

本文介绍机场航班报文处理系统。#机场##sita##AFTN##航空# 一、定义 机场航班报文处理系统是一种基于计算机技术的自动化处理系统,用于接收、解析、处理和传递与航班相关的报文信息。这些报文可能包括航班计划、航班状态更新、旅客信息等,通常来源于航…

(C++)只出现一次的数字I--异或

个人主页:Lei宝啊 愿所有美好如期而遇 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://le…

〖大前端 - 基础入门三大核心之JS篇㊿〗- 面向对象之对象的方法、遍历、深浅克隆

说明:该文属于 大前端全栈架构白宝书专栏,目前阶段免费,如需要项目实战或者是体系化资源,文末名片加V!作者:哈哥撩编程,十余年工作经验, 从事过全栈研发、产品经理等工作,目前在公司…

【Linux】进程间通信之共享内存/消息队列/信号量

文章目录 一、共享内存的概念及原理二、共享内存相关接口说明1.shmget函数2.ftok函数3.shmat函数4.shmdt函数5.shmctl函数 三、用共享内存实现server&client通信1.shm_server.cc2.shm_client.cc3.comm.hpp4.查看ipc资源及其特征5.共享内存的优缺点6.共享内存的数据结构 四、…

【GIS】JDK版本升级到17后,GeoServer的图层无法通过openLayer预览

JDK版本升级到17后,图层无法通过openLayer预览 1. 错误图示 终端输出的错误 网页端无法显示图层,并且输出错误提示 2.原因猜测 估计可能是由于java17的模块化,Java被分成了多个独立部署和运行的模块,这使得Java应用能够更快…

Wireshark添加自定义协议解析

最终效果如下: 参考文档:https://mika-s.github.io/topics/ 此参考文档中7个例子教我们如何编写lua脚本去识别我们自定义的协议 安装Wireshark https://www.wireshark.org/上下载安装包安装即可。我的安装路径是D:\Install\Wireshark,在W…

kafka学习笔记--基础知识概述

本文内容来自尚硅谷B站公开教学视频,仅做个人总结、学习、复习使用,任何对此文章的引用,应当说明源出处为尚硅谷,不得用于商业用途。 如有侵权、联系速删 视频教程链接:【尚硅谷】Kafka3.x教程(从入门到调优…

IT新闻资讯系统,使用mysql作为后台数据库,此系统具有显示数据库中的所有信息和删除两大功能。

表的准备: -- MySQL Administrator dump 1.4 -- -- ------------------------------------------------------ -- Server version 5.1.40-community /*!40101 SET OLD_CHARACTER_SET_CLIENTCHARACTER_SET_CLIENT */; /*!40101 SET OLD_CHARACTER_SET_RESULTSCHAR…

nodejs+vue+微信小程序+python+PHP个性化服装搭配系统APP-计算机毕业设计推荐 android

考虑到实际生活中在个性化服装搭配方面的需要以及对该系统认真的分析,将app权限按管理员和用户这两类涉及用户划分。 (a) 管理员;管理员使用本系统涉到的功能主要有个人中心、用户管理、个性穿搭管理、我的衣橱管理、服饰分类管理、我的收藏管理、系统管理等功能。 …

Unity使用打成图集的Sprite作为模型贴图使用的问题

大家好,我是阿赵。   有时候用Unity引擎做项目的时候,会遇到这样的需求,美术做了一些模型或者特效,然后策划想在游戏运行的时候,读取一些游戏图标放在特效或者模型上面当做贴图使用。   这个需求实现起来很简单&am…

【Hive】启动beeline连接hive报错解决

1、解决报错2、在datagrip上连接hive 1、解决报错 刚开始一直报错&#xff1a;启动不起来 hive-site.xml需要配置hiveserver2相关的 在hive-site.xml文件中添加如下配置信息 <!-- 指定hiveserver2连接的host --> <property><name>hive.server2.thrift.bin…

DIP——边缘提取与分割

1.使用canny算法进行边缘提取 本实验比较简单&#xff0c;基本思路是对原图像进行一个高斯模糊处理&#xff0c;用于去噪&#xff0c;之后转换为灰度图&#xff0c;直接调用cv库中的canny记性边缘提取。若想直接得到彩色边缘&#xff0c;则通过按位与操作&#xff0c;将原始彩色…

【小沐学Python】Python实现TTS文本转语音(speech、pyttsx3、百度AI)

文章目录 1、简介2、Windows语音2.1 简介2.2 安装2.3 代码 3、pyttsx33.1 简介3.2 安装3.3 代码 4、ggts4.1 简介4.2 安装4.3 代码 5、SAPI6、SpeechLib7、百度AI8、百度飞桨结语 1、简介 TTS(Text To Speech) 译为从文本到语音&#xff0c;TTS是人工智能AI的一个模组&#xf…

Redis 持久化 —— 超详细操作演示!

四、Redis 持久化 四、Redis 持久化4.1 持久化基本原理4.2 RDB持久化4.3 AOF持久化4.4 RDB与AOF对比4.5 持久化技术转型 五、Redis 主从集群六、Redis 分布式系统七、Redis 缓存八、Lua脚本详解九、分布式锁 数据库系列文章&#xff1a; 关系型数据库: MySQL —— 基础语法大全…

ISNAS-DIP: Image-Specific Neural Architecture Search for Deep Image Prior

ISNAS-DIP&#xff1a;用于深度图像先验的图像特定神经架构搜索 论文链接&#xff1a;https://arxiv.org/abs/2111.15362v2 项目链接&#xff1a;https://github.com/ozgurkara99/ISNAS-DIP Abstract 最近的研究表明&#xff0c;卷积神经网络(CNN)架构在频谱上偏向较低频率&…