自动机器学习是什么?概念及应用

自动机器学习 (Auto Machine Learning) 的应用和方法

随着众多企业在大量场景中开始采用机器学习,前后期处理和优化的数据量及规模指数级增长。企业很难雇用充足的人手来完成与高级机器学习模型相关的所有工作,因此机器学习自动化工具是未来人工智能 (AI) 的关键组成部分,自动机器学习 (Automated Machine Learning,AutoML) 应运而生。AutoML 是AIOps多层技术平台中一款快速增长的工具。 自动机器学习是一种将人工智能 (Artificial Intelligence) 应用于问题的端到端周期自动化方法。一般情况下,数据科学家会负责构建机器学习 (ML) 模型,以及随后的数据预处理、特征工程、模型选择、超参数优化和模型后处理等复杂任务。AutoML 框架可以自动完成这些任务(或至少部分任务),让不具备数据科学专业知识的人也可以成功构建 ML 模型。 对那些因资源有限而无法全面投入使用 AI 的公司来说,自动化 ML 流程带来了机会。尽管实现机器学习流程全自动化依然任重而道远,但很多企业都开始在构建着眼于未来的工具,以进一步推动自动机器学习的发展。  

为什么要使用自动机器学习工具?

研究当前的机器学习模型构建过程,我们发现,模型构建的代价高昂,不仅需要高水平的技术专家,还需要投入大量的时间、资金,反复地进行研发工作。以下为推动自动机器学习发展的四个因素:

缩小技能差距

由于企业很难招募到兼具领域知识和技能的人才来构建模型,导致缺乏开发 AI 和 ML 相关的专业技术,阻碍了机器学习的进一步发展。借助自动机器学习,非专业人才也可以参与构建AI。企业不仅无需招聘大量高专业化人才,还能提高创新速度,最终实现人工智能的规模化应用。

缩短面市时间

在一些快速发展的领域,缩短上市时间就能取得巨大的竞争优势。而机器学习流程自动化恰好能够减少构建模型所需的时间。对于从未部署过 AI 的公司来说,自动机器学习不仅能够降低其进入该领域的门槛,还可以提供成功的解决方案。

降低成本

从零开始构建机器学习模型,需要耗费大量的时和资金。数据科学家及其他机器学习领域的专家,他们的薪资相对较高。从零开始构建模型,费时又费力,相比之下,自动机器学习工具则具有较高的性价比。

构建更佳模型

自动机器学习在模型和超参数方面的迭代速度比手工操作更快。在规定时间段内,迭代越多,所构建的模型性能就越高。自动机器学习既提高了决策效率,又加快了模型研究的速度。 此外,数据科学家也在努力探索适用于深度神经网络的高性能架构。自动机器学习可以自动搜索和评估架构(即神经架构搜索),从而加速开发人工智能模型解决方案。  

自动机器学习的方法

对于机器学习的自动化,有不同的定义。如今,流传比较广泛的是一个对自动机器学习进行分级的体系(类似于自动驾驶汽车的分级):

  • 初级:无自动化,数据科学家从零开始编写算法。
  • 级:使用一些高级API。
  • 级:自动调整超参数和选择模型。
  • 级:自动特征工程、特征选择和数据增强。
  • 级:自动领域和特定问题的特征工程、数据扩充和数据整合。
  • 级:完全自动化,无需输入或指导来解决机器学习问题。

虽然目前市场上有很多不错的 3 级自动机器学习解决方案,但不同公司在实际实施中又降为了 1 级或 2 级。在这些不同等级的自动化过程中,有几个自动机器学习方法值得讨论:

模型选择和集成

自动机器学习可以通过输入相同数据来训练不同算法,从而实现迭代,选择性能最佳的模型。自动机器学习还可以借助混合和叠加等技术来与多个模型集成,以获取更好的结果。

超参数优化 (HPO)

所有机器学习算法都有参数,或者模型中每个变量或特征的权重。参数来自于训练过程,而超参数则是一个用于控制学习过程的可调值。超参数优化 (HPO) 是指通过调整超参数来提高模型性能。自动机器学习工具可以自动评估各种超参数,以确定可以产生最高性能的模型集合。

特征工程

在自动机器学习中,特征工程不如模型选择和 HPO 那么常见,但由于其能够提高模型的预测性,因此越来越受重视。特征工程是指从现有输入中构建新的输入特征(或解释变量)。特征工程强调了模型预测时需要了解的相关元素,因而会影响模型性能。所以,数据科学家必须一次次地手动添加特征,但有了自动机器学习工具,这项工作可以自动完成。这些工具从给定的输入中提取相关和有意义的特征,并测试不同的特征组合,以生成性能最高的模型。  

自动机器学习的前景

在达到 5 级,即完全自动化的解决方案之前,自动机器学习行业仍有漫长的道路。尽管如此,很多企业还是投资了较低级别的自动机器学习。一般来说,这些企业将精力主要放在了模型选择和 HPO上。特征工程的进一步发展或将推动自动机器学习领域在新创新阶段取得突破。 随着自动化需求增长和工具改进,构建机器学习的难度和资源密集度将会降低,机器学习的应用范围也将更加广泛。  

澳鹏数据科学家 Shambhavi Srivastava 对自动机器学习的看法

在澳鹏,我们团队致力于构建机器学习模型。我与数据科学家、机器学习工程师以及 DevOps 的同事协作,致力于建立、整合最先进的 (SOTA) 模型。 构建机器学习模型均包括以下多个步骤:

  1. 从业务角度理解问题
  2. 数据准备(收集、清理、分析)
  3. 构建模型
  4. 评估性能
  5. 将模型容器化并部署到生产中
  6. 观察模型在客户端数据生成上的性能。

上述每个步骤对于项目的成功都至关重要。数据科学家可以通过 自动机器学习来提高成功率。通过自动化工作流程和大幅提升各种整体假设和单个模型属性的测试速度,自动机器学习提高了数据科学家的工作质量。 数据科学家的日常工作是,决定并实施对给定业务用例最有效的机器学习算法。然而,这项任务很繁琐,而且容易出现人为错误和偏见。自动机器学习可以自动化和简化这一过程,使团队能够通过持续评估性能来运行各种机器学习模型,直到满足最佳参数为止。这些自动机器学习功能可以加速机器学习模型的生产,并通过推出准确度更高的模型来提高项目的投资回报率 (ROI)。 模型选择中最具挑战性的环节就是探寻未知。这是科学家将自动机器学习视为头号难题的原因所在。自动机器学习通过减少代码和自动调整超参数,来降低 ML 任务的难度。自动机器学习的核心创新是超参数搜索和寻找最佳匹配。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/217902.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【状态机FSM 序列检测 饮料机_2023.12.1】

同步状态机 概念 同步状态机(同一脉冲边沿触发):有限个离散状态及某状之间的转移 异步状态机无法综合 分类 Moore状态机 只和状态有关,与输入无关 Mealy状态机 和状态和输入都有关 Mealy型比Moore型少一个状态 结构 由状态寄…

中文字符串逆序输出

今天碰到这个题,让我逆序输出中文字符串,可给我烦死了,之前没有遇到过,也是查了资料才知道,让我太汗颜了。 英文字符串逆序输出很容易,开辟一块空间用来存放逆序后的字符串,从后往前遍历原字符串…

十四 动手学深度学习v2计算机视觉 ——转置矩阵

文章目录 基本操作填充、步幅和多通道再谈转置卷积不填充,步幅为1填充为p,步幅为1填充为p,步幅为s 基本操作 填充、步幅和多通道 填充: 与常规卷积不同,在转置卷积中,填充被应用于的输出(常规卷…

小小手表探索更多 好玩伴也是好帮手

华为儿童手表 5X 不仅是孩子的好玩伴,也是家长的好帮手。全能形态让小小手表探索更多,高清双摄记录美好,离线定位随时掌握,绿色纯净守护成长,让孩子享受科技带来的安全与乐趣。

为什么随着网络的增加,传统的多层网络结构的非线性表达很难去表示恒等映射,模型会出现网络退化问题,什么是恒等映射!!

文章目录 一、什么是恒等映射二、对于深度神经网络,保持恒等映射并不是必需的,三、恒等映射可以作为一个简单的基准任务来评估和分析网络的一些重要性质 一、什么是恒等映射 恒等映射指的是输入和输出完全相同的映射关系,也就是yx。它是一个线性函数,没…

cordic 算法学习记录

参考:b站教学视频FPGA:Cordic算法介绍与实现_哔哩哔哩_bilibili FPGA硬件实现加减法、移位等操作比较简单,但是实现乘除以及函数计算复杂度高且占用资源多,常见的计算三角函数/平方根的求解方式有①查找表:先把函数对应…

车载导航系统UI界面,可视化大屏设计(PS源文件)

大屏组件可以让UI设计师的工作更加便捷,使其更高效快速的完成设计任务。现分享车载导航系统科技风蓝黑简约UI界面、车载系统UI主界面、车载系统科技风UI界面、首页车载系统科技感界面界面的大屏Photoshop源文件,开箱即用! 若需 更多行业 相关…

攻防世界——BABYRE

下载好文件,IDA64打开 无脑F12 锁定到right 跟进到了这个函数 很明显关键点就是 我们跟进judge 182个字符 懵逼了,说实话 下面是问了人后 —————————— 其实这是一个函数,一个操作指令 但是我们可以发现 在这里,ju…

EasyExcel处理表头的缓存设置

在学习EasyExcel 时会发现针对使用类模型配置表头相关属性时,EasyExcel 会使用到缓存技术以提升表头的解析速度如下代码: 这些参数再何时设置的哪? 在easyExcel 基础参数设置中会有这个参数filedCacheLocation 。默认采用的使用线程级别的…

《opencv实用探索·十九》光流法检测运动目标

前言 光流法(Optical Flow)是计算机视觉中的一种技术,用于估计图像中相邻帧之间的像素位移或运动。它是一种用于追踪图像中物体运动的技术,可以在视频中检测并测量物体的运动轨迹。 光流的直观理解: 光流是一个视频中两…

web微服务规划

一、背景 通过微服务来搭建web系统,就要对微服务进行规划,包括服务的划分,每个服务和数据库的命名规则,服务用到的端口等。 二、微服务划分 1、根据业务进行拆分 如: 一个购物系统可以将微服务拆分为基础中心、会员…

C++_类的定义和使用

目录 1、类的引用 1.1 类的成员函数 1.2 类成员函数的声明和定义 2、类的定义 2.1 类的访问限定(封装) 3、类重名问题 4、类的实例化 4.1 类的大小 5、隐含的this指针 5.1 空指针问题 结语: 前言: C的类跟c语言中的结…

VRRP协议详解

目录 一、基础概念 1、概念 2、VRRP的基本结构 状态机 二、VRRP主备备份工作过程 1、备份工作过程 2、VRRP的负载分担工作 三、实验 一、基础概念 1、概念 VRRP能够在不改变组网的情况下,将多台路由器虚拟成一个虚拟路由器,通过配置虚拟路由器的I…

自媒体新闻中心-后台管理端

0.本节内容说明 本节主要是一个功能概述,了解清楚这个这个后台管理端做的什么,以及实现的思路,具体的实现代码部分,后面讲解 1.后台功能概述 登陆: 账号密码登陆,或者是账号人脸进行登陆内容审核:对于用户…

【Stable Diffusion】在windows环境下部署并使用Stable Diffusion Web UI---通过 Conda

本专栏主要记录人工智能的应用方面的内容,包括chatGPT、AI绘图等等; 在当今AI的热潮下,不学习AI,就要被AI淘汰;所以欢迎小伙伴加入本专栏和我一起探索AI的应用,通过AI来帮助自己提升生产力; 订阅…

DevOps 和人工智能 – 天作之合

如今,人工智能和机器学习无处不在,所以它们开始在 DevOps 领域崭露头角也毫不令人意外。人工智能和机器学习正在通过自动化任务改变 DevOps,并使各企业的软件开发生命周期更高效、更深刻和更安全。我们在 DevOps 趋势中简要讨论过这一问题&am…

LeetCode力扣每日一题(Java)66、加一

每日一题在昨天断开了一天,是因为作者沉迷吉他,无法自拔……竟然把每日一题给忘了,所以今天,发两篇每日一题,把昨天的给补上 一、题目 二、解题思路 1、我的思路 其实乍一看这道题还是比较简单的,就是让…

记录 | linux安装Manim

linux 安装 Manim sudo apt update sudo apt install build-essential python3-dev libcairo2-dev libpango1.0-dev ffmpeg sudo apt install xdg-utilsconda create manim_py39 python3.9 conda activate manim_py39pip install manim安装好环境后来测试一个例程,…

Gitlab+GitlabRunner搭建CICD自动化流水线将应用部署上Kubernetes

文章目录 安装Gitlab服务器准备安装版本安装依赖和暴露端口安装Gitlab修改Gitlab配置文件访问Gitlab 安装Gitlab Runner服务器准备安装版本安装依赖安装Gitlab Runner安装打包工具安装docker安装java17安装maven 注册Gitlab Runner 搭建自动化部署准备SpringBoot项目添加一个Co…

企业IT安全:内部威胁检测和缓解

什么是内部威胁 内部威胁是指由组织内部的某个人造成的威胁,他们可能会造成损害或窃取数据以谋取自己的经济利益,造成这种威胁的主要原因是心怀不满的员工。 任何内部人员,无论是员工、前雇员、承包商、第三方供应商还是业务合作伙伴&#…