详解数据科学自动化与机器学习自动化

过去十年里,人工智能(AI)构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中,您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上,这些术语有着不同的定义:如今的自动化机器学习,即AutoML,特指模型构建自动化。但是,数据科学家的工作内容并不仅止于此。简单地说,数据科学家从数据中获取信息,以解决现实世界中的问题;机器学习只是数据科学家的众多工作方法之一。 从数据预处理到解决方案部署,自动化贯穿数据科学生命周期的每个阶段。毋庸置疑,AutoML极大地提升了数据科学生命周期的自动化程度,尤其是在模型构建阶段。在大多数情况下,自动化主要针对最耗时、最复杂的任务,以降低任务难度,提高效率。借助先进的自动化技术,数据科学家可以将更多时间花在训练任务上:利用数据洞察为其服务的企业开发差异化解决方案。

数据生命周期中的自动化

在解决方案开发过程中,数据科学家完成的每一项任务都包括在数据科学生命周期中。于我们而言,我们需要关注数据科学家在构建AI模型时需要完成的任务。数据生命周期的每个阶段,都涉及到某种程度的自动化。鉴于AI构建过程中有几个步骤较为耗时,这一事实并不出人意料。

数据准备

假设数据科学家需要解决某一问题,则他们的首要任务就是收集和准备数据。通常情况下,数据准备包括将数据转换成正确格式、识别数据错误、以及修复数据异常。目前,数据准备任务已经实现部分自动化。数据科学家可以使用简单的探索法或第三方数据清理工具来清理数据。例如,探索法可以指定自动删除实际范围以外的任何数字。数据清理工具可以自动清理模式、执行统计分析,并根据需要完成其他准备步骤。 为何数据清理仍未实现完全自动化?主要原因是数据科学家需要经常对数据做出主观决策。另外,数据集可能会包含许多边缘数据;数据清理工具或探索法可能无法轻易解决这些问题。

数据探索

数据科学生命周期的下一阶段是数据探索。在这一阶段中,数据科学家使用可视化工具来获得数据概览。与第一阶段相同,数据探索阶段只能实现部分自动化。数据科学家可以自动创建图表,但图表分析仍需要其专业知识。

特征工程

特征工程正逐渐成为AutoML的一部分,并且可能有利于提升ML的自动化程度。特征工程是指从现有输入中创建新的输入变量,新的输入变量与您试图解决的问题相关。如果操作正确,特征工程可以促使模型关注数据中未明确呈现的重要变量,从而提升模型性能。 借助自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特征。这些工具可以快速评估数百个,甚至数百万个特征,并输出与模型最相关的特征。因此,在自动化的帮助下,数据科学家可以更高效地完成这些传统的人工选择任务。

模型构建

模型构建包括模型选择、验证和超参数优化(HPO)。模型构建可以完全实现自动化,这正是AutoML的真正亮点。AutoML工具可以循环使用同一组输入数据来训练各类模型,以选出性能最佳的模型。工具可以通过超参数优化和重复验证措施自动调整模型,以提高模型准确度。但是,AutoML模型仍会保持高准确性和高置信度,模型质量不会成为模型效率提高的代价。 关于自动化模型构建的更多信息,请参阅我们的文章“关于AutoML,其中包含了您想了解的一切信息。”

持续部署

数据科学生命周期并不止于部署阶段。在实践过程中,每个AI模型都需要持续维护。因此,建立一个再训练流程将是成功的关键。在这一阶段中,我们使用自动化工具为模型提供定期维护检查,以确保模型始终满足准确度和置信度阈值。虽然在这一阶段中保持人机协同仍然大有帮助,但以自动化取代完全人工的过程,可以提高问题解决效率。

一个自动化示例:Github Copilot

最近,Github Copilot软件成功上市,是AI自动化的一个现实示例。这款软件由OpenAI Codex提供支持,是一个AI配对程序员,可以帮助工程师编写代码。Github Copilot可以分析您正在开发的代码,在您输入代码时提示行或函数。该款软件旨在提供替代解决方案和测试用例,从而提高工作效率,降低复杂性。Github Copilot只是机器学习自 动化的最新激动人心的应用之一,可以极大地提高AI和工程的效率。

AI自动化的未来

当我们展望AI的未来时,数据科学自动化和AutoML可以告诉我们什么?首先,AI构建是一项具有挑战的任务,但已变得越来越容易。对自动化的需求无疑源于以下事实:实施AI解决方案需要时间、经费、专业知识等大量资源,而这通常导致许多小型企业望而却步。随着自动化工具的出现,准入门槛会降低,允许更多的参与者进入这一领域进行实验和创新。 随着AI和AutoML的发展,高质量训练数据的需求仍会存在,并且还会持续增长。AI从业者需要更多的数据来优化和修正机器学习模型,以及保持模型的实践性能。与外部数据供应商合作,可以为团队提供适合的工具、专业知识和流程,从而为实现长远的AI目标建立可扩展的数据流程。澳鹏(Appen)拥有目前最先进的AI辅助数据标注平台,其解决方案是获取高质量数据的最可靠来源,可以满足日益增长的数据需求。 数据科学家又会如何?机器是否会影响到对数据科学家的需求?当然不可能。数据科学家拥有机器无法比拟的高度专业化领域知识。定义和理解问题,并对数据进行假设等,都需要主观的专业知识。正如我们在软件工程中所看到的,当软件工程变得更容易时,软件工程师的需求只会上升;数据科学家当然也不例外。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/221865.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓手机语音备忘录在哪里?

我们在日常生活和工作中,使用手机记事的时候,不仅需要在备忘录或便签软件中记录文字、图片,有时候我们也需要记录语音或音频文件。那么安卓手机语音备忘录在哪里呢?其实绝大多数的安卓手机中都是没有专门的语音备忘录的&#xff0…

pyCharm 创建一个FastApi web项目,实现接口调用

FastApi和Django区别 我这边演示项目使用的fastApi作为web框架,当然主流一般都是使用Django做web框架,但是Django是一个重量级web框架他有很多组件,如授权,分流等全套web功能。我这边呢只需要有个接口可以被别人调用,…

多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测

多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测 目录 多维时序 | MATLAB实现KOA-CNN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现KOA-CNN-B…

伦敦金交易内地与香港有何区别

伦敦金交易是国际银行间市场层面的现货黄黄金交易,亚洲市场的交易中心在中国香港,现在不管是香港本地还是内地的投资者,都可以在网上开户,通过香港的平台参与伦敦金交易,所得到的服务是同等的、公平的、与国际市场接轨…

UE4 UE5 一直面向屏幕

一直面相屏幕,方法很简单 新建一个蓝图,如下添加组件: 蓝图如下: Rotation Actor :需要跟随镜头旋转的物体 Update:一个timeline(替代event tick 只是为了循环) Timeline&#xff…

MySQL是如何保证数据不丢失的?

文章目录 前言Buffer Pool 和 DML 的关系DML操作流程加载数据页更新记录 数据持久化方案合适的时机刷盘双写机制日志先行机制日志刷盘机制Redo Log 恢复数据 总结 前言 上篇文章《InnoDB在SQL查询中的关键功能和优化策略》对InnoDB的查询操作和优化事项进行了说明。但是&#…

【git学习笔记 01】打标签

文章目录 一、声明二、对标签的基本认知什么是标签?为什么要打标签?如何生成类似github中readme的图标 三、标签相关命令四、示例操作 一、声明 本帖持续更新中如有纰漏,望批评指正!参考视频链接,非常感谢原作者&…

tcp vegas 为什么好

我吹捧 bbr 时曾论证过它在和 buffer 拧巴的时候表现如何优秀,但这一次说 vegas 时,我说的是从拥塞控制这个问题本身看来,vegas 为什么好,并且正确。 接着昨天 tcp vegas 鉴赏 继续扯。 假设一群共享带宽的流量中有流量退出或有…

AWS RDS慢日志文件另存到ES并且每天发送邮件统计慢日志

1.背景:需要对aws rds慢日志文件归档到es,让开发能够随时查看。 2.需求:并且每天把最新的慢日志,过滤最慢的5条sql 发送给各个产品线的开发负责人。 3.准备: aws ak/sk ,如果rds 在不同区域需要认证不同的…

UE5 C++(六)— 枚举UENUM、结构体USTRUCT和补充属性说明符

文章目录 枚举(ENUM)第一种方式第二种方式 结构体(USTRUCT)补充属性说明符(ExposeOnSoawn)结构体创建数据表格 枚举(ENUM) 第一种方式 定义枚举 UENUM(BlueprintType) namespace …

Java如何开发PC客户端(Windows,Mac,Linux)

项目编译工具:Gradle开发工具: Idea开发语言: 建议java17以上ui组件:openjfx (org.openjfx.javafxplugin)打包工具: jpackage (org.beryx.jlink)如果打包出现错误,可以安装wix(3.1以上) dotnetfx(3.5以上) 试试看 一…

Swagger2接口测试文档

目录 一、Swagger简介 1.1 Swagger是什么? 1.2 为什么要用Swagger 1.3 Swagger注解 二、Spring集成Swagger 三、测试环境配置 一、Swagger简介 1.1 Swagger是什么? Swagger 是一个开源的 API 设计和文档工具,它可以帮助开发人员更快、…

关于EasyExcel 合并单元格方法该如何实现

在做一个业务的导出,目前遇到一个需求,如下图: import com.alibaba.excel.metadata.CellData; import com.alibaba.excel.metadata.Head; import com.alibaba.excel.write.handler.CellWriteHandler; import com.alibaba.excel.write.metad…

mysql创建用户和赋权

1.创建用户 CREATE USER new_userlocalhost IDENTIFIED BY user_password; “localhost"只允许本地连接,而”%"允许所有IP地址都可以连接到服务器。 2.赋权 GRANT ALL PRIVILEGES ON database_name.* TO new_userlocalhost; FLUSH PRIVILEGES; 3.给…

运维实施工程师计算机基础

目录 一.运维实施工程师需要具备的知识 1.1.运维工程师、实施工程师是啥? 1.2. 运维工程师、实施工程师做些啥? 1.3.运维工程师、实施工程师需要具备啥技能? 二.计算机的组成 2.1.简介 2.1.1.CPU(中央处理器) 2.…

爬虫工具Curl!

爬虫工具Curl! 链接: Curl 使用它可以将网站内的信息转成python可用格式 打开开发工具中的网络选项卡右键单击(或按住 Ctrl 键单击)请求单击“复制”→ “复制为 cURL”粘贴到上面的curl命令框中 !!!警告:复制的命令可能包含 co…

OpenHarmony开发环境快速搭建(无需命令行)

一. 搭建Windows环境 在嵌入式开发中,很多开发者习惯于使用Windows进行代码的编辑,比如使用Windows的Visual Studio Code进行OpenHarmony代码的开发。但当前阶段,大部分的开发板源码还不支持在Windows环境下进行编译,如Hi3861、H…

用23种设计模式打造一个cocos creator的游戏框架----(二十二)原型模式

1、模式标准 模式名称:原型模式 模式分类:创建型 模式意图:用原型实例指定创建对象的种类,并且通过复制这些原型创建新的对象 结构图: 适用于: 1、当一个系统应该独立于它的产品创建、构成和表示时 2、…

管理类联考——数学——真题篇——按知识分类——代数——数列

【等差数列 ⟹ \Longrightarrow ⟹ 通项公式: a n a 1 ( n − 1 ) d a m ( n − m ) d n d a 1 − d A n B a_n a_1(n-1)d a_m(n-m)dnda_1-dAnB an​a1​(n−1)dam​(n−m)dnda1​−dAnB ⟹ \Longrightarrow ⟹ A d , B a 1 − d Ad&#x…

【Linux基础】3. 文件基本属性

文章目录 【 1. 文件的属主和属组 】【 2. 显示文件的类型、权限 】2.1 文件类型2.2 文件权限 【 3. 更改文件属性 】3.1 chgrp 更改文件属组3.2 chown 更改文件所有者3.3 更改文件权限3.3.1 数字法更改文件权限3.3.2 符号法更改文件权限 【 1. 文件的属主和属组 】 Linux 系统…