互联网高科技公司领导AI工业化,MatrixGo加速人工智能落地

作者:吴宁川

AI(人工智能)工业化与AI工程化正在引领人工智能的大趋势。AI工程化主要从企业CIO角度,着眼于在企业生产环境中规模化落地AI应用的工程化举措;而AI工业化则从AI供应商的角度,着眼于以规模化方式为企业用户提供AI技术、方案和服务,从而在企业生产环境中能够规模化落地AI应用。AI工业化和AI工程化相当于一个硬币的两面,一面是AI技术供给和供应链的规模化,一面是AI技术使用和落地的规模化。

AI工程化已经连续两年入选Gartner的2021年及2022年重要战略科技趋势报告。在2021年,Gartner指出只有53%的项目能够从AI原型转化到生产环境,AI项目的扩展难度很大。而在2022年报告中,Gartner预测到2025年,10%建立了AI工程化最佳实践的企业,将比余下90%的企业实现至少高三倍的收益。AI工程化不足之处,AI工业化补足。作为AI模型生命周期高质量数据服务供应商,澳鹏中国高级产研总监张童皓指出:数据优化为AI推理带来的效果提升,要远比代码优化的效果强很多,企业到了建立AI数据供应链的时机。

AI工业化与AI工程化都包括了DataOps、ModelOps和DevOps三大实践,统称为AIOps。其中ModelOps和DevOps已经有众多成熟的自动化工具与平台以及相应的从业人员,而DataOps正处于快速上升期,AI数据标注是DataOps中的一个关键领域。2022年1月,澳鹏中国推出了MatrixGo高精度AI数据标注平台企业版,专门面向企业本地部署环境,帮助CIO们以高度自动化、标准化和规模化方式建立AI标注数据供应链。

MatrixGo的推出,标志着AI工业化迎来了一个全新里程碑,也将极大推动AI工程化进展。

AI数据工业化大趋势

以深度神经网络模型为代表的深度学习算法正释放人工智能产业的红利。自深度神经网络算法在2015年取得视觉识别的突破、在2017年取得语音识别的突破,以及2018年底BERT大规模预训练神经网络模型问世以来,深度学习算法就在互联网和高科技行业率先推动了一波大规模应用,包括自动驾驶、新闻汇聚、自然语言处理、虚拟助理、娱乐等应用领域,而其成果就是推高了互联网和高科技公司的市值。

除了互联网和高科技公司外,AI创业公司也是深度学习算法在各行各业落地的主力军。在全球市场,根据CB Insights统计,2010年到2021年,全球AI 100强共获得了117亿美元的股权融资,自动驾驶、医药研发、AI处理器等是最主要投融资领域,如今AI 100强在零售、快速消费品、游戏等18个行业领域推动着AI的落地。在中国,除了百度、阿里、腾讯、京东、滴滴、华为、科大讯飞等互联网和高科技巨头外,高校与科研机构、AI四小龙以及一批智能驾驶公司等在推动深度学习算法发展与落地。

近年来,人工智能领域在第三次浪潮爆发后经历了快速的发展,许多特定领域的专用人工智能算法已经大幅度超越了人类的水平,并在工业生产和社会生活中得到了广泛应用。目前,深度学习算法的本质是海量数据驱动的统计学习,是随着计算机算力和大数据可及性的快速提升而出现的产物。特别是近两年出现超大规模预处理自然语言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”参数规模就达到1.75万亿(注1)。

既然深度学习算法是算力与大数据的产物,那么深度学习算法模型的工业化优化,也就需要AI数据供应链的工业化。所谓“工业化”,即以自动化、标准化和规模化可扩展方式为标志。澳鹏Appen是一家有着超过25年历史的人工智能训练数据服务公司,澳鹏Appen近期发布的《2021年人工智能与机器学习现状调查报告》显示,随着深度学习算法越来越成熟,模型算法本身的迭代优化已经不能带来明显的效果,而AI数据的高质量优化是模型效果提升的下一个关键。AI数据即需要经过人工标注后的数据,才能用于AI模型的训练和推理及优化。此前,AI标注数据的供应基本以作坊式为主,难以保证AI标注数据的高质量供给,接下来AI标注数据的供给将迎来工业化爆发。

构建AI数据供应链能力

随着互联网高科技企业等越来越大规模地将AI嵌入到自己的商业运营、产品与服务等方方面面,大规模的AI项目对标注数据的快速和持续供给需求已经越来越迫切。以互联网高科技企业为代表的AI用户已经率先与外部的数据服务供应商合作,以解决持续的AI标注数据外包、数据准备、数据质量评估以及数据供给等挑战。但在AI标注数据的规模化供给方面,自动化、标准化和规模化可扩展仍然是需要解决的关键问题。

澳鹏中国高级产研总监张童皓表示,2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具,以更为自动化、标准化和规模化可扩展的方式,为整个AI模型生命周期提供高精度和高质量的标注数据,满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程,以工业化方式构建起完整AI标注数据供应链。在2019年进入中国市场之前,澳鹏Appen已经拥有业内先进的人工智能辅助数据标注平台、一体化AI数据及资源管理平台、全球100多万名众包资源以及丰富的实践。

将AI标注数据实践沉淀为方法论,这不是一件容易的事情。其中很多要解决的问题,包括:如何组织大规模的标注数据人员团队、如何保证数据质量、如何更有效地反馈模型训练结果、如何继续优化训练数据集等,同时还要应对用户业务中出现的各种复杂场景,甚至是业务出海场景中的地域差异等。这不仅要将AI标注数据的具体实践落地到一个强大而高效的工具集中,还要为项目管理、团队协作等设计灵活、高效、可扩展的工作流程,此外还要能够对外开放一定的API,将数据标注结果与各种AIOps流程相结合。

张童皓强调,数据标注平台非常复杂,在某种程度上是Office +数据仓库+AIOps的结合体,很多互联网高科技企业CIO们都意识到这并不属于自己核心研发部门所需要投入的研发方向和领域。当前,为了更好地训练和再训练AI模型以及AI推理,企业CIO们都构建了自己的数据资产管理平台,数据资产管理平台对接着两端——一端是数据供应链,一端是模型训练环境。对于专业的AI标注数据服务公司来说,将已有的方法论进行沉淀,再将行之有效的方式固化下来,形成能够复用且易用的产品级能力,就能大规模赋能AI模型迭代。

全场景覆盖AI模型生命周期

在意识到数据标注工具平台对于AIOps的重要性后,澳鹏Appen在2019收购了创立于硅谷的数据标注平台Figure 8,并将之与澳鹏全球上百万的众包工作者和团队相结合,澳鹏中国也于2022年1月推出了自研的面向中国大陆、港澳台及亚太区域的MatrixGo企业版。目前,这些地区的客户可以通过MatrixGo的公有云SaaS版或纯私有化部署企业版,构建自己的AI标注数据供应链。

MatrixGo作为AI标注数据的采标一体化平台,为企业AI模型优化实现端到端的数据深度整合,同时提供丰富的标注工具以及一套支持大规模生产和复杂协同的智能标注工作流,在保证企业数据安全的前提下,建立企业AI数据供应链能力。MatrixGo被定位于AI行业赋能者,它可覆盖丰富的场景——支持全领域数据类型及应用场景,承诺极致的数据质量——提供海量高质量、无偏见、多元化的AI训练数据生产服务,确保数据标注流程合规及隐私保护——通过了ISO27001等标准及各种安全测试、众包员工年度完成合规培训。MatrixGo沉淀了丰富的AIOps方法论,提供丰富的API能力,可以与上下游系统进行良好集成。

MatrixGo让数据标注团队获得极高的生产力,大幅降低标注数据人员的门槛。MatrixGo面向AI数据标注的项目经理、标注员/质检员、供应商管理员、供应商项目经理供应商团队标注员/质检员、系统管理员等多种角色提供了丰富的平台功能:项目管理、资源管理、标注工具箱(AI辅助引擎、工作流引擎)、标注引擎等四大模块,其中项目管理可完成项目配置、工作流配置、资源分配、质量控制、可视化分析等,资源管理则是企业自有团队管理、BPO管理,数据收集和标注工具箱则提供了手机端数据收集应用、一系列标注工具以及人工智能辅助标注功能,而核心引擎则提供了标注引擎、质检引擎、任务分发和数据服务等。

数据收集和标注工具是MatrixGo的核心亮点之一。数据收集包括:手机端应用,可完成视频图像、音频文本甚至是复杂的手写体数据收集等;数据收集后的分发、质检反馈、工作量结算等,可实现系统化的数据收集和分发。特色标注工具则有语音数据处理的语音切分转写,高精度完成长语音的切分,可引导标注员方便地浏览或在不同音频段之间跳转;图像通用关键点标注工具能让标注员一边接受培训一边上手做项目,提高项目冷启动时的效率;2D图像标注工具支持网格视图模式且将质量保证固化到工具中,3D点云工具与2D标注框逻辑绑定,连续帧模式下可做到线性填充,部分帧可分钟级完成标注,质检达每帧秒级等等。

澳鹏2D图像复合标注示例

澳鹏2D图像复合标注示例

澳鹏3D点云拉框及2D映射(融合标注)示例

澳鹏3D点云拉框及2D映射(融合标注)示例

此外,MatrixGo还提供了模板引擎组件:支持脚本编程,可构建适配于项目定制化需求的工具,分钟级完成自定义工具,自定义工具与MatrixGo平台的数据统计等各流程节点直接集成。MatrixGo最重要的亮点是工作流调度:面向海量任务,支持高并发呑吐架构,平台上单点能够支持每秒3万任务的吞吐量,还可无限自动横向扩容;工作流并行消费数据中心的数据,进行各自生产再向统一节点进行交付;在项目生产过程中,项目经理可以随时修改任务,平台自动确保数据统计等正确。

张童皓强调,推出MatrixGo 私有化版本主要是为了满足对数据安全有更高诉求、在合规性方面有更高要求的中大型公司,科研和小型创业公司则更适合公有云SaaS方式。特别是MatrixGo的SaaS版本可对接澳鹏全球的数据标注众包人力资源并可通过扩展支持私有化文件服务的方式增强安全性,可满足中国企业出海的需求。目前,澳鹏中国的主要客户包括互联网、高科技、自动驾驶、AI创业公司、零售、医疗、高校等,2022年还将拓展更多的传统企业数字化转型市场。

总结来说:2022年是整个AI产业的一个分水岭,更高自动化程度的AI数据标注平台,正在定义整个模型生命周期内的AI模型质量与效果。AI数据标注的工业化运作,让DataOps成为了整个AIOps中最重要的环节。当前,互联网和高科技企业正在引领这一大趋势,未来将有更多的科技企业和传统企业数字化转型也将采用专业的AI数据标注平台。以澳鹏中国MatrixGo为代表的AI数据标注平台,将成为AI发展的重要赋能平台。

(注1:北京智源人工智能研究院:《2021人工智能的认知神经基础》白皮书。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/261505.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http和https的区别(简述)

HTTP(HyperText Transfer Protocol)和HTTPS(HTTP Secure)都是用于在客户端和服务器之间传输数据的协议,但它们在安全性方面有重要的区别。 1.HTTP: 概述: HTTP是一种用于传输超文本的协议(超文…

SAP MIGO发货过账的时候批次库存确定:事务码MBC1进行激活即可

事务码: MBC1 ~ MBC3 使用MBC1按照工厂层级进行激活 接下来MIGO发货过账的时候就可以使用批次库存确定了,点击下图中圈出来的库存确定按钮

Git详解及 github与gitlab使用

目录 1.1 关于版本控制 1.1.1 本地版本控制 1.1.2 集中化的版本控制系统 1.1.3 分布式版本控制系统 1.2 Git简介 1.2.1 Git历史 1.3 安装git 1.3.1 环境说明 1.3.2 Yum安装Git 1.3.3 编译安装 1.4 初次运行 Git 前的配置 1.4.1 配置git 1.4.2 获取帮助 1.5 获取 G…

使用python构建Android,探索跨平台应用开发Kivy框架

使用python构建Android,探索跨平台应用开发Kivy框架 1. 介绍Kivy框架 Kivy是什么? Kivy是一个开源的Python跨平台应用程序开发框架,旨在帮助开发者快速构建创新的、可扩展的移动应用和多点触控应用。Kivy采用MIT许可证,允许开发…

适用于 Windows 的 12 个最佳 PDF 编辑器

PDF文档的普遍存在按理说,PDF文档的可读性和可移植性受到专业文档的青睐。 然而,PDF格式的可食用性是一大缺陷。幸运的是,各种 PDF 编辑工具和软件使 PDF 的编辑变得更加容易,这篇文章旨在帮助我们的读者找到其中最好的工具和软件…

【码银送书第十二期】世界顶级名校计算机专业,都在用哪些书当教材?

清华、北大、MIT、CMU、斯坦福的学霸们在新学期里要学什么?今天我们来盘点一下那些世界名校计算机专业采用的教材。 01《深入理解计算机系统》 (原书第3版) 作者:兰德尔 E.布莱恩特 大卫 R. 奥哈拉伦 推荐理由:卡内基…

备战蓝桥杯---动态规划(应用2(一些十分巧妙的优化dp的手段))

好久不见,甚是想念,最近一直在看过河这道题(感觉最近脑子有点宕机QAQ),现在算是有点懂了,打算记录下这道又爱又恨的题。(如有错误欢迎大佬帮忙指出) 话不多说,直接看题&…

实习日志18

1.刚弄好数据库就破大防了 1.1.图片显示,PDF不显示 我的图片是base64编码显示,pdf是用url显示 首先想到url出问题了 感觉可能是之前的那个问题,到服务器上url变回去了 活字格V9获取图片失败bug,报错404,了解存储路…

中科大计网学习记录笔记(十四):多路复用与解复用 | 无连接传输:UDP

前言: 学习视频:中科大郑烇、杨坚全套《计算机网络(自顶向下方法 第7版,James F.Kurose,Keith W.Ross)》课程 该视频是B站非常著名的计网学习视频,但相信很多朋友和我一样在听完前面的部分发现信…

【转载】企业资产收集与脆弱性检查工具

简介 云图极速版是针对拥有攻击面管理需求的用户打造的 SaaS 应用,致力于协助用户管理互联网资产攻击面的 SaaS 化订阅服务产品。可实现对备案域名、子域名、IP、端口、服务、网站、漏洞、安全风险等场景进行周期性监控,支持多维度分析攻击面。利用可视化…

多个.C 文件关于全局变量如何使用

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary_walk ⸝⋆ ━━━┓ - 个性标签 - :来于“云”的“羽球人”。…

pytest基本应用

文章目录 1.pytest安装2.用例运行规则3.常用参数断言运行参数用例控制setup和teardownini配置文件 4.常用插件5.pytest高阶用法用例跳过参数化 6.pytest之Fixture使用fixture使用装饰器usefixtures 7.pytest之conftest.py8.conftestfixtureyieldyield介绍前后置使用 1.pytest安…

LVGL8.1在Windows显示图片

1、将这些宏的值改成1,以便支持这些格式: 2、 这两个地方: LV_USE_FS_WIN32 设置符号,大小写字母、“\”、“”等符号都可以。 LV_FS_WIN32_PATH 为一个目录,图片放入此目录。 3、载入图片: “M:color.pn…

TestNG与ExtentReport单元测试导出报告文档

TestNG与ExtentReport集成 目录 1 通过实现ITestListener的方法添加Reporter log 1.1 MyTestListener设置 1.2 输出结果 2 TestNG与ExtentReporter集成 2.1 项目结构 2.2 MyExtentReportListener设置 2.3 单多Suite、Test组合测试 2.3.1 单Suite单Test 2.3…

问题:Spark SQL 读不到 Flink 写入 Hudi 表的新数据,打开新 Session 才可见

博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,…

k8s版本升级后,pod一直无法被调度

故障现象:升级完k8s后,部署pod时发现pod无法被调度到node节点,pod的状态一直是pending状态。 报错内容:User-scheduler pods fail with “no kind “KubeSchedulerConfiguration” is registered for version “kubescheduler.co…

HCIP---OSPF综合实验

一:实验要求 1、R4为ISP,其上只能配置IP地址,R4与其所有直连设备间均使用公有IP 2、R3-R5/6/7为MGRE环境,R3为中心站点 3、整个OSPF环境IP基于R4的环回 4、所有设备均可访问R4的环回 5、减少LSA的更新量,加快收敛…

怿星科技测试实验室(EPT LABS)服务介绍

据中国汽车工业协会数据,2023年我国汽车产销量分别达3016.1万辆和3009.4万辆,年产销量双双创历史新高,汽车行业进入了新时代。新汽车时代下的OEM竞争更激烈,汽车电子架构更复杂,研发周期更短,软件迭代更快&…

Cesium 问题:加载 gltf 格式的模型之后太小,如何让相机视角拉近

文章目录 问题分析问题 刚加载的模型太小,如何拉近视角放大 分析 在这里有两种方式进行拉近视角, 一种是点击复位进行视角拉近一种是刚加载就直接拉近视角// 模型三加载 this.damModel = new Cesium.Entity({name: "gltf模型",position:</

【AI大语言模型】ChatGPT在地学、GIS、气象、农业、生态、环境等领域中的应用

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮&#xff0c;可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…