Flink ML 的新特性解析与应用

摘要:本文整理自阿里巴巴算法专家赵伟波,在 Flink Forward Asia 2023 AI特征工程专场的分享。本篇内容主要分为以下四部分:

  1. Flink ML 概况
  2. 在线学习的设计与应用
  3. 在线推理的设计与应用
  4. 特征工程算法与应用

一、Flink ML 概况

图片

Flink ML 是 Apache Flink 的子项目,遵循 Apache 社区规范,愿景是成为实时传统机器学习的事实标准。

2022年1月份 Flink ML API 发布,7月份发布完备、高性能的 Flink ML 基础设施,2023年4月份发力特征工程算法并服务用户,6月份支持 Flink 多版本。

二、在线学习的设计与应用

2.1 在线机器学习工作流样例

图片

有两个模型AB,用 online 在线学习的方式去训练这两个模型,并且使用模型去进行在线推理,在推理过程中这个模型是流动形式,叫做 Model stream (模型流),以模型流的方式将模型不断地流入链路中,使模型具有更好的实时性。推理结束之后,推理样本会推荐给一些前方的客户,客户对结果进行反馈,再进行一些样本的拼接,最后返回到训练的数据流形成闭环,这就是工作流样例。

图片

接下来以工作流样例来介绍在线学习的设计。训练数据进行切分后,切成不同的 window,每个 window 在经过 Estimator 的时候需要更新里面的模型,之后该模型会流到下面推理的链路中,随着数据的不断流入,模型会一个接一个的往推理的链路中流动,这就是 Model stream(模型流),其思路是通过把模型做成一个队列的方式去支持推理以达到更好的时效性。

存在的问题:

  1. 如何使数据拆分更加合理?对不同的业务有不同的要求,有的希望用时间,有的希望用大小,都需要一些策略。
  2. 因为数据和模型都是流动的,两个往同一个地方去流,那么如何决定一条样本来了之后用哪个模型进行推理?
  3. 如何保证模型的一致性?因为链路中有两个模型,如果两个模型的训练数据不一致会导致出现一些问题。
  4. 数据是用哪一个模型推理出来的?每一条样本是哪个模型推理出来的,预测的好坏需要去追溯源头。

2.2 在线机器学习的设计

图片

针对四个问题,有四条设计需求:

  1. 支持将输入数据划分为多个 window 进行训练,产生一个模型流。
  2. 支持使用输入的模型流来对数据进行预测。
  3. 支持用户指定推理数据和当前模型数据的时间差。每一条样本来了之后,我们希望用最新的模型去进行推理,但是最新的模型可能还没有训练出来,这个时候就需要设定一个时间差,允许它用非最新的模型进行推理。
  4. 支持在输出数据中暴露预测每条数据时使用的模型版本。从预测结果追溯出模型的需求。

针对这些需求,我们的设计方案是:

  1. 增加 HasWindows 接口。
    允许用户声明划分数据的不同策略。
  2. 为 ModelData 增加 model version 和 timestamp。
    model version 的值从 0 开始,每次增加 1。
    模型数据的时间戳为训练得到该模型的数据的最大时间戳。
  3. 增加 HasMaxAllowedModelDelayMs 接口。
    允许用户指定预测数据 D 时,使用的模型数据 M 早于 D 的时间小于等于设定的阈值。
  4. 增加 HasModelVersionCol 接口。
    推理过程中,允许用户输出预测每条数据时使用的模型版本。

图片

有了方案之后再回来看问题:

  1. 怎么切分 window:
    提供 window 策略,用户可以根据自己的需求去做一些适合自己业务场景的切分。
  2. 选择哪一种模型来推理当前数据:
    通过阈值参数设定允许离当前数据多远的模型进行推理;理论上可以用最新模型,但是可能会造成等待之类的问题。
  3. 关于模型的一致性:
    每一条样本在预测的时候都会带一个模型版本,经过第一个模型预测再到第二个模型推理的时候会自动获取版本号,两边用同样的版本进行推理,最后输出的结果会带有一个版本号。

这样就把最初提的四个问题解决了。

2.3 在线学习在阿里云实时日志聚类的应用

图片

阿里云 ABM 运维中心会把阿里所有平台的日志都收集到一起,然后会针对错误日志做一个聚类,把错误日志发送到对应的部门,去进行后续的处理。

图片

传统算法工程链路首先进行数据输入,用 Flink job 进行数据加工处理,数据会落盘,之后通过定时调度来拉起聚类算法,然后写出模型,这个模型再通过加载的方式拉起 Flink job 进行数据预测,但是整个链路具有局限性,流程比较复杂,运维成本比较高,实时性低,并且性能难以保证。

图片

日志聚类算法流程把系统日志进行预处理和编码后分词,做特征选择提取关键词,然后做日志的特征表示和标准化,再做层次聚类,日志的类别,最后写出到数据库,用来指导分词。

图片

针对该流程我们使用 Flink ML 构建流式日志聚类就可以把这个流程串起来。通过 Flink job 拼接 SLS 与数据库全量数据,接着进行清洗和编码日志数据,然后分词和标准化,计算聚类结果,最后选取簇内典型代表日志。

图片

把这个案例中的算子进行抽取,像 SLS 流式读取,分词,日志的向量化,特征选择,特征的标准化,这些并不是业务独有的,而是很多在线学习业务都需要的算子,把它抽取出来,做成一个独立的组件,客户需要做在线学习流程的时候可以来复用这些算子。

图片

日志聚类算法链路升级的收益:

  • 在链路延迟方面,将原来 5 min 的延迟降低到 30s
  • 运营成本降低,现在只需要维持 1 个 Flink 作业
  • 分析成本降低
  • 算法性能提升

三、在线推理的设计与应用

图片

推理主要分为:

  1. 批量推理:例如,有 100w 条数据落盘,然后起一个批的任务对这100万条数据进行推理,再进行落盘。
  2. Near-line (近线)推理:基于 Flink 的任务,读取 Kafka 数据,通过 Transformer 的方式对流式的数据进行推理。这种推理有一个比较大的问题是延迟比较高,一般在百毫秒量级,在实际的业务场景中,推理需要很低的延迟,一般是几十毫秒甚至几毫秒,这就需要我们做一个推理框架去适应高要求的业务场景。

图片

在做这个之前我们对 Spark ML 的推理进行了一个调研。后来发现 Spark ML 本身是没有推理模块的,它有一个 mleap,把 Spark 推理这部分做成一个推理框架,这个推理框架与引擎 Runtime 完全无关,减少依赖冲突,是一个更轻量的框架,另外这个新框架可以为推理重写计算逻辑代码,拥有更大的优化空间。

3.1 设计需求

图片

设计需求借鉴了 mleap 的做法:

1. 数据表示(与 Flink Runtime 无关)

         单条数据表示:Row

         批量数据表示:DataFrame

         数据类型表示,提供 Vector、Matrix 等类型的支持

2. 推理逻辑表示

3. 模型加载

          支持从 Model/Transoformer#save 的文件中加载

          支持动态加载模型数据,而不需要重启

4. Utils

          支持检查 Transformer/PipelineModel 是否支持在线推理

          串联多个推理逻辑成单个推理逻辑

图片

在这个设计需求下,左边是推理的数据结构 DataFrame,包含了 Column names, Column types, Row,进入推理逻辑之后输出还是同样的数据结构,这样整个推理结构就可以串起来,不需要有数据结构转换。

图片

模型加载这边都是通过 save 函数将模型写入到磁盘,左边的 save 是 Flink ML 做的事情,右边的 loadServable 是推理框架做的事情,通过这两个函数实现了模型的保存加载和推理。

图片

接下来以逻辑回归为例来看代码的实现,通过 save 函数把模型写出到指定的目录,下面的 load 是推理框架做的事情,以 load 模型的文件去做推理。

图片

模型的数据更新这部分是通过把一个模型写入到 kafka 里面,kafka 再 set 到模型的 Servable 里面,当把模型写入到 kafka 里的时候模型会自然而然的流入到 Servable 里面,最终实现模型的动态更新。

下面是代码

图片

setModelData 的输入是 InputStream,它可以从 kafka 里读入,当更新 kafka 里的数据时它就可以更新到模型里面。

图片

另外我们也支持 PipelineModel 推理,可以从 PipelineModel 的模型数据构建 Servable, 检查 PipelineModel 是否支持在线推理,不需要执行训练作业就能判断。

3.2 使用场景

图片

最后来看使用场景,这是一个简化的 ML 模型训练、预测和部署的流程。首先是读入数据,做特征工程,然后做评估和部署。这边使用 PipelineModel 将标准化和 GBT 分类这两个模型打到 Pipeline 里面去,再去做在线的推理服务。

以下是代码

图片

将标准化和 GBT 两个模型通过 Pipeline 写出去,在推理模块中最终实现 Pipeline 的推理,并且推理支持写出和动态加载。

四、特征工程算法与应用

4.1 特征工程算法

图片

新增27个算法,总共33个,基本覆盖常用算法。

4.2 特征工程的应用

图片

首先是做推荐,广告的评估,都需要特征的处理。第二个应用场景是用于实现一些复杂的算法,以 GBT 为例,处理数值特征和处理类别型特征。另外在大语言模型这块,Flink ML 也做了一些设计。

图片

接下来以大语言模型为例,来看特征工程的业务。高质量的文本输入可以获得更好的大语言模型,而文本近似去重能提高文本质量。对于互联网数据来说,文本重复的比例通常 20%-60% 之间,文本规模越大,重复比例越高。

图片

针对这个问题,我们设计了近似去重流程:

  • 不同于精确去重:不要求完全一致,或者子串关系
  • 基于局部敏感性哈希 Locality-sensitive hashing:相似的样本更容易被 Hash 到相同的 buckets 内
  • 对于文本数据来说,通常基于文本特征化后的 Jaccard 距离,使用 MinHashLSH 来找到相似文本

图片

通过这些组件,可以完成文本去重流程:

  • Tokenizer:进行分词
  • HashingTF:将文本变换为 Binary 特征
  • MinHash:计算文本签名
  • MinHashLSH:进行 SimilarityJoin,找到相似对

图片

最后是性能的测试,这是手动构造的 Benchmark 数据集,直接通过复制、删除之类的操作拿到一个数据集。对于5亿的数据,重复率为 50%,耗时大概 1.5h,后面是对应的去重效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/262906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(六)激光线扫描-三维重建

本篇文章是《激光线扫描-三维重建》系列的最后一篇。 1. 基础理论 1.1 光平面 在之前光平面标定的文章中,已经提到过了,是指 激光发射器投射出一条线,形成的一个扇形区域平面就是光平面。 三维空间中平面的公式是: A X + B Y + C Z + D = 0 A X+B Y+C Z+D=0

创建一个基于Node.js的实时聊天应用

在当今数字化社会,实时通讯已成为人们生活中不可或缺的一部分。无论是在社交媒体平台上与朋友交流,还是在工作场合中与同事协作,实时聊天应用都扮演着重要角色。与此同时,Node.js作为一种流行的后端技术,为开发者提供了…

【C++】C++入门篇,初识C++----第一个C++结构,C++关键字,命名空间,C++的输入输出,缺省参数【图文详解】

欢迎来CILMY23的博客喔,本篇为【C】C入门篇,初识C----第一个C结构,命名空间,C的输入输出,缺省参数【图文详解】,深刻理解命名空间,带大家入门C,感谢观看,支持的可以给个一…

华为配置WDS手拉手业务示例

配置WDS手拉手业务示例 组网图形 图1 配置WDS手拉手业务示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。但企业考虑到AP通过有线部署的成本较高,所以通过建立…

SpringBoot源码解读与原理分析(三十)AOP模块的生命周期(三)代理对象的底层执行逻辑

文章目录 前言9.6 代理对象的底层执行逻辑9.6.1 DemoService#test9.6.2 获取增强器链9.6.2.1 前置准备9.6.2.2 匹配增强器9.6.2.3 匹配后的处理9.6.2.4 其他增强器的处理 9.6.3 执行增强器9.6.3.1 执行proceed方法9.6.3.2 下标值9.6.3.3 执行第一个增强器9.6.3.4 再次执行proce…

strings.xml补充知识

复数名词 <plurals name"book"><item name"one">book</item><item name"others">books</item> </plurals>int bookCount 4; Resources res getResources(); String bookCount res.getQuantityString(R.…

2.23数据结构

单向循环链表 创建单向循环链表&#xff0c;创建节点 &#xff0c;头插&#xff0c;按位置插入&#xff0c;输出&#xff0c;尾删&#xff0c;按位置删除功能 //main.c #include "loop_list.h" int main() {loop_p Hcreate_head();insert_head(H,12);insert_head(…

如何查看电脑使用记录?保障个人隐私和安全

查看电脑使用记录是了解电脑活动的一种重要方式&#xff0c;可以帮助用户追踪应用程序的使用情况、登录和关机时间、文件的访问记录等。在本文中&#xff0c;我们将介绍如何查看电脑使用记录的三个方法&#xff0c;以分步骤详细说明如何查看电脑使用记录&#xff0c;帮助用户更…

杂题——1097: 蛇行矩阵

题目描述 蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形。 输入格式 本题有多组数据&#xff0c;每组数据由一个正整数N组成。&#xff08;N不大于100&#xff09; 输出格式 对于每一组数据&#xff0c;输出一个N行的蛇形矩阵。两组输出之间不要额外的空行。矩阵三角…

如何用Docker+jenkins 运行 python 自动化?

1.在 Linux 服务器安装 docker 2.创建 jenkins 容器 3.根据自动化项目依赖包构建 python 镜像(构建自动化 python 环境) 4.运行新的 python 容器&#xff0c;执行 jenkins 从仓库中拉下来的自动化项目 5.执行完成之后删除容器 环境准备 Linux 服务器一台(我的是 CentOS7) …

Jmeter之内置函数__property和__P的区别

1. __property函数 作用 读取 Jmeter 属性 语法格式 ${__property(key,var,default)} 参数讲解 小栗子 ${__property(key)} 读取 key 属性如果找不到 key 属性&#xff0c;则返回 key&#xff08;属性名&#xff09; ${__property(key,,default)} 读取 key 属性如果找不到 k…

PHP实现分离金额和其他内容便于统计计算

得到的结果可以粘贴到excel计算 <?php if($_GET["x"] "cha"){ $tips isset($_POST[tips]) ? $_POST[tips] : ; $pattern /(\d\.\d|\d)/; $result preg_replace($pattern, "\t\${1}\t", $tips); echo "<h2><strong>数…

Python流程控制有知道的吗?

流程控制是编程的核心概念之一&#xff0c;Python也不例外。在Python中&#xff0c;程序的流程控制结构主要包括顺序结构、选择结构和循环结构。这些结构让程序员能够更好地组织代码&#xff0c;使其按照特定的逻辑执行。 1.顺序结构 顺序结构是Python中最简单的流程控制结构&…

ELK介绍以及搭建

基础环境 hostnamectl set-hostname els01 hostnamectl set-hostname els02 hostnamectl set-hostname els03 hostnamectl set-hostname kbased -i s/SELINUXenforcing/SELINUXdisabled/ /etc/selinux/config systemctl stop firewalld & systemctl disable firewalld# 安…

Unity数据持久化之PlayerPrefs

这里写目录标题 PlayerPrefs概述基本方法PlayerPrefs存储位置实践小项目反射知识补充数据管理类的创建反射存储数据----常用成员反射存储数据----List成员反射存储数据----Dictionary成员反射存储数据----自定义类成员反射读取数据----常用成员反射读取数据----List成员反射读取…

Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 视频片段

OpenAI 推出的人工智能功能曾经只存在于科幻小说中。 2022年&#xff0c;Openai 发布了 ChatGPT&#xff0c;展示了先进的语言模型如何实现自然对话。 随后&#xff0c;DALL-E 问世&#xff0c;它利用文字提示生成令人惊叹的合成图像。 现在&#xff0c;他们又推出了 Text-t…

选择适合你的编程语言

引言 在当今瞬息万变的技术领域中&#xff0c;选择一门合适的编程语言对于个人职业发展和技术成长至关重要。每种语言都拥有独特的设计哲学、应用场景和市场需求&#xff0c;因此&#xff0c;在决定投入时间和精力去学习哪种编程语言时&#xff0c;我们需要综合分析多个因素&a…

在 Jupyter Notebook 中查看所使用的 Python 版本和 Python 解释器路径

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 我们在做 Python 开发时&#xff0c;有时在我们的服务器上可能安装了多个 Python 版本。 使用 conda info --envs 可以列出所有的 conda 环境。当在 Linux 服务器上使用 which python 命令时&#xff0…

绿盾限制终端网络访问权限会恢复后,别的网站访问正常就是无法访问钉钉网站和下载东西

环境&#xff1a; Win10 专业版 钉钉7.5.5 绿盾7.0 问题描述&#xff1a; 绿盾限制终端网络访问权限会恢复后&#xff0c;别的网站访问正常就是无法访问钉钉网站和下载东西 解决方案&#xff1a; 排查方法 1.重置浏览器或者更换浏览器测试&#xff08;未解决&#xff09…

游戏行业洞察:分布式开源爬虫项目在数据采集与分析中的应用案例介绍

前言 我在领导一个为游戏行业巨头提供数据采集服务的项目中&#xff0c;我们面临着实时数据需求和大规模数据处理的挑战。我们构建了一个基于开源分布式爬虫技术的自动化平台&#xff0c;实现了高效、准确的数据采集。通过自然语言处理技术&#xff0c;我们确保了数据的质量和…