数据处理脚手架PyODPS入门体验

ace9ad1ab3e01fe687fe7e6ec1e8ad4c.gif

本文分享了初次使用PyODPS(Python版的Open Data Processing Service)的心路历程。作者通过实际案例,深入浅出地探讨了PyODPS相较于传统ODPS SQL在数据处理上的灵活性与便捷性,特别是在处理复杂JSON字段统计与多条件筛选方面展现出的独特优势。同时,文章诚实地指出了PyODPS学习曲线陡峭、运行效率较低及文档细节需完善等不足。借助一系列代码示例,作者不仅揭示了PyODPS中DataFrame操作的精髓,还贴心地总结了调试技巧与最佳实践,为读者搭建起一套实用的数据处理脚手架。

96b5e86dd87c8e89b2a83a8c86e1ecaa.png

背景介绍

刚开始接触ODPS时,最初有一个需求比较简单,通过ODPS SQL的方式很快得到了解决。

不过最近收到了一个稍微棘手一点的数据处理需求:

  • 统计某些展厅的uv,展厅商品的uv,计算一个比例

  • 统计展厅中某一个json字段内,满足某些条件的数量统计

这里先总结一下PyODPS的优势

  • 灵活的row handle,能灵活地进行数据处理。事实上,需求中也需要对一个json对象进行统计分析,这点上用SQL会非常痛苦。

  • 可以全量加载内容比较少的表、文件资源,降低表处理逻辑上的复杂性。而SQL在这点上没有优势,只能疯狂的join。

  • 优秀的可配置能力,比如说在我这个需求中出现了需要hardCode配置的多关键字过滤

  • 复用SQL处理逻辑,在我的场景里,我需要统计总的比例,与最近15天的比例。但统计逻辑是一样的,不同的是数据的范围~

劣势也很明显:

  • 基本就是写SQL的思路写python。DataFrame基本就是以SQL的表达对数据处理的封装。

  • 运行贼慢,每次调试时间很久。

  • 不能说文档不全面,但是很多语法编译都能过,实际运行没效果。

针对pyodps与python的区别, 我用一段条件判断代码来做个解释:

# 这段是生效的,最后的sql,包含where key in (?) and source == "A"
uv_table = visit_table[visit_table.key.isin(target_key_list) \& (visit_table.source == "A")
].groupby(visit_table.target_id)
# 这段是有问题的。最后的sql,只有where source == "A"
uv_table = visit_table[visit_table.key.isin(target_key_list)and (visit_table.source == "A")
].groupby(visit_table.target_id)
# 这段也是ok的,看起来是官方文档中推荐的写法
uv_table = visit_table[visit_table.key.isin(target_key_list) & (visit_table.source == "A")
].groupby(visit_table.target_id)
# 这段也是ok的,这里换行没有任何问题,也就是说\可加可不加。
uv_table = visit_table[visit_table.key.isin(target_key_list)& (visit_table.source == "A")
].groupby(visit_table.target_id)
# 这段就是不行的,会丢失in。对应到SQL就是 where true and source == "A"
uv_table = visit_table[visit_table.key in target_key_list & (visit_table.source == "A")
].groupby(visit_table.target_id)

上面的代码示例,全部都可以正常编译且执行,但是从结果上来说却大有不同:

  • 在PyOdps对象中,使用了python语言特性的判断条件,如a in a_list、a is None这类逻辑均不会生效,会被忽略。取而代之,应该使用a.isin(a_list)、a.isnull()这样的pyodps方法。

所以先解释下为啥拿判断条件开头:已经被坑了n次了,编译全过,运行完成,但结果却经常没生效某一些条件,导致来来回回全文检查。甚至我感觉这个是目前来说最容易踩坑的点。

最后推荐的判断条件写法如下:

uv_table = visit_table[(visit_table.key.isin(target_key_list))& (visit_table.source == "A")
].groupby(visit_table.target_id)

每个判断条件均用()包裹,并换行or不换行&与、|或、~非,分割条件。

从这个点延伸开,我们已经发现了,PyODPS中,有两种思路。一种是面向DataFrame而另一种则是面向纯Python。

正常来说通篇均为面向DataFrame,除了以下情况:

  • 通过TableReader、table.head(10)等方法将表数据读取为python的list对象数据。后续的处理逻辑均需要用python去解决。

  • @output代码处理逻辑,全部为python的能力去解决。

  • class Agg,这种自定义聚合代码,均为Python的逻辑进行处理。

而所有与DataFrame相关的逻辑,都必须查文档来处理,比如说对json的处理,我们就需要使用df.func.get_json_obj(table_name.field),而不能使用python的json.loads()。

数据的空判断则需要用a.isnull()或者a.notnull()等方法。

pyodps文档:https://pyodps.readthedocs.io/zh-cn/stable/api-df.html

写完了脚本回来一看就有种理所当然的感觉~不得不说设计上还是巧妙的。

但是这里不得不提一个点:

  • PyODPS如果用了错误的方式调用,则也不会错误,必须仔细检查我们的SQL。是否达到我们预期的想法。

所以调试我们的PyODPS,就是重中之重

同时,对于去重来说,官方文档的方法好像是有问题的。

# 这段只会提示no field in XXXXGroupBySequence(具体是啥记不住了)
show_room_uv = show_room_uv.agg(show_room_uv=show_room_uv.visitor_id.unique())# 反复验证后,正确的去重计数是nunique()

吐槽结束,接下来开始本期的重点。

PyODPS开发的基本脚手架

咱们的这个数据处理的功能非常适合以一个基础的脚手架起步~
这里我根据自己的开发经验总结了一个:

from odps.df import DataFrame, Scalar, func, output# args也是一个内置对象,就是我们在调度配置中的参数
bizdate = args["bizdate"]output_table = "xxxx"
# 加载我们的数据表。o是一个内置对象。也有o.get_table("xxx").to_df()的写法。
data_process_table = DataFrame(o.get_table("xxxx"))# 加载我们的数据
import json
filters_words = []
# filters_words.txt就是我们放在MaxCompute -> 资源下的文件。
with o.get_resource('filters_words.txt').open('r', encoding='utf-8') as f:filters_words = json.loads(f.read())
# 这里就是odps语法了,这里等同于 where content in (?, ?)。包括说content is null,就是content.isnull()。
# 在DataFrame的范围内,需要遵从官方的API。
data_process_table[data_process_table.content.isin(filters_words)
]
# 如果要like怎么处理呢?
data_process_table = data_process_table.query(" or ".join([f"content.contains('{x}')" for x in filters_words])
)@output(["content_len"], ["int64"])
def handle(row):# 这里是按行处理数据。如果要做reduce之类的多行处理,要通过agg自定义聚合的逻辑。# python的数据处理yield len(row.content)# 很有意思的列处理,这个操作相当于handle处理完多了一列content_len。
# 另外我们可以理解每次[]处理完之后,是拿到了一个新的DataFrame对象。
res_t = data_process_table[data_process_table,data_process_table.apply(handle, axis = 1)
]
# 这一部分是后补的,纯手撕代码。
class Agg(object):def buffer(self):# 定义你心仪的聚合结果对象。自定义聚合的本质就是将结果加到这个buffer对象里return {"merge_length": 0}def __call__(self, buffer, content_len):if content_len is not None:# 当前聚合对象数据合并。数据被分成了无数个小片,这是其中一片的n条数据聚合buffer["merge_length"] += content_lendef merge(self, buffer, pbuffer):# 和其他的聚合对象进行合并~buffer["merge_length"] += pbuffer["merge_length"]def getvalue(self, buffer):return buffer["merge_length"]
# 调用聚合方法
to_agg = agg([# output输出的新字段,我们作为聚合的value去处理res_t.content_len],Agg,rtype="int64",)
# 用id去做聚合,对content_len的值进行运算,最后输出一个新字段value
res_t = res_t.groupby("id").agg(value=to_agg)
# 此时res_t的列有 id、value,两个字段。
# 调试用,看看数据,最后换成persist持久化到output表里。
res_t.head(10)
# 最后要写数据库了,直接用下面的方法.
# res_t.persist(output_table, partition=f"ds='{bizdate}'", drop_partition=True, create_partition=True)

在总结脚手架的时候,不得不说PyODPS是一个精妙的设计,估计是再也回不去写SQL的日子了。

PyODPS核心思想就两点:

  • 在DataFrame中做列处理和聚合。删除列,按条件过滤,整列计算。

  • 在handle中做行处理,同时定义按行处理后的输出列。难以分析的学习,直接用代码分析~

核心文档,写的过程中还是需要不断借鉴:

  • 列运算

  • 聚合操作,里面的unique应该是过期了,用nunique。一旦聚合后就是一个GroupBy对象,需要调用agg对聚合结果处理后,回到DataFrame

另外还得吐槽一句,确实很难写。

# 看着是不是没问题。直接报错.agg Syntax Error
closely_count_table = data_process_table.groupby('content_len')
.agg(closely_count = data_process_table.content_len)

这个写法里有两个问题:

  • 第一个是我怎么都摸不清的换行问题,即使不是这个情况,有的时候换行就会解析不了,包括条件判断。

  • 第二个呢,就是对象问题,agg函数的入参应该是一个GroupBy对象,而不是DataFrame。

但是,自定义聚合连着写又没啥问题,只能说最终解释权都在PyOdps。所以这里这么写是最保险的。

closely_count_table = data_process_table.groupby('content_len')
closely_count_table = closely_count_table.agg(closely_count = closely_count_table.content_len)

即使同为DataFrame也有一样的问题,不要妄想用多个[][]来完成多次处理。第一个[]内可以用当前的DataFrame,但第二个[]就不一样了,它需要的是第一个[]返回的DataFrame对象。举个例子:

# 过滤了content_len小于等于10的数据,并输出content.
# 但这个大概率是错的。虽然我没试过。
data_process_table = data_process_table[data_process_table.content_len > 10
][data_process_table.content
]
# 你可以这么写,因为过滤content_len的DataFrame仍然有content字段,通过字符是可以取出来的。
data_process_table = data_process_table[data_process_table.content_len > 10
]["content"]
# 保守写法
data_process_table = data_process_table[data_process_table.content_len > 10]
data_process_table = data_process_table[data_process_table.content]

关于list type:

@output(["list_value"],["list<string>"]
)
def handle_list_type(row):yield [["test1", "test2"]]

试了很多次才得到这个结果。看到结果的瞬间一下次就想明白了。

用这个例子做个解释:

@output(["int_value","string_value"],["int64", "string"]
)
def handle_list_type(row):yield 10, "test"

这里的10, "test"是一个元组,恐怕用了list()之类的方法对返回进行了包装。

我最初直接返回["test1", "test2"]的情况下,等同于返回2个string。

所以必须再包一层。想明白了这个原理,那么下面的写法会更加优雅:

@output(["list_value"],["list<string>"]
)
def handle_list_type(row):res = ["test1", "test2"]yield res, #这里有一个逗号
结语

PyODPS的列处理与聚合功能、行处理自定义逻辑,为大数据处理提供了新的视角和工具,让作者乃至更多开发者在告别纯SQL编写的同时,开启了数据处理的新篇章。总之,拥抱变化,勇于实践,PyODPS的潜力等待着每一位数据工程师去挖掘。

bf7e13a66fa46d5299256e1b292d965f.png

团队介绍

我们是淘天集团的场景智能技术团队,作为一支专注于通过AI和3D技术驱动商业创新的技术团队, 依托大淘宝丰富的业务形态和海量的用户、数据, 致力于为消费者提供创新的场景化导购体验, 为商家提供高效的场景化内容创作工具, 为淘宝打造围绕家的场景的第一消费入口。我们不断探索并实践新的技术, 通过持续的技术创新和突破,创新用户导购体验, 提升商家内容生产力, 让用户享受更好的消费体验, 让商家更高效、低成本地经营。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/425344.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

带你如何使用CICD持续集成与持续交付

目录 一、CICD是什么 1.1 持续集成&#xff08;Continuous Integration&#xff09; 1.2 持续部署&#xff08;Continuous Deployment&#xff09; 1.3 持续交付&#xff08;Continuous Delivery&#xff09; 二、git工具使用 2.1 git简介 2.2 git的工作流程 2.3 部署g…

基于R语言的统计分析基础:使用SQL语句操作数据集

在使用R语言数据分析时&#xff0c;可以融合SQL语言使数据聚集操作更加便利&#xff0c;同时也可以增加对SQL语句的熟悉。借助sqldf、DBI、RSDLite等包&#xff0c;可以在R环境中直接运用SQL语句&#xff0c;轻松实现数据的分组统计、汇总分析&#xff0c;SQL的强大查询能力简化…

腾讯云2024年数字生态大会开发者嘉年华(数据库动手实验)TDSQL-C初体验

在2024年9月5-6日&#xff0c;有幸参加了腾讯云举办的2024年数字生态大会开发者嘉年华。 有幸体验了腾讯的多项黑科技和云计算知识。特别是在“增一行代码”互动展区&#xff0c;体验了腾讯云云计算数据库TDSQL-C技术并进行了动手实验。这些技术充分展示了腾讯在云计算的强大实…

Vite + Electron 时,Electron 渲染空白,静态资源加载错误等问题解决

问题 如果在 electron 里直接引入 vite 打包后的东西&#xff0c;那么有些资源是请求不到的 这是我的引入方式 根据报错&#xff0c;我们来到 vite 打包后的路径看一看 &#xff0c;修改一下 dist 里的文件路径试了一试 修改后的样子&#xff0c;发现是可以的了 原因分析 …

粒子群算法(PSO算法)求解实例---旅行商问题 (TSP)

目录 一、采用PSO求解 (TSP)二、 旅行商问题2.1 实际例子&#xff1a;求解 6 个城市的 TSP2.2 **求解该问题的代码**2.3 代码运行过程截屏2.4 代码运行结果截屏&#xff08;后续和其他算法进行对比&#xff09; 三、 如何修改代码&#xff1f;3.1 减少城市坐标&#xff0c;如下…

Porcupine - 语音关键词唤醒引擎

文章目录 一、关于 Porcupine特点用例尝试一下 语言支持性能 二、Demo1、Python Demo2、iOS DemoBackgroundService DemoForegroundApp Demo 3、网页 Demo3.1 Vanilla JavaScript 和 HTML3.2 Vue Demos 三、SDK - Python 一、关于 Porcupine Porcupine 是一个高度准确和轻量级…

【软件测试】--xswitch将请求代理到测试桩

背景 在做软件测试的过程中&#xff0c;经常会遇见需要后端返回特定的响应数据&#xff0c;这个时候就需要用到测试桩&#xff0c;进行mock测试。 测试工程师在本地模拟后端返回数据时&#xff0c;需要将前端请求数据代理到本地&#xff0c;本文介绍xswitch插件代理请求到flas…

基于环境音频和振动数据的人类活动识别

这篇论文的标题是《Recognition of human activities based on ambient audio and vibration data》&#xff0c;作者是 Marcel Koch 等人&#xff0c;发表在 IEEE Access 期刊上。论文提出了一种基于环境音频和振动数据的分布式多传感器系统&#xff0c;用于识别人类活动。以下…

Anaconda安装并配置Python环境

背景概述 Anaconda&#xff0c;中文大蟒蛇&#xff0c;是一个开源的Anaconda是专注于数据分析的Python发行版本&#xff0c;包含了conda、Python等190多个科学包及其依赖项。 Anaconda就是可以便捷获取包且对包能够进行管理&#xff0c;包括了python和很多常见的软件库和一个…

web基础之RCE

简介&#xff1a;RCE称为远程代码执行漏洞&#xff1b;是互联网的一种安全漏洞&#xff1b;攻击者可以直接向后台服务器远程注入操作系统命令&#xff1b;从而操控后台系统&#xff1b;也是CTF比较常考的一个方面 1、eval执行 &#xff08;1&#xff09;分析后端代码&#xf…

什么是API网关(API Gateway)?

1. 什么是API网关&#xff08;API Gateway&#xff09;&#xff1f; 在微服务体系结构中&#xff0c;客户端可能与多个前端服务进行交互。 API 网关位于客户端与服务之间。 它充当反向代理&#xff0c;将来自客户端的请求路由到服务。 它还可以执行各种横切任务&#xff0c;例…

机器学习 vs 深度学习:深入浅出解析两者的区别

在当今科技飞速发展的时代&#xff0c;**机器学习&#xff08;Machine Learning&#xff09;和深度学习&#xff08;Deep Learning&#xff09;**成为了人工智能&#xff08;AI&#xff09;领域的热门话题。无论你是技术专家、学生&#xff0c;还是对AI感兴趣的普通读者&#x…

Linux-mysql5.7-mysql8.0安装包下载及安装教程,二合一

一、安装包下载 1、手动下载 MySQL :: Download MySQL Community Server 2、wegt下载 wget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz 登录自己的liunx &#xff0c;复制上面的命令下载。 二、手动安装 1、上传压缩包到…

关于less的基本使用

1、介绍及概述 1.1、解释 less 是方便开发人员书写CSS的一门预处理语言。浏览器只认识html /css /js格式的文件&#xff0c;所以直接引入.less文件&#xff0c;没有任何的效果&#xff0c;需要把less文件转换成css文件 1.2、概述 CSS弊端&#xff1a; 没有逻辑性、变量、函…

php语言基本语法

HP&#xff08;Hypertext Preprocessor&#xff09;是一种广泛使用的开源服务器端脚本语言&#xff0c;特别适合于Web开发。 它能够嵌入到HTML中&#xff0c;执行动态网页内容。 PHP的一些基本语法元素&#xff1a; 1. 基本结构 PHP代码通常嵌入到HTML中&#xff0c;以<…

【三大运营商】大数据平台体系架构【顶层规划设计】

在国内运营商&#xff08;如中国移动、中国联通、中国电信&#xff09;的大数据平台建设中&#xff0c;顶层规划设计至关重要。以下是针对三大运营商为例【如电信】的大数据平台体系架构的顶层规划设计方案&#xff0c;涵盖整体架构、关键组件、数据管理、应用场景等方面。 1. …

Python 解析 JSON 数据

1、有如下 JSON 数据&#xff0c;存放在 data.json 文件&#xff1a; [{"id":1, "name": "小王", "gender": "male", "score": 96.8}, {"id":2, "name": "小婷", "gender&qu…

[网络]https的概念及加密过程

文章目录 一. HTTPS二. https加密过程 一. HTTPS https本质上就是http的基础上增加了一个加密层, 抛开加密之后, 剩下的就是个http是一样的 s > SSL HTTPS HTTP SSL 这个过程, 涉及到密码学的几个核心概念 明文 要传输的真正意思是啥 2)密文 加密之后得到的数据 这个密文…

使用knn算法对iris数据集进行分类

程序功能 使用 scikit-learn 库中的鸢尾花数据集&#xff08;Iris dataset&#xff09;&#xff0c;并基于 KNN&#xff08;K-Nearest Neighbors&#xff0c;K近邻&#xff09;算法进行分类&#xff0c;最后评估模型的准确率。 代码 from sklearn import datasets# 加载鸢尾…

SpringBoot+vue集成sm国密加密解密

文章目录 前言认识SM2后端工具类实现引入依赖代码实现工具类&#xff1a;SM2Util 单元测试案例1&#xff1a;生成服务端公钥、私钥&#xff0c;前端js公钥、私钥案例2&#xff1a;客户端加密&#xff0c;服务端完成解密案例3&#xff1a;服务端进行加密&#xff08;可用于后面前…