第五篇: 使用Python和BigQuery进行电商数据分析与可视化

使用Python和BigQuery进行电商数据分析与可视化

大数据分析对于电商业务的洞察至关重要。在这篇文章中,我们将使用Python结合Google BigQuery来分析电商数据集,以最畅销商品平均订单价格最高的前10位客户为主题,展示如何通过数据可视化提供有价值的业务见解。我们将重点介绍数据提取和可视化,帮助读者掌握在实际场景中如何直观展示数据分析结果。

1. 数据集与分析目标

本文使用Google BigQuery提供的公共电商数据集bigquery-public-data:thelook_ecommerce,其中包含用户的购买行为和商品信息等数据。本文的主要分析目标有两个:

  • 最畅销商品:分析销售量排名最高的商品。
  • 平均订单价格最高的前10位客户:识别在平均订单价格上消费较高的客户,以支持客户关系管理。

2. 设置环境并连接BigQuery

首先,确保安装了BigQuery的Python客户端库以及Matplotlib和Seaborn数据可视化库:

pip install google-cloud-bigquery matplotlib seaborn

初始化BigQuery客户端并进行身份验证:

from google.cloud import bigquery# 初始化BigQuery客户端
client = bigquery.Client()

3. 查询并获取数据

接下来,我们使用SQL查询BigQuery中的数据,提取最畅销商品和平均订单价格最高的前10位客户的数据。

查询1:最畅销商品

计算订单中每个商品的销量,并按销量从高到低排序:

SELECT oi.product_id AS product_id, p.name AS product_name, p.category AS product_category, COUNT(*) AS num_of_orders 
FROM `bigquery-public-data.thelook_ecommerce.products` AS p 
JOIN `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON p.id = oi.product_id 
GROUP BY 1, 2, 3 
ORDER BY num_of_orders DESC;

在Python中执行该查询:

# 查询最畅销商品
best_selling_query = """
SELECT oi.product_id AS product_id, p.name AS product_name, p.category AS product_category, COUNT(*) AS num_of_orders 
FROM `bigquery-public-data.thelook_ecommerce.products` AS p 
JOIN `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON p.id = oi.product_id 
GROUP BY 1, 2, 3 
ORDER BY num_of_orders DESC;
"""
best_selling_items = client.query(best_selling_query).to_dataframe()
查询2:平均订单价格最高的前10位客户

获取每个客户的平均订单价格,并按降序排列以显示消费水平最高的10位客户:

SELECT u.id AS user_id, u.first_name, u.last_name, AVG(oi.sale_price) AS avg_sale_price 
FROM `bigquery-public-data.thelook_ecommerce.users` AS u 
JOIN `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON u.id = oi.user_id 
GROUP BY 1, 2, 3 
ORDER BY avg_sale_price DESC 
LIMIT 10;

在Python中执行查询:

# 查询平均订单价格最高的前10位客户
top_customers_query = """
SELECT u.id AS user_id, u.first_name, u.last_name, AVG(oi.sale_price) AS avg_sale_price 
FROM `bigquery-public-data.thelook_ecommerce.users` AS u 
JOIN `bigquery-public-data.thelook_ecommerce.order_items` AS oi 
ON u.id = oi.user_id 
GROUP BY 1, 2, 3 
ORDER BY avg_sale_price DESC 
LIMIT 10;
"""
top_customers = client.query(top_customers_query).to_dataframe()

4. 数据可视化

获取数据后,接下来用Matplotlib和Seaborn将结果进行可视化。

4.1 最畅销商品柱状图

将最畅销商品按销量绘制成柱状图:

import matplotlib.pyplot as plt
import seaborn as sns# 绘制最畅销商品的柱状图
plt.figure(figsize=(10, 6))
sns.barplot(x='num_of_orders', y='product_name', data=best_selling_items.head(10), palette='viridis')
plt.title('Top 10 Best Selling Products')
plt.xlabel('Number of Orders')
plt.ylabel('Product Name')
plt.yticks(rotation=45, fontsize=8)  # 旋转45度并缩小字体
plt.show()

代码绘制图表示例:
在这里插入图片描述

4.2 平均订单价格最高的前10位客户饼图

将前10位客户的平均订单价格按比例绘制成饼图,展示客户消费贡献情况。

# 绘制平均订单价格最高的前10位客户饼图
labels = top_customers['first_name'] + ' ' + top_customers['last_name']
sizes = top_customers['avg_sale_price']plt.figure(figsize=(8, 8))
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
plt.title('Top 10 Customers by Average Order Price')
plt.show()

代码绘制图表示例:
在这里插入图片描述

5. 分析结果

  • 最畅销商品:通过柱状图展示商品销量,便于识别出在市场中更受欢迎的产品,有助于制定营销策略。
  • 前10位客户的平均订单价格:饼图显示这些高消费客户的相对贡献,可以为建立客户关系和激励措施提供支持。

总结

本文介绍了如何使用Python和Google BigQuery进行电商数据分析,展示了从数据提取到结果可视化的完整流程。在电商数据分析中,数据的可视化帮助我们更快识别业务趋势,未来还可以拓展至更复杂的分析需求,例如客户分层、产品推荐等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/463488.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot+Vue的快递物流信息查询系统设计与实现【前后端分离】

基于SpringBootVue的快递物流信息查询系统设计与实现 摘要 随着电子商务的快速发展,快递物流系统的重要性愈发突出。针对用户对快递信息的实时查询需求,本系统结合Spring Boot和Vue技术,设计并实现了一个高效、易用的快递物流信息查询系统。系…

开源免费的API网关介绍与选型

api网关的主要作用 API网关在现代微服务架构中扮演着至关重要的角色,它作为内外部系统通信的桥梁,不仅简化了服务调用过程,还增强了系统的安全性与可管理性。例如,当企业希望将内部的服务开放给外部合作伙伴使用时,直…

WPF+MVVM案例实战(十七)- 自定义字体图标按钮的封装与实现(ABC类)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1、案例效果1、按钮分类2、ABC类按钮实现1、文件创建2、字体图标资源3、自定义依赖属性4、按钮特效样式实现 3、按钮案例演示1、页面实现与文件创建2、依赖注入3 运…

使用MongoDB Atlas构建无服务器数据库

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 使用MongoDB Atlas构建无服务器数据库 MongoDB Atlas 简介 注册账户 创建集群 配置网络 设置数据库用户 连接数据库 设计文档模式…

【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏

【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏 目录 文章目录 【大语言模型】ACL2024论文-07 BitDistiller: 释放亚4比特大型语言模型的潜力通过自蒸馏目录摘要研究背景问题与挑战如何解决创新点算法模型实验效果代码推荐阅读指数&…

P9220 「TAOI-1」椎名真昼

P9220 「TAOI-1」椎名真昼 考点:博弈论、拓扑、强连通分量。 难度: 提高/省选- 。 题意: ​ Alice 和 Bob 玩游戏,给定一个有向图,每个点有初始颜色(黑/白)。 ​ 双方轮番操作一次&#xf…

计算机网络:网络层 —— 多播路由选择协议

文章目录 多播路由选择协议多播转发树构建多播转发树基于源树的多播路由选择建立广播转发树建立多播转发树 组共享树的多播路由选择基于核心的生成树的建立过程 因特网的多播路由选择协议 多播路由选择协议 仅使用 IGMP 并不能在因特网上进行IP多播。连接在局域网上的多播路由…

例行性工作

1、单一执行------at-----仅处理执行一次就结束了 1.1工作过程 /etc/at.allow,写在该文件的人可以使用at命令/etc/at.deny,黑名单两个文件如果都不存在,只有root能使用 1.2命令详解------命令格式:at [参数] [时间] 2、循环执行…

使用Kafka构建大规模消息传递系统

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 使用Kafka构建大规模消息传递系统 引言 Kafka 简介 安装 Kafka 创建主题 生产者 消费者 高级特性 分区 持久化 消费者组 消息确认…

【sqlmap使用】

sqlmap简介 sqlmap 目录结构 sqlmap常用参数 sqlmap实现注入 测试注入点,检测到注入点后,直接爆数据库名 python sqlmap.py –u http://172.16.12.2/7/9/strsql.php --data "usernameadmin" --dbs注意sqlmap在使用过程中可能会出现几个需要…

【java】java的基本程序设计结构07-字符串

字符串 1. 创建字符串 最简单的: String str "hello"; 用构造函数创建字符串: String str2new String("hello"); String 创建的字符串存储在公共池中,而 new 创建的字符串对象在堆上: 注意: String 类…

数组排序简介-基数排序(Radix Sort)

基本思想 将整数按位数切割成不同的数字,然后从低位开始,依次到高位,逐位进行排序,从而达到排序的目的。 算法步骤 基数排序算法可以采用「最低位优先法(Least Significant Digit First)」或者「最高位优先…

w~Transformer~合集8

我自己的原文哦~ https://blog.51cto.com/whaosoft/12419881 #Batch Normalization 本文聚焦于Batch Normalization,Layer Normalization两个标准化方法,对其原理和优势等进行了详细的阐述。 这一篇写Transformer里标准化的方法。在Transformer中&am…

Hadoop——HDFS

什么是HDFS HDFS(Hadoop Distributed File System)是Apache Hadoop的核心组件之一,是一个分布式文件系统,专门设计用于在大规模集群上存储和管理海量数据。它的设计目标是提供高吞吐量的数据访问和容错能力,以支持大数…

废弃物分类分割系统:入门训练营

废弃物分类分割系统源码&数据集分享 [yolov8-seg-C2f-DCNV2-Dynamic&yolov8-seg-C2f-DWR等50全套改进创新点发刊_一键训练教程_Web前端展示] 1.研究背景与意义 项目参考ILSVRC ImageNet Large Scale Visual Recognition Challenge 项目来源AAAI Glob…

java项目之微服务在线教育系统设计与实现(springcloud)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的闲一品交易平台。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 微服务在线教育系统设计与…

拆换LED灯珠后测量是短路的,为何

今天更换灯珠遇到一个怪事情,拆换一颗好的灯珠上去,万用表测试是短路的。 后面测试电路板上面,中间的散热部分是跟二极管的正极想通的。而且恰恰此时,LED灯珠的散热部分是跟负极想通的。 遂将线路板上面的散热部分跟二极管正极割…

串口屏控制的自动滑轨(未完工)

序言 疫情期间自己制作了一个自动滑轨,基于无线遥控的,但是整体太大了,非常不方便携带,所以重新设计了一个新的,以2020铝型材做导轨的滑轨,目前2020做滑轨已经很成熟了,配件也都非常便宜&#x…

【NOIP提高组】Hankson的趣味题

【NOIP提高组】Hankson的趣味题 💐The Begin💐点点关注,收藏不迷路💐 Hanks 博士是BT (Bio-Tech,生物技术) 领域的知名专家,他的儿子名叫Hankson。现在,刚刚放学回家的Hankson 正在思考一个有趣…

Matlab车牌识别课程设计报告(附源代码)

Matlab车牌识别系统 分院(系) 信息科学与工程 专业 学生姓名 学号 设计题目 车牌识别系统设计 内容及要求: 车牌定位系统的目的在于正确获取整个图像中车牌的区域, 并识别出车牌号。通过设计实现车牌识别系…