#该题目来源于力扣:
1083. 销售分析 II - 力扣(LeetCode)
题目要求:
表:Product+--------------+---------+
| Column Name | Type |
+--------------+---------+
| product_id | int |
| product_name | varchar |
| unit_price | int |
+--------------+---------+
Product_id 是该表的主键(具有唯一值的列)。
该表的每一行表示每种产品的名称和价格。
表:Sales+-------------+---------+
| Column Name | Type |
+-------------+---------+
| seller_id | int |
| product_id | int |
| buyer_id | int |
| sale_date | date |
| quantity | int |
| price | int |
+------ ------+---------+
这个表可能有重复的行。
product_id 是 Product 表的外键(reference 列)。
buyer_id 永远不会是 NULL。
sale_date 永远不会是 NULL。
该表的每一行都包含一次销售的一些信息。编写一个解决方案,报告那些买了 S8 而没有买 iPhone 的 买家。注意,S8 和 iPhone 是 Product 表中显示的产品。以 任意顺序 返回结果表。结果格式如下所示。示例 1:输入:
Product table:
+------------+--------------+------------+
| product_id | product_name | unit_price |
+------------+--------------+------------+
| 1 | S8 | 1000 |
| 2 | G4 | 800 |
| 3 | iPhone | 1400 |
+------------+--------------+------------+
Sales table:
+-----------+------------+----------+------------+----------+-------+
| seller_id | product_id | buyer_id | sale_date | quantity | price |
+-----------+------------+----------+------------+----------+-------+
| 1 | 1 | 1 | 2019-01-21 | 2 | 2000 |
| 1 | 2 | 2 | 2019-02-17 | 1 | 800 |
| 2 | 1 | 3 | 2019-06-02 | 1 | 800 |
| 3 | 3 | 3 | 2019-05-13 | 2 | 2800 |
+-----------+------------+----------+------------+----------+-------+
输出:
+-------------+
| buyer_id |
+-------------+
| 1 |
+-------------+
解释:
id 为 1 的买家购买了一部 S8,但是却没有购买 iPhone,而 id 为 3 的买家却同时购买了这 2 部手机。
思路流程:
求解这个题,要求我们要先将两张表进行联合,按照buyer_id分组,然后按照product_name列用.value_counts()对类型进行统计变量的统计:
import pandas as pddef sales_analysis(product: pd.DataFrame, sales: pd.DataFrame) -> pd.DataFrame:data=pd.merge(product,sales,how='right',on='product_id')G_data=data.groupby('buyer_id')['product_name'].value_counts().reset_index()return G_data
| buyer_id | product_name | count |
| -------- | ------------ | ----- |
| 1 | S8 | 1 |
| 2 | G4 | 1 |
| 3 | S8 | 1 |
| 3 | iPhone | 1 |
可见基本的数据以及呈现,但我们想要查看每个人对应的每个产品的购买情况,以便后续的分析。这里用unstack函数进行列转行,用fill_values=0参数的设定将空值填充为0,使用reset_index将索引显示出来,以便后续的分析
import pandas as pddef sales_analysis(product: pd.DataFrame, sales: pd.DataFrame) -> pd.DataFrame:data=pd.merge(product,sales,how='right',on='product_id')G_data=data.groupby('buyer_id')['product_name'].value_counts().unstack(fill_value=0).reset_index()return G_data
| buyer_id | G4 | S8 | iPhone |
| -------- | -- | -- | ------ |
| 1 | 0 | 1 | 0 |
| 2 | 1 | 0 | 0 |
| 3 | 0 | 1 | 1 |
可见数据转换为了所有变量的0/1数据形式,购买过为1,未购买过0。做到现在,我们来判断一个客户买过S8没买过iPhone就简单许多了。最后只需要查询分组后的变量中S8是否不为0;iPhone是否为0即可:
import pandas as pddef sales_analysis(product: pd.DataFrame, sales: pd.DataFrame) -> pd.DataFrame:data=pd.merge(product,sales,how='right',on='product_id')G_data=data.groupby('buyer_id')['product_name'].value_counts().unstack(fill_value=0).reset_index()result=G_data.query('S8!=0 & iPhone==0')return result[['buyer_id']]