某快餐店用户市场数据挖掘与可视化

1、必要库的载入

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

2、加载并清洗数据

# 2.1 加载数据
df = pd.read_csv('/home/mw/input/survey6263/mcdonalds.csv')# 2.2 数据清洗
# 2.2.1 检查缺失值
print('缺失值情况：')
print(df.isnull().sum())
# 2.2.2 处理异常值（年龄范围在18 - 100岁为合理范围）
df = df[(df['Age'] >= 18) & (df['Age'] <= 100)]# 查看数据集行数和列数
rows, columns = df.shapeif rows < 100 and columns < 20:# 短表数据（行数少于100且列数少于20）查看全量数据信息print('数据全部内容信息：')print(df.to_csv(sep='\t', na_rep='nan'))
else:# 长表数据查看数据前几行信息print('数据前几行内容信息：')print(df.head().to_csv(sep='\t', na_rep='nan'))

在这里插入图片描述

3、可视化设置

# 3.1 设置图片清晰度
plt.rcParams['figure.dpi'] = 300
# 3.2 设置中文字体
plt.rcParams['font.sans-serif'] = ['WenQuanYi Zen Hei']
# 3.3 解决负号显示问题
plt.rcParams['axes.unicode_minus'] = False

4、顾客基础特征分析

4.1 顾客年龄分布和性别分布

import matplotlib.pyplot as plt
import seaborn as sns# 年龄分布
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df['Age'], bins=20, kde=False)
plt.title('Age distribution')# 性别分布
plt.subplot(1, 2, 2)
gender_counts = df['Gender'].value_counts()
sns.barplot(x=gender_counts.index, y=gender_counts.values)
plt.title('Gender distribution')plt.tight_layout()
plt.show()print('顾客年龄分布：')
print(df['Age'].describe())
print('\n顾客性别分布：')
print(df['Gender'].value_counts())

在这里插入图片描述

4.1.1 年龄分布

4.2 顾客光顾频率与年龄、性别的关系

plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x='VisitFrequency', y='Age', data=df)
plt.title('Frequency VS Age')
plt.xticks(rotation=45)plt.subplot(1, 2, 2)
sns.countplot(x='VisitFrequency', hue='Gender', data=df)
plt.title('Frequency VS Gender')
plt.xticks(rotation=45)plt.tight_layout()
plt.show()print('光顾频率与年龄的关系：')
print(df.groupby('VisitFrequency')['Age'].describe())
print('\n光顾频率与性别的关系：')
print(pd.crosstab(df['VisitFrequency'], df['Gender']))

在这里插入图片描述

4.2.1 光顾频率与年龄的关系

4.3 顾客对某快餐店各方面评价的分布

# 提取评价列
evaluation_columns = ['yummy', 'convenient', 'spicy', 'fattening', 'greasy', 'fast', 'cheap', 'tasty', 'expensive', 'healthy', 'disgusting']# 创建画布
plt.figure(figsize=(15, 10))# 绘制每个评价的分布柱状图
for i, column in enumerate(evaluation_columns):plt.subplot(3, 4, i + 1)value_counts = df[column].value_counts()sns.barplot(x=value_counts.index, y=value_counts.values)plt.title(f'{column} distribution')plt.tight_layout()
plt.show()# 查看每个评价的分布情况
for column in evaluation_columns:print(f'{column}评价分布：')print(df[column].value_counts())

在这里插入图片描述

4.4 顾客喜好与各评价之间的相关性

import re# 使用正则表达式提取 Like 列中的数字部分并转换为数值型
df['Like'] = df['Like'].apply(lambda x: int(re.findall(r'\d+', x)[0]))# 将评价列进行编码
for column in evaluation_columns:df[column] = df[column].map({'Yes': 1, 'No': 0})# 计算相关系数矩阵
correlation_matrix = df[evaluation_columns + ['Like']].corr()# 绘制热力图
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Customer preferences VS Reviews')
plt.show()print('顾客喜好与各评价之间的相关系数矩阵：')
print(correlation_matrix.round(2))

在这里插入图片描述

5、顾客口味偏好分析

import matplotlib.pyplot as plt# 统计口味相关特征的分布（选取 spicy, yummy, tasty, greasy 作为口味相关特征）
taste_features = ['spicy', 'yummy', 'tasty', 'greasy']
fig, axes = plt.subplots(2, 2, figsize=(12, 8))
axes = axes.ravel()for i, feature in enumerate(taste_features):value_counts = df[feature].value_counts()axes[i].pie(value_counts, labels=value_counts.index, autopct='%1.1f%%', startangle=90)axes[i].set_title(f'{feature} distribution')plt.tight_layout()
plt.show()# 查看具体比例
for feature in taste_features:print(df[feature].value_counts(normalize=True))

在这里插入图片描述

6、价格敏感性分析

# 统计认为便宜和昂贵的比例
cheap_counts = df['cheap'].value_counts(normalize=True)
expensive_counts = df['expensive'].value_counts(normalize=True)# 绘制柱状图
fig, axes = plt.subplots(1, 2, figsize=(10, 5))axes[0].bar(cheap_counts.index, cheap_counts)
axes[0].set_title('Thinking cheap')
axes[0].set_xlabel('cheap or not')
axes[0].set_ylabel('scale')axes[1].bar(expensive_counts.index, expensive_counts)
axes[1].set_title('Thinking expensive')
axes[1].set_xlabel('expensive or not')
axes[1].set_ylabel('scale')plt.tight_layout()
plt.show()print("认为便宜的比例：")
print(cheap_counts)
print("认为昂贵的比例：")
print(expensive_counts)

在这里插入图片描述

7、消费频率预测

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score# 对 object 类型数据进行编码
label_encoders = {}
for column in df.columns:if df[column].dtype == 'object':le = LabelEncoder()df[column] = le.fit_transform(df[column])label_encoders[column] = le# 准备特征和目标变量
X = df.drop(['VisitFrequency', 'Index'], axis=1)
y = df['VisitFrequency']# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report# 定义不同的模型
models = {'Logistic Regression': LogisticRegression(max_iter=1000),'Decision Tree': DecisionTreeClassifier(),'Random Forest': RandomForestClassifier(),'Support Vector Machine': SVC()
}# 训练和评估每个模型
for name, model in models.items():model.fit(X_train, y_train)y_pred = model.predict(X_test)accuracy = accuracy_score(y_test, y_pred)print(f'{name} 准确率: {accuracy:.4f}')print(f'{name} 分类报告:\n', classification_report(y_test, y_pred))print('-' * 50)

在这里插入图片描述

8、顾客画像分类

8.1 确定最佳簇数

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 尝试不同的簇数
silhouette_scores = []
for k in range(2, 11):kmeans = KMeans(n_clusters=k, random_state=42)kmeans.fit(X)labels = kmeans.labels_score = silhouette_score(X, labels)silhouette_scores.append((k, score))# 找到最高轮廓系数对应的簇数
best_k, _ = max(silhouette_scores, key=lambda x: x[1])
print(f'最佳簇数: {best_k}')

在这里插入图片描述

8.2 不同簇的特征分析

# 使用最佳簇数进行 KMeans 聚类
kmeans = KMeans(n_clusters=best_k, random_state=42)
df['Cluster'] = kmeans.fit_predict(X)# 分析不同簇的特征（以年龄和喜欢程度为例）
cluster_analysis = df.groupby('Cluster').agg({'Age': 'mean','Like': 'mean'
}).reset_index()print(cluster_analysis)

在这里插入图片描述
从年龄均值来看，簇 0 的顾客相对年轻，平均年龄约为 31 岁，而簇 1 的顾客平均年龄约为 56 岁，两者存在明显的年龄差异。在喜欢程度方面，两个簇的均值都比较高且较为接近，不过簇 1 的喜欢程度均值略高于簇 0，这可能暗示年龄较大的顾客对相关事物的喜欢程度稍高一些，但差异并不是非常显著。

8.3 不同簇的年龄和喜欢程度分布可视化

# 绘制不同簇的年龄和喜欢程度分布
plt.scatter(df['Age'], df['Like'], c=df['Cluster'])
plt.xlabel('Age')
plt.xticks(rotation=45)
plt.ylabel('Liking degree')
plt.title('Age VS liking of different clusters')
plt.show()

在这里插入图片描述

# 若需要完整数据集以及代码请点击以下链接
# https://mbd.pub/o/bread/mbd-aJaUlJpt

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/35302.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

某快餐店用户市场数据挖掘与可视化

1、必要库的载入

2、加载并清洗数据

3、可视化设置

4、顾客基础特征分析

4.1 顾客年龄分布和性别分布

4.1.1 年龄分布

4.2 顾客光顾频率与年龄、性别的关系

4.2.1 光顾频率与年龄的关系

4.3 顾客对某快餐店各方面评价的分布

4.4 顾客喜好与各评价之间的相关性

5、顾客口味偏好分析

6、价格敏感性分析

7、消费频率预测

8、顾客画像分类

8.1 确定最佳簇数

8.2 不同簇的特征分析

8.3 不同簇的年龄和喜欢程度分布可视化

相关文章

MySQL 衍生表（Derived Tables）

Electron使用WebAssembly实现CRC-16 MAXIM校验

HTB 学习笔记【中/英】《前端 vs. 后端》P3

SpringBoot集成ElasticSearch实现支持错别字检索和关键字高亮的模糊查询

麒麟系统使用-安装 SQL Developer

PrimeTime：timing_report_unconstrained_paths变量

洛谷 P1115 最大子段和（前缀和详解）c++

JetBrains（全家桶: IDEA、WebStorm、GoLand、PyCharm） 2024.3+ 2025 版免费体验方案

【数据分析】数据筛选与访问行列元素3

C++ std::list超详细指南：基础实践（手搓list）

【免费】2004-2017年各地级市进出口总额数据

谈谈 undefined 和 null

【第15届蓝桥杯】软件赛CB组省赛

【计算机视觉】工业表计读数（2）--表计检测

提示词工程（Prompt Engineering）

从Instagram到画廊：社交平台如何改变艺术家的展示方式

Typora 使用教程(标题,段落,字体,列表,区块,代码,脚注,插入图片,表格,目录)

关于deepseek R1模型分布式推理效率分析

力扣hot100二刷——二叉树

网络安全 --- 基于网络安全的 Linux 最敏感目录及文件利用指南