女性服装数据分析(电商数据)版本1

女性服装数据分析(电商数据)版本1

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()
data = pd.read_csv('Womens_Clothing.csv')
#  查看数据结构
data
Unnamed: 0Clothing IDAgeTitleReview TextRatingRecommended INDPositive Feedback CountDivision NameDepartment NameClass Name
0076733NaNAbsolutely wonderful - silky and sexy and comf...410InitmatesIntimateIntimates
11108034NaNLove this dress! it's sooo pretty. i happene...514GeneralDressesDresses
22107760Some major design flawsI had such high hopes for this dress and reall...300GeneralDressesDresses
33104950My favorite buy!I love, love, love this jumpsuit. it's fun, fl...510General PetiteBottomsPants
4484747Flattering shirtThis shirt is very flattering to all due to th...516GeneralTopsBlouses
....................................
2348123481110434Great dress for many occasionsI was very happy to snag this dress at such a ...510General PetiteDressesDresses
234822348286248Wish it was made of cottonIt reminds me of maternity clothes. soft, stre...310General PetiteTopsKnits
2348323483110431Cute, but see throughThis fit well, but the top was very see throug...301General PetiteDressesDresses
2348423484108428Very cute dress, perfect for summer parties an...I bought this dress for a wedding i have this ...312GeneralDressesDresses
2348523485110452Please make more like this one!This dress in a lovely platinum is feminine an...5122General PetiteDressesDresses

23486 rows × 11 columns

有上面结果可知:

该数据集包括23486行和10个特征变量。每行对应一个客户评论,并包含以下变量:

**服装ID:**整数分类变量,指的是要查看的特定作品。
**年龄:**评论者年龄的正整数变量。
**标题:**评论标题的字符串变量。
**评论文本:**评论正文的字符串变量。
**评分:**客户授予的产品评分的正序整数变量,从1最差,到5最佳。
**推荐的IND:**二进制变量,说明客户在推荐1的地方推荐产品,不推荐0的地方。
**积极的反馈计数:**积极的整数,记录发现该评论为积极的其他客户的数量。
**高级部门名称:**产品高级部门的分类名称。
**部门名称:**产品部门名称的分类名称。
**类名称:**产品类名称的分类名称。

中文名称 英文名称

服装ID Clothing ID

年龄 Age

标题 Title

评论文本 Review Text

评分: Rating

推荐的IND Recommended IND

积极的反馈计数 Positive Feedback Count

高级部门名称 Division Name

部门名称 Department Name

类名称 Class Name

data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23486 entries, 0 to 23485
Data columns (total 11 columns):
Unnamed: 0                 23486 non-null int64
Clothing ID                23486 non-null int64
Age                        23486 non-null int64
Title                      19676 non-null object
Review Text                22641 non-null object
Rating                     23486 non-null int64
Recommended IND            23486 non-null int64
Positive Feedback Count    23486 non-null int64
Division Name              23472 non-null object
Department Name            23472 non-null object
Class Name                 23472 non-null object
dtypes: int64(6), object(5)
memory usage: 2.0+ MB
#  查看缺失值
# data.isnull()
#  删除缺失值
df = data.dropna()
df
Unnamed: 0Clothing IDAgeTitleReview TextRatingRecommended INDPositive Feedback CountDivision NameDepartment NameClass Name
22107760Some major design flawsI had such high hopes for this dress and reall...300GeneralDressesDresses
33104950My favorite buy!I love, love, love this jumpsuit. it's fun, fl...510General PetiteBottomsPants
4484747Flattering shirtThis shirt is very flattering to all due to th...516GeneralTopsBlouses
55108049Not for the very petiteI love tracy reese dresses, but this one is no...204GeneralDressesDresses
6685839Cagrcoal shimmer funI aded this in my basket at hte last mintue to...511General PetiteTopsKnits
....................................
2348123481110434Great dress for many occasionsI was very happy to snag this dress at such a ...510General PetiteDressesDresses
234822348286248Wish it was made of cottonIt reminds me of maternity clothes. soft, stre...310General PetiteTopsKnits
2348323483110431Cute, but see throughThis fit well, but the top was very see throug...301General PetiteDressesDresses
2348423484108428Very cute dress, perfect for summer parties an...I bought this dress for a wedding i have this ...312GeneralDressesDresses
2348523485110452Please make more like this one!This dress in a lovely platinum is feminine an...5122General PetiteDressesDresses

19662 rows × 11 columns

分析

# 1. 可视化 给出评分者的年龄
plt.hist(df['Age'], color=color[1], label='age')
plt.legend()
plt.xlabel('age')
plt.ylabel('count')
plt.title('age of commentator')
print('\n figure 01')
 figure 01

在这里fff图片描述

得出结论

由figure01 可得出:给出评论的人的年龄大多在25到45之间,青年、中年人较多

# 2. 可视化不同年龄的等级图
plt.figure(figsize=(10, 8))
sns.boxplot(x='Rating', y='Age', data=df)
plt.title('age of rating')
print('\n figure 02')
 figure 02

在这里插入图片描述

得出结论

由figure02 可得出:给出评分分布的年龄都差不多

3、每个部门、推荐什么服装?
查看Division Name,Department Name和’Class Name的唯一值

print('高级部门Division Name', df['Division Name'].unique())
print()
print('部门Department Name',df['Department Name'].unique())
print()
print('类名称Class Name',df['Class Name'].unique())
高级部门Division Name ['General' 'General Petite' 'Initmates']部门Department Name ['Dresses' 'Bottoms' 'Tops' 'Intimate' 'Jackets' 'Trend']类名称Class Name ['Dresses' 'Pants' 'Blouses' 'Knits' 'Intimates' 'Outerwear' 'Lounge''Sweaters' 'Skirts' 'Fine gauge' 'Sleep' 'Jackets' 'Swim' 'Trend' 'Jeans''Shorts' 'Legwear' 'Layering' 'Casual bottoms' 'Chemises']

将Recommended IND推荐产品为1,不推荐0的数据分开

# recommend  not_recommend
recommend = df[df['Recommended IND'] == 1]
not_recommend = df[df['Recommended IND'] == 0]
# recommend.head()
not_recommend.head()
Unnamed: 0Clothing IDAgeTitleReview TextRatingRecommended INDPositive Feedback CountDivision NameDepartment NameClass Name
22107760Some major design flawsI had such high hopes for this dress and reall...300GeneralDressesDresses
55108049Not for the very petiteI love tracy reese dresses, but this one is no...204GeneralDressesDresses
1010107753Dress looks like it's made of cheap materialDress runs small esp where the zipper area run...3014GeneralDressesDresses
2222107731Not what it looks likeFirst of all, this is not pullover styling. th...207GeneralDressesDresses
252569731Falls flatLoved the material, but i didnt really look at...300InitmatesIntimateLounge
# 4.可视化不同部门的推荐和不推荐的叠加柱状图
plt.figure(figsize=(12,8))
plt.hist(recommend['Department Name'], color=color[2], alpha=0.5, label='recommend')
plt.hist(not_recommend['Department Name'], color=color[4], alpha=0.5, label='not_recommend')
plt.legend()
plt.xticks(rotation=45)
plt.title('Department recommend and not_recommend')
print('\n figure 03')
 figure 03

在这里插入图片描述

得出结论

由figure03可知 绿色的面积大于X色的面积,由此说明,大部分部门都可以推荐商品

# 可视化不同商品的推荐和不推荐叠加柱状图
plt.figure(figsize=(12,8))
plt.hist(recommend['Class Name'], color=color[1], alpha=0.5, label='recommend')
plt.hist(not_recommend['Class Name'], color=color[5], alpha=0.5, label='not_recommend')
plt.legend()
plt.xticks(rotation=45)
plt.title('Class recommend and not_recommend')
print('\n figure 04')
 figure 04

在这里插入图片描述

得出结论

从figure04看出:并不是卖最多的Knits商品推荐成功率最大

# 哪个年龄段的人对什么样的衣服发表什么样的评论
df['Review Length'] = df['Review Text'].astype(str).apply(len)
df
E:\anaconda\lib\site-packages\ipykernel_launcher.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value insteadSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

Unnamed: 0Clothing IDAgeTitleReview TextRatingRecommended INDPositive Feedback CountDivision NameDepartment NameClass NameReview Length
22107760Some major design flawsI had such high hopes for this dress and reall...300GeneralDressesDresses500
33104950My favorite buy!I love, love, love this jumpsuit. it's fun, fl...510General PetiteBottomsPants124
4484747Flattering shirtThis shirt is very flattering to all due to th...516GeneralTopsBlouses192
55108049Not for the very petiteI love tracy reese dresses, but this one is no...204GeneralDressesDresses488
6685839Cagrcoal shimmer funI aded this in my basket at hte last mintue to...511General PetiteTopsKnits496
.......................................
2348123481110434Great dress for many occasionsI was very happy to snag this dress at such a ...510General PetiteDressesDresses131
234822348286248Wish it was made of cottonIt reminds me of maternity clothes. soft, stre...310General PetiteTopsKnits223
2348323483110431Cute, but see throughThis fit well, but the top was very see throug...301General PetiteDressesDresses208
2348423484108428Very cute dress, perfect for summer parties an...I bought this dress for a wedding i have this ...312GeneralDressesDresses427
2348523485110452Please make more like this one!This dress in a lovely platinum is feminine an...5122General PetiteDressesDresses110

19662 rows × 12 columns

#  绘制单Review Length变量分布
# 单变量分布的最方便的方法是sns.distplot()功能。默认情况下,这将绘制直方图并拟合核密度估计(KDE)
fig = plt.figure(figsize=(12, 8))
ax = sns.distplot(df['Review Length'], color=color[3])
ax = plt.title("Length of Reviews")
print('\n figure 05')
 figure 05

在这里插入图片描述

得出结论

由figure05可得出 大部分人评论的长度都基本在500

#  可视化不同年龄段的评论长度分布
plt.figure(figsize=(18,8))
sns.boxplot(x='Age', y='Review Length', data=df)
print('\n figure 06')
 figure 06

在这里插入图片描述

# 评分与正面反馈计数
plt.figure(figsize=(12,8))
sns.boxplot(x = 'Rating', y = 'Positive Feedback Count', data = df)
print('\n figure 07')
 figure 07

在这里插入图片描述

得出结论

由图figure07可得出 评分在3以上的正面反馈的计数大

词云评论可视化

# 1. 数据清洗
import re
from wordcloud import WordCloud, STOPWORDSdef clean_data(text):letters_only = re.sub("[^a-zA-Z]", " ", text) #  替换标点符合等words = letters_only.lower().split()                            return( " ".join( words ))
#     return letters_onlystopwords= set(STOPWORDS)|{'skirt', 'blouse','dress','sweater', 'shirt','bottom', 'pant', 'pants' 'jean', 'jeans','jacket', 'top', 'dresse'}def create_cloud(rating):x= [i for i in rating]y= ' '.join(x)cloud = WordCloud(background_color='white',width=1600, height=800,max_words=100,stopwords= stopwords).generate(y)plt.figure(figsize=(15,7.5))plt.axis('off')plt.imshow(cloud)plt.show()
#  等级是5的词云图
rating5= df[df['Rating']==5]['Review Text'].apply(clean_data)
create_cloud(rating5)

在这里插入图片描述

#  等级是4的词云图
rating4= df[df['Rating']==4]['Review Text'].apply(clean_data)
create_cloud(rating4)

在这里插入图片描述

#  等级是3的词云图
rating3= df[df['Rating']==3]['Review Text'].apply(clean_data)
create_cloud(rating3)

在这里插入图片描述

#  等级是2的词云图
rating2= df[df['Rating']==2]['Review Text'].apply(clean_data)
create_cloud(rating2)

在这里插入图片描述

#  等级是1的词云图
rating1= df[df['Rating']==1]['Review Text'].apply(clean_data)
create_cloud(rating1)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39620.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2021年中国服装行业分析报告-产业规模现状与发展规划趋势

【报告类型】产业研究 【出版时间】即时更新&#xff08;交付时间约3个工作日&#xff09; 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了服装行业相关概述、中国服装行业运行环境、分析了中国服装行业的现状、中国服装行业竞争格局、对中国服装行业做了重…

2020年中国服装行业发展现状分析,消费理念的改变促使行业转型「图」

一、概述 1、定义 服装&#xff0c;是衣服鞋装饰品等的总称&#xff0c;多指衣服。在国家标准中对服装的定义为&#xff1a;缝制&#xff0c;穿于人体起保护和装饰作用的产品&#xff0c;又称衣服。服装在人类社会发展的早期就已出现&#xff0c;当时古人将一些材料做成粗陋的…

2020年中国服装行业数据中台研究报告

简介&#xff1a;36kr研究院全新出炉《2020年中国服装行业数据中台研究报告》显示&#xff1a;数据中台赋能企业数字化转型&#xff0c;成为降本增效新引擎。 -更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号&#xff08;文末扫…

怎么找服装行业客户 找服装客户的方法

服装销售寻找客户是实现客户引流的第一步&#xff0c;找到合适的获客渠道可以快速的吸引顾客&#xff0c;服装行业如果是主要外贸方向&#xff0c;现在电子商务十分发达&#xff0c;网上找客户覆盖面也很广&#xff0c;网上的信息太多太杂&#xff0c;具体要从哪里找客户比较合…

服装行业2023开年现状速递/服装行业的风险及应对方式/有这些特征的服装企业更容易翻身

在刚刚过去的春节假期里&#xff0c;我们经历了近3年最热闹的一次长假&#xff0c;几乎每天都能在街上看到熙熙攘攘的人流。 消费者逛街热情呈“井喷式暴涨”&#xff0c;实体店店主的钱包也跟着鼓起来不少&#xff0c;但年后是否能延续这种旺象&#xff1f;服装行业即将迎来全…

算法岗和开发岗有什么区别?

链接&#xff1a;https://www.zhihu.com/question/490150407 编辑&#xff1a;深度学习与计算机视觉 声明&#xff1a;仅做学术分享&#xff0c;侵删 作者&#xff1a;如雪https://www.zhihu.com/question/490150407/answer/2164415753 围城外的人&#xff0c;可能会以为开发岗…

2023五一数学建模竞赛选题人数公布

数据来源自&#xff0c;各个平台人数投票统计&#xff0c;仅供参考。 具体数值比例为&#xff1a; 题号人数A504B1174C1905 目前&#xff0c;五一数模竞赛C题半成品论文基本完成制作&#xff08;累计35页&#xff0c;10000字&#xff09;&#xff0c;注&#xff1a;蓝色字体…

为什么地球的生物都是碳基生命?科学家:大自然环境选择的结果

来源&#xff1a;科学的乐园 地球是一个有着多达数百万种生物形式的生命世界&#xff0c;不管这些物种的外形有多大的差异&#xff0c;也不管是植物还是动物&#xff0c;它们都有一个共同的本质&#xff0c;都是碳基生命。 可能有朋友会说了&#xff0c;生命体内最多的物质不是…

【深度学习之美笔记】人工“碳”索意犹尽,智能“硅”来未可知(入门系列之二)

目录 一、前言 二、深度学习再认识 2.1 人工智能的“江湖定位” 2.2 深度学习的归属 2.3.机器学习的形式化定义 2.4 为什么要用神经网络&#xff1f; 2.5 小结 2.6 请你思考 三、参考文献 四、参考 一、前言 在前面的小节中&#xff0c;我们仅仅泛泛而谈了机器学习、深…

华为鸿蒙碳基芯片,华为转投第三大CPU架构RISC-V?首款鸿蒙开发板曝光

原标题&#xff1a;华为转投第三大CPU架构RISC-V&#xff1f;首款鸿蒙开发板曝光 华为正倾力打造鸿蒙OS操作系统&#xff0c;预计6月2日v2.0版本转正&#xff0c;面向普通消费者开放升级体验。 与此同时&#xff0c;华为芯片业务的进展也备受关注。 经查&#xff0c;华为提供给…

二进制基础

二进制 二进制转换 1.计算机为什么使用二进制&#xff1f; 因为计算机最核心的计算原件是CPU&#xff0c;CPU外边有引脚&#xff0c;引脚是通电用的&#xff0c;通电时有时候通的是高电频有时候通的是低电频&#xff0c;用 “1” 来表示高电频&#xff0c;"0"表示低…

生命,到底是什么?

来源&#xff1a;腾讯研究院 作者&#xff1a;Mark A. Bedua 译者&#xff1a;宋词、范星辰 令人着迷的生命 地球表面布满了生命&#xff0c;而且通常很容易辨认。猫、胡萝卜、细菌都是活的&#xff0c;桥、肥皂泡、沙粒都是死的。但众所周知&#xff0c;生物学家们却没有关于生…

华为云首席产品官方国伟:没有人拥有看到未来的水晶球,云上突围之路如何走?

【摘要】 当下云发展有待突破的并不是技术问题&#xff1b;云厂商如何真正帮到企业上云&#xff1b;以不变应万变&#xff0c;什么是云产品规划的三个关键出发点&#xff1b;生态对于云的意义是什么&#xff1b;一起来听技术大咖聊聊云的故事。 本文分享自华为云社区《华为云首…

碳云智能想做的,是规划生命路线

雷锋网按&#xff1a;一家公司在做什么&#xff0c;其创始人说的最靠谱。除了题目&#xff0c;本文内容都由雷锋网(公众号&#xff1a;雷锋网)小编编辑自碳云智能CEO王俊在1月5日发布会上的演讲。在不改变原意的基础上&#xff0c;雷锋网做了比较多的删减和编辑。看完后应该可以…

计算机在生物学研究领域的认识,数字生命

数字生命是用计算机媒介来创造的新的生命形式&#xff0c;是具有自然生命特征或行为的人工系统。数字生命研究是指那些以计算机为媒介&#xff0c;以计算机程序为生命个体的人工生命研究。 中文学名 数字生命 遵循规律 遗传、进化兴起时间 20世纪80年代 适用范围 人类生殖、遗传…

碳基计算机电路,革命性的计算机技术:金属碳电路元件可在更快,更高效的碳基晶体管上工作...

宽带金属石墨烯纳米带(GNR)的扫描隧道显微镜图像。每个突起簇对应于一个单独占据的电子轨道。在每个簇附近形成五边形环会导致金属GNR的电导率增加十倍以上。GNR主干的宽度为1.6纳米。图片来源&#xff1a;UC Berkeley图片由Daniel Rizzo提供 碳金属线是用于碳基计算机的完整工…

碳基计算机电路,碳基电子学研究中心张志勇-彭练矛课题组在碳基逻辑集成电路领域取得重要进展...

作为数字集成电路的主流逻辑形式&#xff0c;互补金属氧化物半导体(CMOS)逻辑架构为硅集成电路技术的发展和繁荣做出了重要贡献。CMOS逻辑门包含一个由空穴型场效应晶体管(p-FET)组成的上拉网络和一个由电子型晶体管(n-FET)组成的互补下拉网络。与其他类型的逻辑类型相比&#…

华为鸿蒙碳基芯片,华为全球扫货应对危机,与北大联合研制碳基芯片,能否不用光刻机...

为了更好地应对这次危机&#xff0c;华为目前开启了全球扫货模式。据悉&#xff0c;华为及其供应商正在夜以继日地加紧备货&#xff0c;争取在9月15日之前&#xff0c;备足够多的关键芯片的元器件。 华为 这一次&#xff0c;备的货不仅仅是用于智能手机。而是华为全系列产品&am…

论文降重攻略

各个高校的学子们离毕业答辩的日子越来越近了&#xff0c;这段时间大家的心里肯定是很紧张的。没有通过论文检测的同学们应该抓紧时间了。有句话是这样说的&#xff1a;论文降重减少抄袭&#xff08;重复&#xff09;率比喻为一次战役&#xff0c;知己知彼方能百战百胜&#xf…

有哪些论文降重的方法?

降重可谓是论文完成后最重要的一个环节了&#xff0c;没有之一&#xff01;它直接关乎到你的论文能否顺利参与答辩&#xff0c;而降重相对来说又比较难&#xff0c;因为你只能在原文的基础上修修改改&#xff0c;还必须得达到降重要求&#xff0c;这让不少同学都犯了难。不过&a…