温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :)
1. 项目简介
随着电子商务的蓬勃发展,各大电商平台积累了海量的商品数据。如何从这些数据中提取有价值的信息,对于商家来说至关重要。本项目利用网络爬虫技术从京东电商平台采集各类品牌笔记本电脑的价格、销量、评论等数据,经过数据清洗后存入数据库,并实现电脑销售、市场占有率、价格区间等多维度的可视化统计分析,并基于多属性的特产的个性化推荐。 系统采用 Flask 框架构建后端分析服务,前端采用 Bootstrap + Echarts 实现可视化渲染,帮助商家更好地理解市场需求,从而制定有效的营销策略。
基于大数据的电商平台电脑销售数据分析系统
2. 电脑销售数据采集
利用Python的 request + beautifulsoup 等工具,采集某东电商的主流品牌笔记本商品的销售数据,并针对采集的原始数据进行数据清洗,存储到关系数据库中:
# ......brand_page_href = brand_href + '&page={}&s={}&click=0'.format(page, size)
resp = requests.get(brand_page_href, headers=headers)
soup = BeautifulSoup(resp.text, 'lxml')
items = soup.find_all('li', attrs={'class': 'gl-item'})all_phones = []
for item in items:# try:# 图片img = 'https:' + item.img['data-lazy-img']# 价格price = item.find('div', attrs={'class': 'p-price'}).text.strip()if '\n' in price:price = float(price.split('\n')[0].strip()[1:])else:price = float(price.strip()[1:])# 产品名称name = item.find('div', attrs={'class': 'p-name p-name-type-2'})name = name.a['title'].strip()# 产品的详细链接atag = item.find('a')phone_href = 'https:' + atag['href']product_id = phone_href.split('/')[-1].split('.')[0] # 提取商品ID# 抓取该产品的详细信息,此处为销量c = requests.get('https://XXXX.XX.com/comment/productCommentSummaries.action?referenceIds=' + product_id,headers=headers, proxies=random.choice(proxy_list)) # 请求评论jsoncomment_dict = json.loads(c.text.split('[')[-1].split(']')[0]) # json内容截取# ......
3. 电商平台电脑销售数据分析系统
本系统主要由以下几个部分组成:
- 数据采集: 利用网络爬虫技术从某东电商平台采集笔记本电脑的价格、销量、评论等数据。
- 数据预处理: 清洗和整理采集到的数据,确保数据的质量。
- 数据存储: 将处理后的数据存储到数据库中,便于后续的查询和分析。
- 数据分析与可视化: 对存储的数据进行多维度的分析,包括占有率与均价分析、电脑评论分析、电脑销售额分析、销售宣传词云分析等,并通过图表的形式将分析结果呈现出来。
- 个性化推荐: 根据用户的偏好和历史行为,推荐相关的电脑产品。
3.1 系统首页
3.2 品牌占有率与均价分析
通过统计每个品牌下面所有电脑商品的销量数据,并进行归一化,计算市场占有率:
......pingpai_counts = {}
for data in datas:pingpai = data[0]count = json.loads(data[1])count = count['CommentCountStr']if '+' in count:count = count[:-1]if '万' in count:count = int(count[:-1]) * 10000else:count = int(count)else:count = int(count)if pingpai not in pingpai_counts:pingpai_counts[pingpai] = 0pingpai_counts[pingpai] += counttotal = sum(pingpai_counts.values())pingpai_counts = sorted(pingpai_counts.items(), key=lambda x: x[1], reverse=True)
pingpai = [p[0] for p in pingpai_counts]
counts = [p[1] for p in pingpai_counts]
zhanyoulv = [p[1] / total * 1.0 for p in pingpai_counts]
......
综合以上分析,我们可以得出以下结论:
- 联想电脑在京东电商平台具有显著的竞争优势,其销量远高于其他品牌,表明消费者对联想品牌的认可度高,市场需求较大。
- 惠普和华为虽然销量不如联想,但在市场上仍有一定的份额,说明这两个品牌也有一定的竞争力。
- 机械师、微软和神舟的销量较低,可能是由于品牌知名度、产品质量、价格等因素导致的。这三个品牌需要进一步加强市场推广和产品差异化,以提高市场份额。
- 苹果电脑的价格最高,主要面向高端市场;华为和小米的价格也较高,但略低于苹果,说明这两个品牌的产品定位偏向中高端市场;七彩虹和宏碁的价格最低,可能定位于中低端市场,适合预算有限的消费者。
3.3 电脑好评率与差评率分析
......
pingpai_counts = {}
for data in datas:pingpai = data[0]if pingpai not in hot_pingpai:continuecomment = json.loads(data[1])# 平均评分PoorRate = comment['PoorRate']# 好评率GoodRate = comment['GoodRate']# 评论数量CommentCount = comment['CommentCountStr']CommentCount = CommentCount.replace('+', '')if '万' in CommentCount:CommentCount = 10000 * int(CommentCount[:-1])CommentCount = int(CommentCount)if pingpai not in pingpai_counts:pingpai_counts[pingpai] = []pingpai_counts[pingpai].append([PoorRate, GoodRate, CommentCount])
......
综合以上分析,我们可以得出以下结论:
- H&U&R&W、THINKBOOK和戴尔在京东电商平台具有较好的口碑,但同时也存在一些问题,需要关注消费者的反馈并及时改善产品和服务。
- H&U&R&W、THINKBOOK和戴尔的平均好评率排名靠前,而联想、华为、海尔的平均差评率排名靠前。
3.4 电脑销售额分析
这张图表显示了京东电商平台上不同品牌电脑的总销售额分布情况。从左图可以看到,联想的销售额最高,其次是苹果和惠普,而机械革命(MECHREVO)和七彩虹(Colorful)的销售额最低。右图则展示了各个品牌电脑的销售额漏斗图,联想的销售额占比最大,其次是苹果和惠普。我们可以得出以下结论:
- 联想电脑在京东电商平台具有显著的销售额优势,其销售额远高于其他品牌,表明消费者对其产品的接受程度较高。
- 苹果和惠普虽然销售额不及联想,但在市场上仍有一定份额,说明这两个品牌也有一定的竞争力。
- 机械革命(MECHREVO)和七彩虹(Colorful)的销售额较低,可能需要通过优化产品设计、提高服务质量等方式来吸引更多的消费者。
3.5 电脑产品宣传标关键词分析
3.6 品牌电脑推荐
根据电脑品牌、最低价格、最高价格和最低评分等参数,系统能够向用户自动推荐符合其需求和预算的品牌电脑。这种品牌电脑推荐服务不仅可以提高消费者的购物体验,还有助于增加京东商家的销售额和客户满意度。
4. 总结
本项目利用网络爬虫技术从京东电商平台采集各类品牌笔记本电脑的价格、销量、评论等数据,经过数据清洗后存入数据库,并实现电脑销售、市场占有率、价格区间等多维度的可视化统计分析,并基于多属性的特产的个性化推荐。 系统采用 Flask 框架构建后端分析服务,前端采用 Bootstrap + Echarts 实现可视化渲染,帮助商家更好地理解市场需求,从而制定有效的营销策略。
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。技术交流、源码获取认准下方 CSDN 官方提供的师姐 QQ 名片 :)
精彩专栏推荐订阅:
1. Python数据挖掘精品实战案例
2. 计算机视觉 CV 精品实战案例
3. 自然语言处理 NLP 精品实战案例