爬取亚马逊评论并进行词性分析

爬取代码:

import requests
from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import xlwt
import sqlite3
#from fake_useragent import UserAgentdef askURL(url):#head ={'User-Agent':str(UserAgent().random)}head = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 84.0.4147.89Safari / 537.36"}request = urllib.request.Request(url,headers=head)html = ""try:print(requests.get(url,head).status_code)response = urllib.request.urlopen(request)html= response.read().decode("utf-8")#print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return htmldef getData(baseurl):datalist = []for i in range(0,60):print("di%d"%(i))url = baseurl +str(i)html = askURL(url)#2.逐一解析soup = BeautifulSoup(html,"html.parser")for item in soup.find_all('div',class_="a-section celwidget"):data = []item = str(item)stars = re.findall(find_star,item)data.append(stars)review_date = re.findall(find_review_date,item)[0]data.append(review_date)review = re.findall(find_review,item)[1]data.append(review)review_useful = re.findall(find_review_useful,item)data.append(review_useful)datalist.append(data)return datalist
def saveData(datalist,savepath):book = xlwt.Workbook(encoding="utf-8",style_compression=0)sheet = book.add_sheet('亚马逊商品评论',cell_overwrite_ok=True)col = ("评论等级","评论时间","评论内容","评论点赞")for i in range(0,4):sheet.write(0,i,col[i])for i in range(0,600):print("第%d条"%(i+1))data = datalist[i]for j in range(0,4):sheet.write(i+1,j,data[j])book.save(savepath)def main():baseurl = "https://www.amazon.com/-/zh/product-reviews/B010OVNAFQ/ref=cm_cr_getr_d_paging_btm_next_62?ie=UTF8&reviewerType=all_reviews&pageNumber="#1.爬取网页datalist = getData(baseurl)savepath = "亚马逊商品评论.xls"#3.保存数据saveData(datalist,savepath)if __name__== "__main__":main()
find_star = re.compile(r'<span class="a-icon-alt">(.*),最多 5 颗星</span>')#评分
find_review_date = re.compile(r'<span class="a-size-base a-color-secondary review-date" data-hook="review-date">(.*)在.*?</span>')
find_review = re.compile(r'<span>(.*?)</span>',re.S)
find_review_useful = re.compile(r'<span class="a-size-base a-color-tertiary cr-vote-text" data-hook="helpful-vote-statement">(.*?)</span>',re.S)

对爬取的评论进行词性分析

import xlrd
from nltk import word_tokenize, pos_tag
import nltk
import seaborn as sns
import matplotlib.pyplot as pltexcel = xlrd.open_workbook("亚马逊商品评论.xls")  # 打开excel文件
sheet = excel.sheet_by_index(0)  # 获取工作薄
rows: list = sheet.row_values(0)  # 获取第一行的表头内容
index = rows.index('评论内容')  # 获取age列所在的列数: 1,也可以换成"password"
listindes = sheet.col_values(index)  # 获取age列的所有内容str = "".join(listindes)
str = str.replace('\n','').replace('</br>','').replace('<br/>','')  # 去除字符串中的一些字符tokens = word_tokenize(str)  # 进行词性分析,返回的是一个元组列表
#print(pos_tag(tokens))
list3 = []
list1 = []
dic = {}
for i in pos_tag(tokens):list3.append(i[1])list1.append(i[0])print(set(list3))
for i in set(list3):count = list3.count(i)dic[i] = count#print(i,'出现次数:',count)dic = dict(sorted(dic.items(),key=lambda x : x[1],reverse=True))  # 按照数量降序排序
dic.pop('.')  # 去掉.
dic.pop(',')  # 去掉,dic2 = dict(list(dic.items())[:10])  #  取前10的数据
x = list(dic2.keys())
y = list(dic2.values())
sns.barplot(x = x, y = y)
plt.xticks(rotation = 45)
plt.show()

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37257.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“抖音”式的酷炫短视频开发进阶

2017年短视频应用的爆发&#xff0c;再次改变了人们&#xff0c;尤其是年轻人的生活习惯&#xff0c;快手、抖音等应用也逐渐融入到日常生活中。短视频App各种各样的酷炫效果让人爱不释手&#xff0c;也把视频内容玩出了新花样。LiveVideoStack邀请了全民快乐研发高级总监展晓凯…

今日分享:应该去怎样制作优质抖音短视频

抖音视频是适台在移动状态和休闲状态下观看的视频内容&#xff0c;视频时长一般在15秒到5分钟之间。相对于文字图片来说&#xff0c;视频能够带给用户更好的视觉体验&#xff0c;在表达时也更加生动形象&#xff0c;能够将创作者希望传达的信息更真实、更生动地传达给受众。 在…

12个视频剪辑素材网站,短视频素材免费下。

我自己平时也会剪辑一些视频&#xff0c;经常因为拍摄的素材不够用&#xff0c;要去各大平台找视频素材。有没有人跟我一样&#xff0c;一遇到找素材就头疼&#xff0c;不知道去哪里找&#xff0c;找到的素材还要担心会不会侵权&#xff0c;是不是需要费用。今天就把我多年整理…

视频素材剪辑制作的方法分享

朋友们平时在剪辑视频的操作过程中&#xff0c;如果想要给多个视频素材添加相同的片头的话&#xff0c;会怎么操作呢&#xff1f;其实方法大同小异&#xff0c;找到适合自己的方法就可以。那今天小编就给大家分享一下我平时是怎么批量给视频添加相同的片头素材&#xff0c;一起…

短视频剪辑的九大技巧分享

随着视频时代的到来&#xff0c;大家已经习惯了用视频来记录自己的日常生活和表达自己&#xff0c;也习惯了用视频来了解他人&#xff0c;接触更广阔的世界。那么我们自己想要剪辑短视频&#xff0c;应该怎么做呢&#xff0c;一起来往下看吧&#xff01; 第一、高级感的视频开…

短视频剪辑的小技巧分享,助你剪出令人印象深刻的片段,吸粉引流

短视频剪辑的小技巧分享&#xff0c;助你剪出令人印象深刻的片段&#xff0c;吸粉引流 短视频剪辑说难也难&#xff0c;但是说简单其实也简单&#xff0c;毕竟只要认真学习&#xff0c;大概几天就可以基本掌握短视频剪辑的流程&#xff0c;只是如果想要剪辑出来可以吸粉引流的…

做短视频千万不要错过这5个视频素材网

这个要看你创作什么内容&#xff0c;dy里面很多视频素材都是创作者自己拍摄&#xff0c;要不就插入一些网上找的视频素材&#xff0c;现在网上找到一些视频素材很多都是有版权&#xff0c;除非花钱买&#xff1b;也有免费的&#xff0c;但就是质量不算高。各取所需&#xff0c;…

视频剪辑练手,就上这几个网站找素材~

视频剪辑如何找到免费的练手素材&#xff0c;这5个网站收藏好&#xff0c;绝对对你有帮助&#xff01; 1、菜鸟图库 视频素材下载_mp4视频大全 - 菜鸟图库 菜鸟图库主要提供设计素材为主&#xff0c;自媒体相关素材也很多&#xff0c;像商用图片、背景图、视频素材、音频素材…

短视频的三种表现形式,新手博主可参考,操作简单易上手

短视频的三种表现形式&#xff0c;新手博主可参考&#xff0c;操作简单易上手 新手刚刚开始做短视频的时候&#xff0c;往往会遇到很多的困难&#xff0c;比如选择短视频的表现形式&#xff0c;就让很多人犯了难。那么接下来&#xff0c;我们就一起说一说关于短视频的三种表现…

分享视频剪辑必备的三个素材软件(配音/文案/图片)

hello&#xff0c;大家好&#xff0c;相信现在很多小伙伴都需要制作视频&#xff0c;无论是从事短视频行业&#xff0c;还是单纯想分享生活视频的都需要对视频进行简单的处理吧&#xff1f; 有时候会需要介绍视频内容或是给视频增加点配音&#xff0c;来让视频不那么单调&#…

短视频的创作技巧分享,六大要点要注意,创作还要找对方向

短视频的创作技巧分享&#xff0c;六大要点要注意&#xff0c;创作还要找对方向 做短视频&#xff0c;说简单也简单&#xff0c;但说难也难。想要创作出一个优质的短视频&#xff0c;最重要的一点就是要找对方向&#xff0c;那么我们今天就一起来看一看短视频的几个创作技巧&a…

短视频云端批量混剪实操指南

本文为阿里云智能媒体服务IMS「智能内容创作」实践指南第一期&#xff0c;讲述围绕新媒体广告营销场景&#xff0c;通过“去重策略”全自动批量混剪短视频&#xff0c;助力更高效、更快速地创作优质短视频内容。 欧叔&#xff5c;作者 5G时代&#xff0c;越来越多的企业把短视…

短视频账号搭建之Banner图和视频封面

前面在我赢小禾呈序里学了账号名称、头像和个人简介设置&#xff0c;今天把账号搭建的最后两部分一起公开&#xff1a; banner图是你主页上面的这个主图。 同样它的存在可以有三个作用&#xff1a; 第一个作用比较简单&#xff0c;就是让你的主页更好看。 听起来太简单了&am…

适合短视频分享的Fireshare

RustDesk 的补充说明 感谢网友 煦诗儿 提醒&#xff0c;在 RustDesk 官网菜单中&#xff0c;有网页版客户端&#xff0c;使用方法和其他客户端是一样的。 不过只能使用 http 协议&#xff0c;作者在 https://github.com/rustdesk/rustdesk/issues/856 中解释了为何不启用 SSL …

今日剪辑妙招分享:剪辑抖音短视频可以用哪些工具剪辑?

如今&#xff0c;抖音短视频已经成为了人们日常生活中的一部分&#xff0c;很多人都喜欢通过剪辑视频来表达自己的情感和创意。那么&#xff0c;剪辑抖音短视频可以用哪些工具呢&#xff1f;下面不若与众科技就为大家介绍一些常见的工具。 首先&#xff0c;最常见的工具是手机自…

短视频素材在哪找?3大素材库,3000+最火视频素材免费用

短视频素材在哪找&#xff1f;3大素材库&#xff0c;3000最火视频素材免费用&#xff0c;做短视频最头痛的就是素材问题了&#xff0c;首先&#xff0c;一个人做的话&#xff0c;没有什么资金去买专业的设备拍摄&#xff0c;自己用手机拍的视频素材又差点意思&#xff0c;有时候…

如何剪辑短视频?剪辑短视频的技巧来了

如何剪辑短视频&#xff1f;现如今短视频发展十分迅速&#xff0c;几乎我们每个人的日常生活中都会和短视频打交道。大家在观看短视频的时候&#xff0c;是否会想到自己动手剪辑制作呢&#xff1f;说道这里很多小伙伴可能会说剪辑多难&#xff0c;我不会。其实日常的剪辑并不是…

线稿图视频制作--从此短视频平台不缺上传视频了

&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d;&#x1f51d; &#x1f970; 博客首页&#xff1a;knighthood2001 &#x1f6…

短视频APP开发:短视频特效SDK功能火爆来袭!

为什么短视频这么火呢&#xff1f;因为它符合了用户碎片化时间的需求&#xff0c;既娱乐了大众&#xff0c;又不会浪费用户太多时间。 短视频APP开发以互联网技术为核心&#xff0c;在原有的基础上不断进行创新&#xff0c;进而拥有多种强大的拍摄功能&#xff0c;让用户可以快…

都在抢发AI大模型,谁在关注模型安全?

文&#xff5c;光锥智能&#xff0c;作者&#xff5c;周文斌 如果要给4月定一个主题&#xff0c;“大模型”应该当仁不让。 从4月7日阿里突然放出“通义千问”内测开始&#xff1b;8日&#xff0c;华为放出盘古大模型&#xff1b;10日&#xff0c;商汤推出类ChatGPT产品“商量…