爬取星座运势数据并进行词频分析

试着自己做了下爬虫,从星座屋网站爬取十二星座30天的运势数据。

import requests
from bs4 import BeautifulSoup
import pandas as pd#获取12星座的网址
urll='http://www.xzw.com'
r=requests.get(url='http://www.xzw.com/fortune/aries/')
soup=BeautifulSoup(r.text,'lxml')
a=soup.find('div',class_="card_xingzuo").find_all('a')
urllst=[]
for each in a:urllst.append(urll+each.get('href'))#获取每个星座30天的数据
datalst=[]
for ui in urllst:ri=requests.get(url=ui)soupi=BeautifulSoup(ri.text,'lxml')alst=soupi.find('div',class_="lday").find_all('a')urllst2=[]for each in alst:urllst2.append(urll+each.get('href'))for u in urllst2:r=requests.get(url=u)soup=BeautifulSoup(r.text,'lxml')dic={}lilst1=soup.find('div',class_="c_main")if lilst1 is None:    #狮子座有一个网页是空的continueelse:lilst=lilst1.find_all('li')dic['星座']=lilst1.find('h4').textfor i in range(4):dic[lilst[i].text.replace(':','')]=lilst[i].find('em').get('style').split(':')[-1].replace(';','')for i in range(4,10):dic['字段'+str(i)]=lilst[i].textp=soup.find('div',class_="c_cont").find_all('p')for i in range(5):dic[p[i].find('strong',class_="p"+str(i+1)).text+'_文字']=p[i].find('span').textdatalst.append(dic)df=pd.DataFrame(datalst)#数据清洗
df['健康指数']=df['字段4'].str.split(':').str[-1]
df['商谈指数']=df['字段5'].str.split(':').str[-1]
df['幸运颜色']=df['字段6'].str.split(':').str[-1]
df['幸运数字']=df['字段7'].str.split(':').str[-1]
df['速配星座']=df['字段8'].str.split(':').str[-1]
df['短评']=df['字段9'].str.split(':').str[-1]
df['星座名称']=df['星座'].str.split('运势').str[0]
df['日期']=df['星座'].str.split('运势').str[-1]df.drop(['字段4'],axis=1,inplace=True)
df.drop(['字段5'],axis=1,inplace=True)
df.drop(['字段6'],axis=1,inplace=True)
df.drop(['字段7'],axis=1,inplace=True)
df.drop(['字段8'],axis=1,inplace=True)
df.drop(['字段9'],axis=1,inplace=True)
df.drop(['星座'],axis=1,inplace=True)#导出为excel表格
df.to_excel('C:/Users/del/Desktop/星座运势数据.xlsx')#词频分析
pl_cnz=df[df['星座名称']=='处女座']['综合运势_文字']
words=''.join(pl_cnz.values.tolist())   #将处女座的综合运势拼成一段话
#用在线语料库进行分词
words_clh='适合/v  放松/v  的/u  一天/r  ,/w  今天/nt  ........'   ###句子太长,不粘过来了
wordslst=words_clh.split('  ')word_df=pd.DataFrame({'词性拆分':wordslst})
word_df['词']=word_df['词性拆分'].str.split('/').str[0]
word_df['词性']=word_df['词性拆分'].str.split('/').str[1]#统计各种名词出现的次数/频率
mc=word_df[word_df['词性']=='n']
word_count=mc['词'].value_counts()#导出为excel表格
word_count.to_excel('C:/Users/del/Desktop/result.xlsx')

导出为excel表格之后,复制result.xlsx的内容,通过在线制作词云分析。
得到下面的结果:
在这里插入图片描述
语料库在线
词云分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/65742.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天应该去买彩票的~

刚刚CSDN Blog登录,验证码居然是88888,特开一帖,以作纪念~

体彩 超级大乐透(C++) 测测你的中奖概率

随机购买n注彩票,或者手动输入彩票数字,看看你的幸运值如何? 对体彩超级大乐透的前区5个数字和后区2个数字进行区分,前区(1-35),后区(1-12),避免错误输入&…

彩票中奖率的真相:用 JavaScript 看透彩票背后的随机算法

原本这篇文章是打算叫「假如我是彩票系统开发者」,但细想一下,如果在文章中引用太多的 JavaScript 的话,反而不是那么纯粹,毕竟也只是我的一厢情愿,彩票开发也不全如本文所讲,有所误导的话便也是得不偿失了…

彩票中奖概率计算过程

周六周末无聊,想着买彩票,万一中奖了就不用上班啦,哈哈。所以就计算了一下中奖概率。 中奖规则: 一等奖:投注号码与当期开奖号码全部相同(顺序不限,下同),即中奖&#…

使用 ChatGPT 进行研究的先进技术

在这篇文章中,您将探索改进您研究的先进技术。尤其, 分析和解释研究数据进行文献综述并找出研究差距废话不多说直接开始吧!!! 分析和解释研究数据 一家小企业主希望分析客户满意度数据以改善客户服务。他们使用包含 10…

认真聊聊中断(软中断)

文章目录 软中断与硬中断很像软中断的守护进程注册软中断向量表触发一次软中断总结 前面认认真真聊聊中断,其实讲的都是硬中断,注意是硬中断不是硬件中断哦,硬中断的概念更大。 硬中断包括中断、异常以及 INT 指令这种软件中断,整…

免费织梦wap手机网站模板下载

模板名称: 织梦蓝色通用企业wap手机网站源码 模板介绍: 织梦最新内核开发的手机模板,该模板可以用来做企业手机wap站,及企业微信营销浏览展示; 色调及排版都属通用类型,一般的企业均可以使用该模板做手…

5套独立的app手机端模板界面代码

MobioKit是移动手机端HTML模板,可以很容易创建手机网站布局设计,或者移动App应用。创意设计和神奇的特性将在让你完美的移动项目独一无二的。这个移动端UI工具包包含所有必要的设计,可以创建移动商店,个移动社交应用,移动健康应用,业务相关的移动应用程序等。 5套独…

简洁新颖风格Emlog模板程序源码

正文: 简洁模板程序源码Emlog内核,模板的样子也是非常新颖简洁的,并且完美兼容EMLOG5.3.1程序版本,需配合模板设置插件进行使用。 使用方法: 首先需要安装好EMlog系统和模板设置插件,登录后台直接上传模板应用即可。…

dedecms织梦实现url不变电脑和手机显示不同模板

1、只需要电脑站是伪静态就行了,其他伪静态教程也行,只要电脑站是伪静态就行了 2、打开 /include/extend.func.php 在最下面加入一个方法 /*** 判断是否为移动设备访问* return bool*/ function isMobile() {if (isset($_SERVER[HTTP_X_WAP_PROFILE])) …

最新娱乐网纯净无后门emlog模板源码带手机版,会员中心

介绍: 该模板是之前芒果娱乐网自用源码,无毒无后门,放心使用! 带手机版,会员中心! 安装方法 1.将源码上传好,导入数据库, 2.找到config.php文件,将数据库配置改成你自己…

织梦制作单页面模板的2种方法

在用dedecms织梦程序制作企业模板时需要用到公司介绍、联系我们、关于我们等相关单页面,可织梦dedecms不像wordpress或其它程序单独提供有页面功能,可以直接新建页面。不过织梦dedecms提供了栏目内容的调用功能,可以让织梦站长通过创建栏目实…

给大家分享下织梦网站模板

最近需要用到一个官网模板,作为一个后台程序员来说写前端和专业的差了远了,所以想找个模板学习下,可是我这面是一顿搜一顿找找了好多都快绝望了因为都不是免费下载的不过最终还是找到了,在这里分享给大家 模板一 红色大气响应式重…

织梦dedecms资源素材教程下载网站模板源码(带手机移动端)附安装教程

织梦dedecms资源素材教程下载网站模板(带手机移动端) 1.把文件上传到你的站点的根目录,然后运行 http://你的域名/install/index.php 安装,根据提示填写好相关信息,点“下一步”...即可完成安装。(注:若提示无法安装,…

织梦高端婚纱摄影网站织梦模板(带手机端

模板介绍: 织梦最新内核开发的模板,该模板属于营销型企业通用类、婚纱摄影、婚纱拍摄类企业都可使用, 这款模板使用范围极广,不仅仅局限于一类型的企业,你只需要把图片和产品内容; 换成你的,颜…

安装织梦V5.7手机模板文本教程

备份数据库&#xff0c;&#xff0c;备份文件回本地&#xff0c;&#xff0c;开始&#xff01; 在线更新织梦新版本&#xff1a; 更新时有一点需要注意&#xff1a; 如果&#xff0c;模板默认风格如果是默认的default 则需要改成别的。否则直接更新会覆盖原来的模板文件。<一…

织梦手机端制作

栏目跳转 <a class"moreBtn" href"list.php?tid{dede:field nameid/}">查看更多>></a> 手机站&#xff1a; 首页&#xff1a;index_m.htm 频道栏目页&#xff1a;index_article_m.htm 6 手机端栏目链接&#xff1a;/m/list.php?t…

2023最新OneTheme彩虹易支付用户模板美化主题模板源码/包括Admin端

正文: 2023最新OneTheme彩虹易支付用户模板美化主题模板源码 oneTheme1.0彩虹易支付模板&#xff0c;一款简洁而又免费的模板&#xff0c;告别简陋的原始UI&#xff0c;感受新的视觉体验 此模板当前不一定能满足所有人的审美需求&#xff0c;所以会持续更新&#xff0c;包括adm…

WordPress美女写真源码 带搭建和采集教程

注意&#xff1a;请不要使用程序违法违规&#xff0c;包括我之前发的&#xff0c;不要挑战国家和法律的底线 本程序内资源全部无违规&#xff0c;只有小姐姐图片没有违规内容 搭建教程我都放在源码里了&#xff0c;搭建有一些难度&#xff0c;要集中注意力 源代码地址&#…

织梦dedecms电脑和手机端数据同步及一键生成手机版插件

前言 织梦dedecms系统是很多站长比较喜爱的一款CMS系统&#xff0c;用它来搭建一个网站非常的容易&#xff0c;然而织梦dedecms系统自带的手机版却饱受诟病&#xff0c;比如不能生成静态页&#xff0c;dedecms手机版功能太简单&#xff0c;pc和手机是不同的URL&#xff0c;还需…