pyhton爬取:爬取爱豆(李易峰)微博评论,看看爱豆粉丝的关注点在哪(附源码)

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

本片文章来自腾讯云, 作者:孤独的明月
在这里插入图片描述
今日目标:微博

以李易峰的微博为例:

https://weibo.com/liyifeng2007?is_all=1

然后进入评论页面,进入XHR查找真是地址:

https://weibo.com/aj/v6/comment/big?ajwvr=6&id=4353796790279702&from=singleWeiBo

很明显,是动态的,抓取也是按我以前写的那些方法来,就不一一说了,他这里最重要的还是那串数字,所以我们只要在第一个网址哪里把那串数字找出来就算成功一半了,这次需要用到re正则,嗯,这个我不擅长,不过没事,应该还是可以搞到的:

target = 'https://weibo.com/liyifeng2007?is_all=1'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36','cookie': 'SUB=_2AkMowDDgf8NxqwJRmPoSyWnqao53ywzEieKenME7JRMxHRl-yT9kqnEjtRB6A0AeDzsLF_aeZGlWOMf4mEl-MBZZXqc_; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WWcpq860VQlJcIRRNP9pzqS; SINAGLOBAL=1033839351635.7524.1604108279474; login_sid_t=c071efc77911ceace152df2be5986e09; cross_origin_proto=SSL; WBStorage=8daec78e6a891122|undefined; _s_tentry=-; Apache=8275565331127.246.1604195643561; ULV=1604195643568:3:1:1:8275565331127.246.1604195643561:1604122447982; wb_view_log=1920*10801; UOR=,,editor.csdn.net'
}html = requests.get(target,headers=headers).textfor each in re.findall('<a name=(.*?)date=',html):real_id = each.split(" ")[0]filename = each.split("\\")[-2].replace('"',"").replace(":",".")print(real_id,filename)

输出如下:
在这里插入图片描述
第一个就是我们需要的ID,后面则是发微博的时间,我们用它来做存储评论数据的文件名称。

然后我们把ID传入第二个网址:

comment_url = f'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={real_id}&from=singleWeiBo'

当然这个是抓取热度的,如你要抓取最新回复的,需要下面这个:

comment_url = f'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={read_id}&page=1'

拿到这个就简单了,JSON 数据,直接进json网站解析就行,然后找到我们需要的数据,这里就直接上代码了:

comment_url = f'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={real_id}&page=1'
res = requests.get(comment_url,headers=headers).json()["data"]["html"]# 提取评论人和评论内容
conmment = re.findall('ucardconf="type=1">(.*?)</div>', res)for each in conmment:# 将 内容里的那些表情替换each = re.sub('<.*?>','',each)print(each)

在这里插入图片描述
对比一下:
在这里插入图片描述
把那些表情给去除了,有些只发表情没法字的就会只显示名字,这个是正常的,其余就是一毛一样了。
数据拿到了,咱们就存储到本地吧,全部代码:

# -*- coding: utf-8 -*-
"""
Created on 2020-11-18@author: 李运辰
"""#https://weibo.com/liyifeng2007?is_all=1import requests
import re,osurl = 'https://s.weibo.com/?topnav=1&wvr=6'
target = 'https://weibo.com/liyifeng2007?is_all=1'headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36','cookie': 'SUB=_2AkMowDDgf8NxqwJRmPoSyWnqao53ywzEieKenME7JRMxHRl-yT9kqnEjtRB6A0AeDzsLF_aeZGlWOMf4mEl-MBZZXqc_; SUBP=0033WrSXqPxfM72-Ws9jqgMF55529P9D9WWcpq860VQlJcIRRNP9pzqS; SINAGLOBAL=1033839351635.7524.1604108279474; login_sid_t=c071efc77911ceace152df2be5986e09; cross_origin_proto=SSL; WBStorage=8daec78e6a891122|undefined; _s_tentry=-; Apache=8275565331127.246.1604195643561; ULV=1604195643568:3:1:1:8275565331127.246.1604195643561:1604122447982; wb_view_log=1920*10801; UOR=,,editor.csdn.net'
}html = requests.get(target,headers=headers).textfor each in re.findall('<a name=(.*?)date=',html):real_id = each.split(" ")[0]filename = each.split("\\")[-2].replace('"',"").replace(":",".")# print(real_id,filename)# print(filename)for page in range(1,11):comment_url = f'https://weibo.com/aj/v6/comment/big?ajwvr=6&id={real_id}&page={page}'res = requests.get(comment_url,headers=headers).json()["data"]["html"]# 提取评论人和评论内容conmment = re.findall('ucardconf="type=1">(.*?)</div>', res)# conmment = re.findall('</i></a>(.*?) </div>', res)for each in conmment:# 将 内容里的那些表情替换each = re.sub('<.*?>','',each)print(each)f_name = "./images/"+filenamewith open(f_name+"_李运辰.txt","a",encoding="utf-8") as f:f.write(each)f.write("\n")

只是测试,所以就只爬了十几页:
在这里插入图片描述
在这里插入图片描述
爬下来后可以自己对比一下:
在这里插入图片描述
搞定!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/39632.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

杨幂 刘恺威公布离婚 目测李易峰将再一次卷入风暴中心!

杨幂 刘恺威终于确认离婚了。嘉行传媒发布消息&#xff0c;宣称杨幂 刘恺威协议离婚。这几年真真假假关于两人离婚的消息&#xff0c;算是每个月都有冒泡。实在是听的耳朵都起茧了。 其实不关心他们两个&#xff0c;可是李易峰却是喜欢的。2014年&#xff0c;杨幂和李易峰主演的…

pyhton爬取爱豆(李易峰)微博评论(附源码)

今日目标&#xff1a;微博 以李易峰的微博为例&#xff1a; https://weibo.com/liyifeng2007?is_all1然后进入评论页面&#xff0c;进入XHR查找真是地址&#xff1a; https://weibo.com/aj/v6/comment/big?ajwvr6&id4353796790279702&fromsingleWeiBo很明显&#xff…

猎聘品牌升级李易峰为代言人 官网启用双拼域名liepin.com

2020年受疫情影响&#xff0c;“金三银四求职季”不如往年风光&#xff0c;如果说起求职软件&#xff0c;大家首先想到的会是谁? 1月18日消息&#xff0c;猎聘开启品牌升级序幕&#xff0c;发布了全新品牌logo&#xff0c;同时公布了当红明星李易峰成为新的品牌代言人。作为新…

pyhton爬取爱豆(李易峰)微博评论

今日目标&#xff1a;微博&#xff0c;以李易峰的微博为例&#xff1a; https://weibo.com/liyifeng2007?is_all1然后进入评论页面&#xff0c;进入XHR查找真是地址&#xff1a; https://weibo.com/aj/v6/comment/big?ajwvr6&id4353796790279702&fromsingleWeiBo很…

李易峰个人简历模板

李易峰 性别&#xff1a;男出生年份&#xff1a;1987QQ&#xff1a;123456民族&#xff1a;汉族婚姻状况&#xff1a;未婚身高&#xff1a;181 cm体重&#xff1a;60 kg演艺经历 2007年李易峰参加《加油&#xff01;好男儿》获得总决赛第八名以及最具亲和力奖&#xff0c;从而进…

Linux 服务器新建子账户

Linux 服务器新建子账户 以下内容部分为chatgpt的回答 新建子账户 在Linux服务器中&#xff0c;可以使用以下步骤来创建新的用户账户&#xff1a; 打开终端&#xff0c;并使用root用户或拥有sudo权限的用户登录。使用以下命令创建新的用户账户。请将**newuser**替换为您想要…

纺织服装行业通过GRS认证增加产品竞争力

1、GRS再生认证的推出 目前&#xff0c;回收纺织品的项目包括利用棉织品回收再生棉&#xff0c;利用羊手制品回收再生手&#xff0c;利用尼龙制品回收再生尼龙&#xff0c;利用聚酯瓶(PET瓶)回收再生聚酯纤维等。由于利用回收再生棉、毛、尼龙、聚酯等纤维织成的各 类面料价格高…

女性服装数据分析(电商数据)版本1

女性服装数据分析&#xff08;电商数据&#xff09;版本1 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns color sns.color_palette()data pd.read_csv(Womens_Clothing.csv) # 查看数据结构 dataUnnamed: 0Clothing IDAg…

2021年中国服装行业分析报告-产业规模现状与发展规划趋势

【报告类型】产业研究 【出版时间】即时更新&#xff08;交付时间约3个工作日&#xff09; 【发布机构】智研瞻产业研究院 【报告格式】PDF版 本报告介绍了服装行业相关概述、中国服装行业运行环境、分析了中国服装行业的现状、中国服装行业竞争格局、对中国服装行业做了重…

2020年中国服装行业发展现状分析,消费理念的改变促使行业转型「图」

一、概述 1、定义 服装&#xff0c;是衣服鞋装饰品等的总称&#xff0c;多指衣服。在国家标准中对服装的定义为&#xff1a;缝制&#xff0c;穿于人体起保护和装饰作用的产品&#xff0c;又称衣服。服装在人类社会发展的早期就已出现&#xff0c;当时古人将一些材料做成粗陋的…

2020年中国服装行业数据中台研究报告

简介&#xff1a;36kr研究院全新出炉《2020年中国服装行业数据中台研究报告》显示&#xff1a;数据中台赋能企业数字化转型&#xff0c;成为降本增效新引擎。 -更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号&#xff08;文末扫…

怎么找服装行业客户 找服装客户的方法

服装销售寻找客户是实现客户引流的第一步&#xff0c;找到合适的获客渠道可以快速的吸引顾客&#xff0c;服装行业如果是主要外贸方向&#xff0c;现在电子商务十分发达&#xff0c;网上找客户覆盖面也很广&#xff0c;网上的信息太多太杂&#xff0c;具体要从哪里找客户比较合…

服装行业2023开年现状速递/服装行业的风险及应对方式/有这些特征的服装企业更容易翻身

在刚刚过去的春节假期里&#xff0c;我们经历了近3年最热闹的一次长假&#xff0c;几乎每天都能在街上看到熙熙攘攘的人流。 消费者逛街热情呈“井喷式暴涨”&#xff0c;实体店店主的钱包也跟着鼓起来不少&#xff0c;但年后是否能延续这种旺象&#xff1f;服装行业即将迎来全…

算法岗和开发岗有什么区别?

链接&#xff1a;https://www.zhihu.com/question/490150407 编辑&#xff1a;深度学习与计算机视觉 声明&#xff1a;仅做学术分享&#xff0c;侵删 作者&#xff1a;如雪https://www.zhihu.com/question/490150407/answer/2164415753 围城外的人&#xff0c;可能会以为开发岗…

2023五一数学建模竞赛选题人数公布

数据来源自&#xff0c;各个平台人数投票统计&#xff0c;仅供参考。 具体数值比例为&#xff1a; 题号人数A504B1174C1905 目前&#xff0c;五一数模竞赛C题半成品论文基本完成制作&#xff08;累计35页&#xff0c;10000字&#xff09;&#xff0c;注&#xff1a;蓝色字体…

为什么地球的生物都是碳基生命?科学家:大自然环境选择的结果

来源&#xff1a;科学的乐园 地球是一个有着多达数百万种生物形式的生命世界&#xff0c;不管这些物种的外形有多大的差异&#xff0c;也不管是植物还是动物&#xff0c;它们都有一个共同的本质&#xff0c;都是碳基生命。 可能有朋友会说了&#xff0c;生命体内最多的物质不是…

【深度学习之美笔记】人工“碳”索意犹尽,智能“硅”来未可知(入门系列之二)

目录 一、前言 二、深度学习再认识 2.1 人工智能的“江湖定位” 2.2 深度学习的归属 2.3.机器学习的形式化定义 2.4 为什么要用神经网络&#xff1f; 2.5 小结 2.6 请你思考 三、参考文献 四、参考 一、前言 在前面的小节中&#xff0c;我们仅仅泛泛而谈了机器学习、深…

华为鸿蒙碳基芯片,华为转投第三大CPU架构RISC-V?首款鸿蒙开发板曝光

原标题&#xff1a;华为转投第三大CPU架构RISC-V&#xff1f;首款鸿蒙开发板曝光 华为正倾力打造鸿蒙OS操作系统&#xff0c;预计6月2日v2.0版本转正&#xff0c;面向普通消费者开放升级体验。 与此同时&#xff0c;华为芯片业务的进展也备受关注。 经查&#xff0c;华为提供给…

二进制基础

二进制 二进制转换 1.计算机为什么使用二进制&#xff1f; 因为计算机最核心的计算原件是CPU&#xff0c;CPU外边有引脚&#xff0c;引脚是通电用的&#xff0c;通电时有时候通的是高电频有时候通的是低电频&#xff0c;用 “1” 来表示高电频&#xff0c;"0"表示低…

生命,到底是什么?

来源&#xff1a;腾讯研究院 作者&#xff1a;Mark A. Bedua 译者&#xff1a;宋词、范星辰 令人着迷的生命 地球表面布满了生命&#xff0c;而且通常很容易辨认。猫、胡萝卜、细菌都是活的&#xff0c;桥、肥皂泡、沙粒都是死的。但众所周知&#xff0c;生物学家们却没有关于生…