手把手教你爬取网站信息

如题,理解这一部分需要一定的Python基础,有些代码我不做详细解释了,但是用这个方法是确实可以爬到的。

爬取电影的详情数据

1. 在抓包⼯具中先定位到和浏览器地址栏的⽹址⼀样的数据包
①在页面中右击鼠标,点击检查,博主这里用的是Google浏览器
②在弹出来的页面中点击Network,然后再重新刷新一下网页
③在Name列表随意点击一项(单击即可)
④再按Ctrl+F调出搜索框,随意搜索一部列表中的电影,点击列表中的选项,此时搜索框右边的信息已经发生变化了,点击Headers即可定位到包含搜索数据的指定数据包。从指定数据包中就可以提取出url
在这里插入图片描述
继续把滚动条往下拉,拉到最底部,有一个User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36
这个是反UA反爬机制的代码,这个也要用到,可以先准备好,并放在代码的最开始

在这里插入图片描述

2. 查看请求参数
此页面的请求⽅式为get请求参数:这一点可以在Headers查看到:
在这里插入图片描述

点击Payload可以查看请求参数,把这一段复制进你的代码里,但是需要把这里的limit的值改为100,这样才是前100的电影,如果想要前200,改成200即可
在这里插入图片描述

3. 获取相应数据

response = requests.get(url=url,headers=head,params=pram)

这里要把get的三个参数都写进来,因为都用得到

4. 建一个文件来存储爬到的信息

page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")

此处注意编码和解码的问题,如果没有encoding=“utf8”,可能会报错。

  1. 用循环来遍历前100个"title"和"score"字段
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')

6. 源代码

import requests
head={#存放需要伪装的头信息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36"
}pram={#请求参数"type": "13","interval_id": "100:90","action": "","start": "0","limit": "100",
}url='https://movie.douban.com/j/chart/top_list'response = requests.get(url=url,headers=head,params=pram)
#获取响应数据
#json()可以将获取到的json格式的字符串进⾏反序列化page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')
print(title,'爬⾍保存成功!')

7. 运行结果
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33081.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何抓取网页中的实时监测数据进行分析

使用wpf做了窗体&#xff0c;跟Silverlight开发环境一样&#xff0c;将前台设计与后台开发逻辑分离开来&#xff0c;抓取南京市九个PM 2.5监测站点的数据 前台代码&#xff1a; <Grid><Button Content"数据获取" Height"23" HorizontalAlignment&…

如何抓取网页数据

如何抓取网页数据&#xff0c;每当我们在网上找到自己想到的数据&#xff0c;都需要复制粘贴或下载然后一步一步地整理。今天教大家如何快速地免费获取网页数据信息&#xff0c;只需要输入域名点选你需要的数据&#xff0c;软件全自动抓取。支持导出各种格式并且已整理归类。详…

用wireshark抓取QQ聊天发送的图片

前言 老师在上课的时候演示了用wireshark抓取QQ发送出去的图片&#xff0c;蛮有意思的&#xff0c;复现一下。 一、使用工具 这里用到的是wireshark这个网络抓包工具&#xff0c;还有winhex这个十六进制编辑器&#xff0c;附上下载地址 wireshark&#xff1a;https://www.wire…

爬取某知名网站的数据

爬取某知名网站的数据&#x1f604; 爬虫 骚操作 不讲武德 耗子尾汁 增加你的浏览量 github传送门&#xff1a; https://github.com/rzy0901/CSDN_visitor 需要安装的包 1️⃣ BeautifulSoup2️⃣ urllib安装方法&#xff1a; 百度 随缘 pip install xxx 代码函数介绍 …

数据可视化网页内容自动抓取工具

网页内容提取支持我们对公开的网页信息数据进行提取&#xff0c;如果通过人工对网页数据采集&#xff0c;是一个繁琐的工作&#xff0c;网页内容提取工具通过可视化的操作页面&#xff0c;模拟人工进行网页内容提取&#xff0c;能快速获取整个网站的对应元素。 网页内容提取工具…

Charles抓取http接口数据

##1.Charles抓取http接口数据 这个资料网上一大堆&#xff0c;此处不再赘述。本着认真负责的态度我还是到网上找了一篇图文并茂的文章供大家参考 iOS使用Charles&#xff08;青花瓷&#xff09;抓包并篡改返回数据图文详解 值得一提的是&#xff0c;这篇文章中讲解的使用Charle…

从网页抓取数据的一般方法

首先要了解对方网页的运行机制 &#xff0c;这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie&#xff0c;Referer页面和其他一些乱其八糟可能看不懂的…

如何简单的抓取网站数据

1.首先&#xff0c;用带debug的火狐浏览器&#xff0c;访问要抓取的网站&#xff0c;通过debug的控制台或网络找到数据的接口。 2.Spring框架自3.0版本起&#xff0c;自带了任务调度功能&#xff0c;好比是一个轻量级的Quartz&#xff0c;而且使用起来也方便、简单&#xff0c;…

利用Wireshark抓取QQ的数据流

一、准备工作 1、下载好Wireshark。 2、在手机和电脑分别登录同一个 QQ。 3、电脑和手机连同一个网络&#xff08;WiFi和或者手机热点&#xff09;。 二、操作阶段 1、打开Wireshark。 2、查看手机所连接网络的ip地址。 3、选择WLAN&#xff0c;在搜索栏输入ip.src ip地…

如何实时抓取动态网页数据?

我们所生活的数字世界正在不断地产生大量的数据。利用动态大数据已经成为企业数据分析的关键。 在本文中&#xff0c;我们将回答以下几个问题&#xff1a; 1、为什么采集动态数据很重要? 2、动态数据是如何有效的促进业务增长? 3、最重要的是&#xff0c;我们如何能够轻松…

从网站抓取数据的3种最佳方法

1.使用网站API 许多大型社交媒体网站&#xff0c;例如Facebook&#xff0c;Twitter&#xff0c;Instagram&#xff0c;StackOverflow&#xff0c;都提供API供用户访问其数据。有时&#xff0c;您可以选择官方API来获取结构化数据。如下面的Facebook Graph API所示&#xff0c;…

谷歌内部泄露:我们和 OpenAI 都赢不了,因为正被“开源”偷家!

整理 | 郑丽媛、出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 由 ChatGPT 掀起的 AI 大模型之战&#xff0c;已在全球范围内持续了几个月&#xff0c;其中业界尤为关注的&#xff0c;就是 OpenAI 和谷歌二者之间的博弈。 曾经&#xff0c;2017 年率先发布的 Tra…

贾扬清官宣:从阿里离职,或将投身AI创业!

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>【计算机视觉】微信技术交流群 转载自&#xff1a;机器之心 贾扬清从阿里巴巴正式毕业&#xff0c;计划走向职业生涯的下一个挑战。 近段时间&#xff0c;ChatGPT 与大模型的…

阿里副总裁贾扬清回应:确认离职,或投身AI架构创业!

来源&#xff1a;机器之心 近段时间&#xff0c;ChatGPT 与大模型的爆火&#xff0c;又吸引了整个科技领域以及投资圈对 AI 的关注。最近也爆出了许多学术界、业界 AI 大佬投身创业潮的消息。 知名人工智能科学家贾扬清从阿里巴巴离职创业的信息也被爆出&#xff0c;贾扬清本人…

【人工智能】大模型基础概念、核心技术、应用场景和未来发展

目录 一、大模型概述 二、大模型的发展历程 三、大模型的核心技术 1. Transformer结

BFT 最前线 | 腾讯发布Q1季报;超2000伙伴测试阿里云通义千问;黄仁勋:芯片是NVIDIA加速与AI计算的的“理想应用”

原创 | 文 BFT机器人 AI视界 TECHNOLOGY NEWS 01 阿里云&#xff1a;超2000伙伴测试通义千问 行业专属大模型将成趋势 2023阿里云常州峰会上&#xff0c;阿里云智能中国区总裁黄海清透露&#xff1a;目前通义千问大模型已有超2000个合作伙伴进行测试。未来大模型面向各行各…

Open AI 新论文:通过“过程监督”来改进数学推理

本文经授权转载自「图灵社区公众号&#xff08;ID&#xff1a;ituring_book&#xff09;」 英文原文链接&#xff1a;https://openai.com/research/improving-mathematical-reasoning-with-process-supervision 我们训练了一个模型&#xff0c;通过对每个正确的推理步骤进行奖励…

下周,GPT-4就要来了!

来源&#xff1a;机器之心 我们知道&#xff0c;引爆如今科技界军备竞赛的 ChatGPT 是在 GPT-3.5 上改进得来的&#xff0c;OpenAI 很早就预告 GPT-4 将会在今年发布。最近各家大厂争相入局的行动似乎加快了这个进程。 最新消息是&#xff0c;万众期待的 GPT-4 下周就要推出了&…

从用户的角度谈GPT时代技术突破的两大关键逻辑

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

发送短信功能模块

由于项目在注册、登录、找回密码 时需要发送短信验证的功能&#xff0c;我们使用腾讯云短信做。 为什么要用腾讯云短信呢&#xff1f; 因为注册就送 100条免费短信 的额度。哈哈哈哈&#xff0c;发短信的功能你就不用花钱了。 1.注册腾讯云 & 开通云短信 注册一个腾讯云…