项目十二：简单的python基础爬虫训练

项目十二：简单的python基础爬虫训练

news/2024/12/23 21:39:11/文章来源:https://blog.csdn.net/2201_75876277/article/details/139076809

许久未见，甚是想念，今日好运，为你带好运。ok，废话不多说，希望这门案例能带你直接快速了解并运用。🎁💖

基础流程

第一步：安装需要用到的requests库，命令如下

pip install requests

第二步：随意找个目标网址

url = '目标网址'

第三步：发送请求get响应

req = requests.get(url)

第四步：打印响应信息

print(req_text)

完整代码如下

import requests #导入库
url = 'http://gitbook.cn/' #目标网址
req = requests.get(url) #发送请求
print(req.text) #打印信息

输出结果

ok,这四步流程就是走完了，接下来就是怎么把爬取的数据保存下来，那么继续往下看。

存储数据

存储数据的格式有很多种，例如csv、html、spl、xls等，全看个人意愿选择。基本代码如下

with open('./文件名称路径', '文件操作模式', encoding = '编码格式') as fp:fp.write(page_text) #括号内容为变量，包含要写入的文本内容

最终代码如下

import requests # 导入requests模块
url = 'https://www.sogou.com' # 要爬取的网址
req = requests.get(url) # 发起请求
page_text = req.text # 获取网页内容
print(page_text) # 此行代码可以不加，看个人喜好，不影响程序运行
with open('./sogou.html', 'w', encoding = 'utf-8') as fp: # 保存网页内容到本地fp.write(page_text) # 写入文件

输出结果：

这些简单的爬虫流程我们从爬取数据到存储数据就是做完了，是不是很简单啊，当然，对任何事物还是要保持敬畏之心和上进之心。

我是好运，想要好运，今日分享，到此一游

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/330562.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

c++ vector实现出现的一些问题

c++ vector实现出现的一些问题

目录前言： 浅拷贝问题: typename指定类型： 前言： 最近学习了c vector的使用，然后也自己实现了一下vector的部分重要的功能。然后在其中出现了一些问题，在这就主要记录一下我解决哪些bug。浅拷贝问题: 在实现res…

阅读更多...

IDEA中一些常见操作【持续更新】

IDEA中一些常见操作【持续更新】

文章目录前言善用debugidea中debug按钮不显示自动定位文件【始终选择打开的文件】idea注释不顶格【不在行首】快速定位类的位置【找文件非常快】创建文件添加作者及时间信息快速跳转到文件顶端底端前言因为这些操作偶尔操作一次，不用刻意记忆，有个印…

阅读更多...

C++：关联容器及综合运用：

C++：关联容器及综合运用：

关联容器和顺序容器有着根本的不同:关联容器中的元素是按关键字来保存和访问的,而顺序容器中的元素是按它们在容器中的位置来顺序保存和访问的。关联容器因此相比与顺序容器支持高效的关键字查找和访问。其底层数据结构：顺序关联容器 ->红黑树，插入…

阅读更多...

炫酷gdb

炫酷gdb

在VS里面调试很方便对吧？（F5直接调试，F10逐过程调试--不进函数，F11逐语句调试--进函数，F9创建断点），那在Linux中怎么调试呢？ 我们需要用到一个工具：gdb 我们知道VS中程…

阅读更多...

可转债日内自动T+0交易,行情推送+策略触发+交易接口

说明目前这个项目已编译打包,下载即可测试,直接生成多平台可执行文件，详见运行方法。行情部分与策略弱相关，拆分解耦单独作为一个项目。行情项目请移步GitHub - freevolunteer/hangqing: A股行情订阅工具，支持股票/可转债level2/level2数据&…

阅读更多...

【系统架构师】-案例篇（十五）SOA、微服务与数据库

【系统架构师】-案例篇（十五）SOA、微服务与数据库

1、可复用构件应具备哪些属性可用性：构件必须易于理解和使用。质量：构件及其变形必须能正确工作。适应性：构件应该易于通过参数化等方式在不同语境中进行配置。可移植性：构件应能在不同的硬件运行平台和软件环境中工作。可变…

阅读更多...

设计模式14——组合模式

设计模式14——组合模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用，主要是下面的UML图可以起到大作用，在你学习过一遍以后可能会遗忘，忘记了不要紧，只要看一眼UML图就能想起来了。同时也请大家多多指教。组合模式（Composit…

阅读更多...

废物回收机构|基于SprinBoot+vue的地方废物回收机构管理系统(源码+数据库+文档)

废物回收机构|基于SprinBoot+vue的地方废物回收机构管理系统(源码+数据库+文档)

地方废物回收机构管理系统目录基于SprinBootvue的地方废物回收机构管理系统一、前言二、系统设计三、系统功能设计 1管理员功能模块 2 员工功能模块四、数据库设计五、核心代码六、论文参考七、最新计算机毕设选题推荐八、源码获取： 博主介绍…

阅读更多...

【minio】minio文件访问不到问题记录

【minio】minio文件访问不到问题记录

问题描述： 项目上上传了logo，但是无法回写logo，但是文件minio路径已经返回，并且到minio服务器上也能下载文件； 解决方案： 1.排查Nginx的代理的minio是否正确 2.登录minio服务查一下文件路径policy是否设置访…

阅读更多...

在某云服务器上搭建公网kali linux2.0

在某云服务器上搭建公网kali linux2.0

前提： 可用的 CVM 实例挂载一个系统盘之外的盘，安装完成后可卸载！ 创建实例，安装centos7系统！ 然后执行fdisk -l看磁盘的情况在这里我将把镜像写入vdb这块数据盘非 root 的情况下记得sudo执行以下命令注意&…

阅读更多...

机器学习之常用算法与数据处理

机器学习之常用算法与数据处理

一、机器学习概念： 机器学习是一门多领域交叉学科，涉及概率论、统计学、计算机科学等多门学科。它的核心概念是通过算法让计算机从数据中学习，改善自身性能。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识…

阅读更多...

jmeter保存测试计划报错——Couldn‘t save test plan to file:

jmeter保存测试计划报错——Couldn‘t save test plan to file:

jmeter保存测试计划报错——Couldnt save test plan to file:。。。。。拒绝访问一、问题描述二、分析三、结果一、问题描述 Couldn’t save test plan to file:D:\Program Files\apache-jmeter-5.6.2\bin\线程组.jmx D:\Program Files\apache-jmeter-5.6.2\bin\线程组.jmx(…

阅读更多...

用WPS将多张图片生成一个pdf文档，注意参数设置

用WPS将多张图片生成一个pdf文档，注意参数设置

目录 1 新建一个docx格式的文档 2 向文档中插入图片 3 设置页边距 4 设置图片大小 5 导出为pdf格式需要把十几张图片合并为一个pdf文件，本以为很简单，迅速从网上找到两个号称免费的在线工具，结果浪费了好几分钟时间，发现需要…

阅读更多...

【汽车操作系统】Autosar和商用OS

【汽车操作系统】Autosar和商用OS

目录什么是AUTOSAR? CP AUTOSAR架构 CAN通信 AP AUTOSAR 背景 CP&AP 开发方面的不同： WRLinux介绍 QNX介绍什么是AUTOSAR? 随着汽车功能越来越多，导致ECU的数量越来越多。1993年的时候，奥迪A8才只有5个ECU现在典型的现代汽车…

阅读更多...

shell文本三剑客——awk命令【☆】

shell文本三剑客——awk命令【☆】

目录一、akw原理二、命令格式三、常用变量四、awk的用法 1.输出整行内容 2.按字段输出文本内容 3.按列输出文件内容 FS变量为列分隔符 4.awk的三个模式 5. awk ‘控制语句条件 {操作}’ 文件 6.awk的数组 7.awk的应用一、akw原理逐行读取文本，默认…

阅读更多...

TypeScript-泛型

TypeScript-泛型

泛型(Generics) 指在定义接口，函数等类型的时候，不预先指定具体的类型，而在使用的时候再指定类型的一种特性，使用泛型可以复用类型并且让类型更加灵活泛型接口-interface 语法：在 interface 接口类型的名称后面使用…

阅读更多...

《基于Jmeter的性能测试框架搭建》改进一

《基于Jmeter的性能测试框架搭建》改进一

《基于Jmeter的性能测试框架搭建》文末笔者提到了不少待改进之处，如下所示。 Grafana性能图表实时展现，测试过程中需实时截图形成测试报告，不够人性化。解决方案：自动生成测试报告并邮件通知。 Grafana性能图表需测试人员实时监控…

阅读更多...

加入MongoDB AI创新者计划，携手MongoDB共同开创AI新纪元

加入MongoDB AI创新者计划，携手MongoDB共同开创AI新纪元

加入MongoDB AI创新者计划！ MongoDB对AI创新和初创企业的支持既全面又广泛！无论您是领先的AI初创企业还是刚刚起步，MongoDB Atlas都是支持您愿景的最佳平台。 AI 初创者计划The AI Startup Track AI初创者计划为早期初创企业提供专属福利&…

阅读更多...

云端漫步：搭建个人博客的移动云之旅

云端漫步：搭建个人博客的移动云之旅

💂作者简介： Thunder Wang，阿里云社区专家博主，华为云云享专家，腾讯云社区认证作者，CSDN SAP应用技术领域优质创作者。在学习工作中，我通常使用偏后端的开发语言ABAP，SQL进行任务的完…

阅读更多...

dmanywhere的docker制作

dmanywhere的docker制作

dmanywhere的docker制作官网地址： http://www.dmanywhere.cn/ 下载相关执行文件。 Dockerfile的默认命名是“Dockerfile”， 在构建镜像时，如果没有指定Dockerfile文件，Docker通常会寻找名为“Dockerfile”的文件 1.Dockerf…

阅读更多...

最新文章

推荐文章