python 安装插件 requests 下载免费简历(自学7)

安装 requests 库:   他们三个 按一个就行 

pip install requests

或者

pip3 install requests

或者

conda install requests

代码

每次只可以下载一页的 简历模板  需要手动修改  id =  ###


import requests
from lxml import etree
import osif __name__ == "__main__":# 创建一个文件夹,保存pptif not os.path.exists('./ppt模板'):os.mkdir('./ppt模板')# UA伪装headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \AppleWebKit/537.36 (KHTML, like Gecko) \Chrome/96.0.4664.93 Safari/537.36'}url = 'https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&page=1'# 发起请求page_response = requests.get(url=url, headers=headers)# 手动设置响应数据编码格式为utf-8page_response.encoding = 'utf-8'# 获取响应数据。text方法返回的是字符串形式的响应数据page_text = page_response.text# 数据解析tree = etree.HTML(page_text)div_list = tree.xpath('//div[@id="main"]/div/div')for div in div_list:ppt_title = div.xpath('./p/a/text()')[0] + '.rar'# ppt_title = ppt_title.encode('iso-8859-1').decode('gbk')ppt_src = 'https:' + div.xpath('./p/a/@href')[0]print(ppt_src)# 向PPT详情页发起请求ppt_response = requests.get(url=ppt_src, headers=headers)ppt_response.encoding = 'utf-8'ppt_page_text = ppt_response.textppt_tree = etree.HTML(ppt_page_text)# 解析下载地址ppt_download_url = ppt_tree.xpath('//ul[@class="clearfix"]/li[1]/a/@href')[0]print(ppt_download_url)# 访问下载地址ppt_data = requests.get(url=ppt_download_url, headers=headers).content# 设置存储路径ppt_path = './ppt模板/' + ppt_titlewith open(ppt_path, 'wb') as fp:fp.write(ppt_data)print(ppt_title, "下载完成!")# print("第%d页下载完毕!" % 1)

 可以同时下载很多简历  page每次自增加一


import requests  # 导入requests库,用于发送HTTP请求
from lxml import etree  # 导入etree模块,用于解析HTML或XML文档
import os  # 导入os模块,用于与操作系统交互,如创建文件夹if __name__ == "__main__":  # 判断是否为主程序运行# 创建一个文件夹,保存pptif not os.path.exists('./jianli'):  # 检查文件夹是否存在os.mkdir('./jianli')  # 如果不存在,则创建文件夹# UA伪装,设置请求头中的User-Agent字段,模拟浏览器访问headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}# 定义起始页和结束页,用于分页请求start_page = 1end_page = 10  # 例如,你想要下载前10页的内容for page in range(start_page, end_page + 1):  # 循环遍历每一页# 动态生成URL,根据页码构造请求地址url = 'https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&page={page}'# 发起请求,获取页面内容page_response = requests.get(url=url, headers=headers)# 手动设置响应数据编码格式为utf-8,确保正确解析中文page_response.encoding = 'utf-8'# 获取响应的文本内容page_text = page_response.text# 数据解析,使用etree解析HTML文档tree = etree.HTML(page_text)# 使用XPath表达式定位到包含PPT信息的div元素列表div_list = tree.xpath('//div[@id="main"]/div/div')for div in div_list:  # 遍历每个div元素# 提取PPT标题,并添加.rar后缀,假设下载的是压缩包ppt_title = div.xpath('./p/a/text()')[0] + '.rar'# 提取PPT详情页的链接ppt_src = 'https:' + div.xpath('./p/a/@href')[0]print(ppt_src)  # 打印详情页链接# 向PPT详情页发起请求ppt_response = requests.get(url=ppt_src, headers=headers)ppt_response.encoding = 'utf-8'  # 设置响应编码ppt_page_text = ppt_response.text  # 获取详情页内容ppt_tree = etree.HTML(ppt_page_text)  # 解析详情页HTML# 解析下载地址,假设下载链接在特定的XPath位置ppt_download_url = ppt_tree.xpath('//ul[@class="clearfix"]/li[1]/a/@href')[0]print(ppt_download_url)  # 打印下载链接# 访问下载地址,获取PPT文件内容ppt_data = requests.get(url=ppt_download_url, headers=headers).content# 设置存储路径ppt_path = './jianli/' + ppt_titlewith open(ppt_path, 'wb') as fp:  # 以二进制写入模式打开文件fp.write(ppt_data)  # 将PPT文件内容写入文件print(ppt_title, "下载完成!")  # 打印下载完成信息print("所有页面下载完毕!")  # 打印所有页面下载完成信息

 

参考: python爬虫练习(xpath爬取站长素材中的免费简历模板)_爬取站长素材中免费简历模板-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6860.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

西门子【Library of General Functions (LGF) for SIMATIC S7-1200 / S7-1500】

文章目录 概要整体架构流程技术名词解释技术细节小结 概要 通用函数库 (LGF) 扩展了 TIA Portal 中用于 PLC 编程的 STEP 7 指令(数学函数、时间、计数器 等)。该库可以不受限制地使用,并包含 FIFO 、搜索功能、矩阵计算、 astro 计…

最新最详细的配置Node.js环境教程

配置Node.js环境 一、前言 (一)为什么要配置Node.js?(二)NPM生态是什么(三)Node和NPM的区别 二、如何配置Node.js环境 第一步、安装环境第二步、安装步骤第三步、验证安装第四步、修改全局模块…

黑龙江锅包肉:酸甜香酥的东北经典

黑龙江锅包肉:酸甜香酥的东北经典 黑龙江锅包肉,作为东北菜的代表之一,尤其在黑龙江省哈尔滨市享有极高的声誉。这道美食不仅承载着丰富的历史文化内涵,更以其鲜明的地域特色,成为了黑龙江省乃至整个东北地区的标志性菜肴。 历史渊源 锅包肉的历史可以追溯到清朝光绪年间,其…

linux——网络基础

文章目录 目录 文章目录 踏入网络世界:探索 Linux 网络的无垠天地 一、网络发展 早期单机处理模式 网络发展的需求催生 网络发展后的优势对比 二、局域网or广域网 典型局域网架构 广域网连接多个局域网 二者关系 三、协议 语言层与汉语协议 通信设备层与电话机协议 …

挖掘机的市场现状和发展前景:全球增长潜力,重塑基础设施建设新篇章

引言:工程机械的心脏,挖掘机的崛起之路 在现代化建设的浪潮中,挖掘机作为工程机械领域的核心设备,正以其强大的作业能力和广泛的应用场景,成为推动全球基础设施建设不可或缺的力量。从高速公路到大型矿场,…

tkinter绘制组件(44)——浮出ui控件

tkinter绘制组件(44)——浮出ui控件 引言布局函数结构ui框架对齐方向绑定已有控件出现和隐藏逻辑出现和隐藏动画完整代码函数 效果测试代码最终效果 github项目pip下载 引言 TinUI的浮出ui控件(flyout)其实是一个之间创建在UI框架…

【Unity3D】《跳舞的线》游戏的方块单方向拉伸实现案例

通过网盘分享的文件:CubeMoveMusic.unitypackage 链接: https://pan.baidu.com/s/1Rq-HH4H9qzVNtpQ84WXyUA?pwda7xn 提取码: a7xn 运行游戏点击空格动态创建拉伸的方块,由Speed控制速度,新方向是随机上下左右生成。 using System.Collect…

新版IDEA创建数据库表

这是老版本的IDEA创建数据库表,下面可以自己勾选Not null(非空),Auto inc(自增长),Unique(唯一标识)和Primary key(主键) 这是新版的IDEA创建数据库表,Not null和Auto inc可以看得到,但Unique和Primary key…

jmeter中对接口进行循环请求后获取相应数据

1、工作中遇到一个场景就是对某个单一接口进行循环请求,并需要获取每次请求后返回的相应数据; 2、首先就在jmeter对接口相关组件进行配置,需要组件有:循环控制器、CSV数据文件设置、计数器、访问接口、HTTP信息头管理器、正则表达…

【含代码】逆向获取 webpack chunk 下的__webpack_require__ 函数,获悉所有的模块以及模块下的函数

背景 Webpack 打包后的代码是不会直接暴露 __webpack_require__ 函数,目的是为了避免污染全局变量同时也为了保护 webpack 的打包后的模块都隐藏在闭包函数里,达到数据的安全性。 而有时我们为了测试某个函数,想直接获取这个内置函数&#…

最新常见的图数据库对比,选型,架构,性能对比

图数据库排名 地址:https://db-engines.com/en/ranking/graphdbms 知识图谱查询语言 SPARQL、Cypher、Gremlin、PGQL 和 G-CORE 语法 / 语义 / 特性 SPARQL Cypher Gremlin PGQL G-CORE 图模式匹配查询 语法 CGP CGP CGP(无可选)1 CGP CGP 语义 子…

CentOS7使用源码安装PHP8教程整理

CentOS7使用源码安装PHP8教程整理 下载安装包解压下载的php tar源码包安装所需的一些依赖扩展库安装前的配置修改配置文件1、进入php8的安装包 配置环境变量开机自启启动服务创建软连接常见问题1、checking for icu-uc > 50.1 icu-io icu-i18n... no2、configure: error: Pa…

php-phar打包避坑指南2025

有很多php脚本工具都是打包成phar形式,使用起来就很方便,那么如何自己做一个呢?也找了很多文档,也遇到很多坑,这里就来总结一下 phar安装 现在直接装yum php-cli包就有phar文件,很方便 可通过phar help查看…

博睿数据获中国信通院泰尔终端实验室致谢!

近日,博睿数据收到中国信息通信研究院(以下简称“中国信通院”)的感谢信,信中对博睿数据积极参与信通院牵头的“铸基计划——高质量数字化转型推进行动”,并在新技术研究、标准建设、课题共创、专家智库等多项工作中提…

分布式理解

分布式 如何理解分布式 狭义的分布是指,指多台PC在地理位置上分布在不同的地方。 分布式系统 分布式系**统:**多个能独立运行的计算机(称为结点)组成。各个结点利用计算机网络进行信息传递,从而实现共同的“目标或者任…

centos哪个版本建站好?centos最稳定好用的版本

在信息化飞速发展的今天,服务器操作系统作为构建网络架构的基石,其稳定性和易用性成为企业和个人用户关注的重点。CentOS作为一款广受欢迎的开源服务器操作系统,凭借其强大的性能、出色的稳定性和丰富的软件包资源,成为众多用户建…

计算机网络 (58)无线局域网WLAN

前言 无线局域网WLAN(Wireless Local Area Network)是一种利用无线通信技术将计算机设备互联起来,构成可以互相通信和实现资源共享的网络体系。 一、定义与特点 定义: WLAN通过无线信道代替有线传输介质连接两个或多个设备形成一个…

vim 中粘贴内容时提示: -- (insert) VISUAL --

目录 问题现象:解决方法:问题原因: 问题现象: 使用 vim 打开一个文本文件,切换到编辑模式后,复制内容进行粘贴时有以下提示: 解决方法: 在命令行模式下禁用鼠标支持 :set mouse …

总结与展望,龙蜥社区第 30 次运营委员会会议线上召开

2025 年 1 月 20 日,龙蜥社区召开了第 30 次运营委员会线上会议,来自 24 家理事单位的 22 位委员及委员代表出席,本次会议由运营委员凝思软件李晨斌主持。会上总结和回顾了龙蜥社区 1 月运营发展情况,同步了龙蜥社区 3 大运营目标…

新型人工智能“黑帽”工具:GhostGPT带来的威胁与挑战

生成式人工智能的发展既带来了有益的生产力转型机会,也提供了被恶意利用的机会。 最近,Abnormal Security的研究人员发现了一个专门为网络犯罪创建的无审查AI聊天机器人——GhostGPT,是人工智能用于非法活动的新前沿,可以被用于网…