Python爬虫案例七:抓取南京公交信息数据并将其保存成excel多表形式

测试链接:

        https://nanjing.8684.cn/line4 

思路:先抓取某个类型下的某一条线路所有数据,然后实现批量,,列举出三个类型代表既可

源码:

from lxml import etree
from xlutils.copy import copy
import requests, os, xlrd, xlwtdef get_all():# 获取所有tynm_list = ['江南线路(1-399)', '江北线路(400-699)', '江宁线路(700-999)']tyid_list = [2, 3, 4]for tynm, tyid in zip(tynm_list, tyid_list):list_url = 'https://nanjing.8684.cn/line{}'.format(tyid)headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","Accept-Language": "zh-CN,zh;q=0.9","Cache-Control": "no-cache","Connection": "keep-alive","Pragma": "no-cache","Sec-Fetch-Dest": "document","Sec-Fetch-Mode": "navigate","Sec-Fetch-Site": "none","Sec-Fetch-User": "?1","Upgrade-Insecure-Requests": "1","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36","sec-ch-ua-mobile": "?0"}cookies = {"JSESSIONID": "48304F9E8D55A9F2F8ACC14B7EC5A02D","wbf__voiceplg-is": "false","tongue": "1","Hm_lvt_c31f95cd1f1c01c74f44d211939ceb8c": "1712659199","__gads": "ID","__gpi": "UID","__eoi": "ID","SECKEY_ABVK": "2DPSFBW+PxohRgE9br/PasK97Oo+bbbcKQgQu9uxadc%3D","BMAP_SECKEY": "XCSGTS0HVG9MJBd7qjmcuIneKymhvMCOXLg1JoYhcHTYNyZi_ZD1PkQ8wHX0_ycxbyF1QTuQWF68O-J3hMNYeSVrLdplIVuNxTyW1OaKt18bXNTDHrBSmsZ7DEMwNaY3o1qfZ-Gy932UGgUlRkYaQLMujMyT2eGMlHUKElpXgb3WIdgV2i4dGkFfMutvbhUKyxkjaWZMOhimPI5uGe2Zow","Hm_lpvt_c31f95cd1f1c01c74f44d211939ceb8c": "1712671763"}response = requests.get(list_url, headers=headers, cookies=cookies).content.decode()# print(response)parse_all(response, tynm)def parse_all(response, tynm):# 解析所有的线路IDA = etree.HTML(response)a_list = A.xpath('//div[@class="list clearfix"]/a')for a in a_list:xlid = a.xpath('./@href')[0]get_one(xlid, tynm)def get_one(xlid, tynm):# 某一条线路one_url = 'https://nanjing.8684.cn{}'.format(xlid)headers = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","Accept-Language": "zh-CN,zh;q=0.9","Cache-Control": "no-cache","Connection": "keep-alive","Pragma": "no-cache","Sec-Fetch-Dest": "document","Sec-Fetch-Mode": "navigate","Sec-Fetch-Site": "none","Sec-Fetch-User": "?1","Upgrade-Insecure-Requests": "1","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36","sec-ch-ua-mobile": "?0"}cookies = {"JSESSIONID": "48304F9E8D55A9F2F8ACC14B7EC5A02D","wbf__voiceplg-is": "false","tongue": "1","Hm_lvt_c31f95cd1f1c01c74f44d211939ceb8c": "1712659199","__gads": "ID","__gpi": "UID","__eoi": "ID","Hm_lpvt_c31f95cd1f1c01c74f44d211939ceb8c": "1712667896","SECKEY_ABVK": "2DPSFBW+PxohRgE9br/PahPpT7wKZzGpOzUoWKrHE14%3D","BMAP_SECKEY": "XCSGTS0HVG9MJBd7qjmcuNCVpgwunmx3HOykd-nz4D-iFhbshz31f4mcmp3_W2DuaWoxnWstpA8--nKAgM_oHpmeq9I4YTbb3qlNksDhm1p8aAgMLY_JmRsPghK_5Cz-OHHnXHh16-fsX6GY9TW5yRhSOnFDrBnVc4V5LysnCzkEjrJ4OArZaTA6rA9Gid8tLBOeKUHh-nAGPdfN_KgAnw"}response = requests.get(one_url, headers=headers, cookies=cookies).content.decode()# print(response)parse_one(response, tynm)def parse_one(response, tynm):# 解析某一条线路A = etree.HTML(response)# 线路名称xlmc = A.xpath('//h1[@class="title"]/span/text()')xlmc = ''.join(xlmc)# 线路类型xllx = A.xpath('//h1[@class="title"]/a/text()')xllx = ''.join(xllx)[1:-1]# 运行时间yxsj = A.xpath('//ul[@class="bus-desc"]/li[1]/text()')yxsj = ''.join(yxsj).split('时间:')[-1]# 参考票价ckpj = A.xpath('//ul[@class="bus-desc"]/li[2]/text()')ckpj = ''.join(ckpj).split('票价:')[-1]# 公交公司gjgs = A.xpath('//ul[@class="bus-desc"]/li[3]/a/text()')gjgs = ''.join(gjgs)# 最后更新zhgx = A.xpath('//ul[@class="bus-desc"]/li[4]/span/text()')zhgx = ''.join(zhgx).split('更新:')[-1]# 公交路线-正向gjxl_zx = A.xpath('//div[@class="service-area"]/div[@class="bus-lzlist mb15"][1]/ol/li/a/text()')gjxl_zx = '/'.join(gjxl_zx)# 公交路线-反向gjxl_fx = A.xpath('//div[@class="service-area"]/div[@class="bus-lzlist mb15"][2]/ol/li/a/text()')gjxl_fx = '/'.join(gjxl_fx)data = {tynm: [xlmc, xllx, yxsj, ckpj, gjgs, zhgx, gjxl_zx, gjxl_fx]}save_data(data, tynm, xlmc)def save_data(data, tynm, xlmc):# 保存数据sheet_name = tynmif not os.path.exists(r'公交线路数据.xls'):wb = xlwt.Workbook(encoding='utf-8')sheet = wb.add_sheet(sheet_name, cell_overwrite_ok=True)header = ('线路名称', '线路类型', '运行时间', '参考票价', '公交公司', '最后更新', '公交路线-正向', '公交路线-反向')for i in range(0, len(header)):sheet.col(i).width = 2560 * 3sheet.write(0, i, header[i])wb.save(r'./公交线路数据.xls')wb = xlrd.open_workbook(r'公交线路数据.xls')sheets_list = wb.sheet_names()if sheet_name not in sheets_list:work = copy(wb)sh = work.add_sheet(sheet_name)header_new = ('线路名称', '线路类型', '运行时间', '参考票价', '公交公司', '最后更新', '公交路线-正向', '公交路线-反向')for index in range(0, len(header_new)):sh.col(index).width = 2560 * 3sh.write(0, index, header_new[index])work.save(r'./公交线路数据.xls')if os.path.exists(r'公交线路数据.xls'):wb = xlrd.open_workbook(r'公交线路数据.xls')sheets = wb.sheet_names()for i in range(len(sheets)):for name in data.keys():worksheet = wb.sheet_by_name(sheets[i])if worksheet.name == name:rows_old = worksheet.nrowsnew_workbook = copy(wb)new_worksheet = new_workbook.get_sheet(i)for num in range(0, len(data[name])):new_worksheet.write(rows_old, num, data[name][num])new_workbook.save(r'./公交线路数据.xls')print(r'***ok: 公交线路数据: {} - {}'.format(tynm, xlmc))if __name__ == '__main__':get_all()y

运行效果:

1)running中:

2) ending:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/422922.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

串口输出时:英文正常输出、中文乱码输出

一、问题:英文正常输出,英文乱码输出 二、解决方法 1、查看自己使用的串口助手的编码格式 2、查看自己使用输出的文件编码格式 以记事本的格式查看,原则上这两种应该保持相同,如果不相同,就需要把这个文件去另保存一…

UE5 阴影通道

Shadow Pass Switch节点中 Default代表模型遮罩的效果 Shadow代表阴影的生成遮罩效果

Android Studio报错中文乱码

现象: 解决办法: 按两下Shift,查找Edit Custom VM Options并确认; 没有studio64.exe.vmoptions的话会弹窗,创建一个即可;原本存在的话,在最下面添加 -Dfile.encodingUTF-83. Sync Gradle 重…

开源项目chartDB体验

github地址 :https://github.com/chartdb/chartdb 在线网站体验:https://chartdb.io/ 体验后发现 chartDB的作用是可视化各个表格之间的关系,方便数据库设计者操作并且接上openai的接口生成各个数据库语言的代码;但它没法导入实际…

人工智能在鼻咽癌诊断和治疗中的应用进展、当前挑战和未来前景|文献精析·24-09-13

小罗碎碎念 这篇文章综述了人工智能在鼻咽癌诊断和治疗中的应用进展、当前挑战和未来前景。 角色姓名单位名称(中文)第一作者杨四川大学华西医院肿瘤中心生物治疗科,生物治疗国家重点实验室通讯作者陈四川大学华西医院血管外科,普…

通过TikTok创新视频广告并提高ROAS

通过使用TikTok视频购物广告,Refurbed在五个国家的广告支出回报率(ROAS)提升了5.8%。 目录 总结营销策略是什么?取得了什么成果?为什么有效?获取更多类似的策略 总结 公司: Refurbed。目标&…

Matlab对状态机建模的方法

【 线性代数 状态机 】良好的控制系统设计 (根据现有的情况总结出状态转移方程) 状态组件在设计时需要考虑的内容 AI 的逻辑 可以提供一个思路 python 库调用的路径,必须是完整的路径 python 解释器的入口

【Leetcode算法面试题】-1. 两数之和

文章目录 算法练习题目思路参考答案算法1算法2算法3 算法练习 面试经常会遇到算法题目,今天开启算法专栏,常用算法解析 题目 ** 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数&…

Metasploit 渗透测试之Metasploit快速入门

简介 Metasploit 是目前世界上领先的渗透测试工具,也是信息安全与渗透测试领域最大的开源项目之一。它彻底改变了我们执行安全测试的方式。Metasploit之所以流行,是因为它可以执行广泛的安全测试任务,从而简化渗透测试的工作。Metasploit 适…

查看TCP/UDP网络连接通信情况

绪论​ “宿命论是那些缺乏意志力的弱者的借口。 ——罗曼.罗兰” 话不多说安全带系好,发车啦(建议电脑观看)。 主要使用: nestat -nltp n 拒绝显示别名,能显示数字的全部转化成数字l 仅列出有在 Listen (…

QML学习三:qml设计器报错 Line: 0: The Design Mode requires a valid Qt kit

开发环境:Qt 6.5.3 LTS 1、Qt 6.5.3 LTS 2、Pyside6 3、Python 3.11.4 4、win11 默认不打开设计器的时候可以看到我们默认是有Python的环境,而且点击运行是可以运行的。但是当打开qml设计器时提示下面这个错误,提示需要一个可用的套件。 …

代码随想录算法day33 | 动态规划算法part06 | 322. 零钱兑换,279.完全平方数,139.单词拆分,关于多重背包

322. 零钱兑换 如果求组合数就是外层for循环遍历物品,内层for遍历背包。 如果求排列数就是外层for遍历背包,内层for循环遍历物品。 力扣题目链接(opens new window) 给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需…

SAP学习笔记 - 开发03 - CDSView开发环境搭建,Eclipse中连接SAP,CDSView创建

上一章讲了BTP的账号创建,环境搭建等内容。 SAP学习笔记 - 开发02 - BTP实操流程(账号注册,BTP控制台,BTP集成开发环境搭建)-CSDN博客 本章继续讲SAP开发。 - CDSView 的开发环境(Eclipse)搭建…

“薅羊毛”时间到, 容声以旧换新“钜惠”升级

9月13日,由佛山市商务局、顺德区人民政府指导,海信家电集团主办的以旧换新佛山发布活动启幕。 海信家电(SZ 000921,HK 00921)旗下容声冰箱叠加国家以旧换新补贴,把“以旧换新”升级到“品质换新”&#xf…

【CTF Web】BUUCTF BUU BURP COURSE 1 Writeup(X-Real-IP伪造+POST请求)

BUU BURP COURSE 1 1 点击启动靶机。 解法 用 hackbar 将 X-Forwarded-For 设为 127.0.0.1,无效。提示:只能本地访问。 将 Referer 设为 127.0.0.1,无效。提示:只能本地访问。 将 X-Real-IP 设为 127.0.0.1,成功&am…

Linux 添加新用户之adduser 和 useradd 的区别 | 添加用户到 sudo 组【笔记型博文】

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️ 文章目录 ❤️ 创建新用户adduser 用法【推荐】useradd 用法 安装 sudo添加用户到 sudo 用…

uniapp数据缓存和发起网络请求

数据缓存 uni.onStorageSync同步的方式将数据存储到本地缓存 <template><button click"onStorageSync()">存储数据</button> </template><script setup>const onStorageSync () > {// 存储数据uni.setStorageSync(username, 张三)…

安防监控/视频汇聚平台EasyCVR无法启动并报错“error while loading shared libraries”,如何解决?

安防监控/视频汇聚平台EasyCVR视频管理系统以其强大的拓展性、灵活的部署方式、高性能的视频能力和智能化的分析能力&#xff0c;为各行各业的视频监控需求提供了优秀的解决方案。通过简单的配置和操作&#xff0c;用户可以轻松地进行远程视频监控、存储和查看&#xff0c;满足…

Golang | Leetcode Golang题解之第390题消除游戏

题目&#xff1a; 题解&#xff1a; func lastRemaining(n int) int {a1 : 1k, cnt, step : 0, n, 1for cnt > 1 {if k%2 0 { // 正向a1 step} else { // 反向if cnt%2 1 {a1 step}}kcnt >> 1step << 1}return a1 }

部署k8s基础环境

部署k8s基础环境 一、环境准备 1、主机准备&#xff1a; k8s-master&#xff08;192.168.2.90&#xff09;k8s-node01&#xff08;192.168.2.91&#xff09;k8s-node02&#xff08;192.168.2.92&#xff09; 2、关闭防火墙、selinux、NetworkManager [rootk8s-master ~]# …