python编程获取《续蜀山剑侠传》目录信息:目录名称和网址

一直很欣赏武侠小说宗师还珠楼主李寿民的扛鼎之作《蜀山剑侠传》,可惜由于种种原因,《蜀山剑侠传》并未写完。这着实令还珠迷们扼腕,也有不少人继写了《蜀山剑侠传》,但是良莠夹杂,其中有一位退休公务员写的《续蜀山剑侠传》相对来说是按照还珠楼主的思路续写的,并且在网上连载了,于是想把它从网上down下来保存为txt文件。顺便练习一下Python编程。

首先要获取目录信息,主要是目录名称和网址。通过分析连载网站的网页源代码,编写Python代码如下:

# -*- coding:UTF-8 -*-
import urllib.request, sys
import redef openUrl(url):try:page = urllib.request.urlopen(url, data=None, timeout=5)except urllib.error.HTTPError as e:print(e.code)print(e.reason)return ''except urllib.error.URLError as e:print(e.reason)return ''else:    html = page.read().decode('utf-8')return htmldef getList(html, tag):i = html.find(tag)if i == -1:print ('没有找到' + tag)return ''else:con = html[i+len(tag):]#print ("前30个字符:" + con[:30])tag = 'ul'tag_pat = r'(?<=<'+ tag + '>).*?(?=</' + tag + '>)'  tag_ex = re.compile(tag_pat, re.M|re.S) con = re.findall(tag_ex, con)#con = html.split('正文')#print (con[0])return con[0]def printList(list, host):#获取textres = r'(.*?)'t =  re.findall(res, list, re.S|re.M)#获取hrefres_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"h = re.findall(res_url, list, re.I|re.S|re.M)for i in range(len(t)):print (str(i+1) + '\t' + t[i] + '\t' + host + h[i])def main():url = 'http://www.mengxi.net/book/263745/index.html'i = url.index('/', 7)host = url[0 : i]print ('打开' + url)html = openUrl(url)if len(html) > 0:tag = '正文'list = getList(html, tag)printList(list, host)main()

程序运行结果如下:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29682.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能Python-python_nah

Python Nah&#xff1a;一场涵盖搜索引擎的革命 一、Python Nah的简介 Python Nah是一种基于Python编程语言的搜索引擎技术&#xff0c;旨在改进搜索引擎的性能和搜索结果的准确性。与其他搜索引擎技术不同&#xff0c;Python Nah利用了Python的机器学习优势&#xff0c;并且…

可汗学院统计学1-16课笔记

[第1课] 均值 中位数 众数 均值(平均值) 数据之和 / 数据个数中位数 数据排序后&#xff0c;处在中间的数&#xff08;如果两位数取平均值&#xff09;众数 出现次数最多的数,一组数据可以有多个众数 import numpy as np import pandas as pd#定义数据 datanp.array([1,2,…

余承东回应高通对华为恢复 5G 芯片供应;ChatGPT 发布重要更新;微软推出免费 AI 入门课|极客头条...

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&#…

23.4.25 Go学习日记

1. Go的命名规范&#xff08;生成自ChatGPT&#xff09; 1.1 包名 包名应该小写并尽可能用单个简短的词组&#xff0c;不要使用下划线或混合大小写。 1.2 文件名 Go 语言的文件名通常为小写字母&#xff0c;可以包含下划线 (_) 或点 (.)&#xff0c;但不建议&#xff0c;并确…

微软亚研院:Language Is Not All You Need

源 | 量子位 还记得这张把谷歌AI搞得团团转的经典梗图吗&#xff1f; 现在&#xff0c;微软亚研院的新AI可算是把它研究明白了。 拿着这张图问它图里有啥&#xff0c;它会回答&#xff1a;我看着像鸭子。 但如果你试图跟它battle&#xff0c;它就会改口&#xff1a;看上去更像兔…

2023需要重点关注的四大AI方向

2023需要重点关注的四大AI方向 过去10年&#xff0c;人工智能从实验室走向各行各业&#xff0c;成为一种普遍技术应用于众多领域。根据IDC的数据&#xff0c;2022年全球AI市场规模达到4328亿美元&#xff0c;增长近20%。而Precedence Research预计&#xff0c;到2030年&#xf…

全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

1. Dolly 2.0&#xff1a;世界上第一个完全开源的指令跟随LLM 两周前&#xff0c;Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly&#xff0c;其训练成本不到 30 美元。今天&#xff0c;他们发布了 Dolly 2.0&#xff0c;这是业内第一个开源的指令跟随LLM&#xff0c;并根…

chatgpt赋能python:Python怎么绕过登录爬取数据

Python怎么绕过登录爬取数据 在进行网站爬取时&#xff0c;经常会发现需要登录才能访问所需要的数据&#xff0c;这给我们的爬虫程序带来了一定的难度。本文就介绍一些Python绕过登录的方法&#xff0c;让你获取到所需的数据。 1. Session维持登录状态 当我们登录一个网站时…

怎么洗稿容易过稿-在线洗稿软件

自媒体洗稿软件 即使您是一位优秀的自媒体写作人员&#xff0c;也难免遇到让人头疼的撰写问题&#xff0c;例如无法处理大量原始文本、需要手动删除冗余信息、缺少时间针对每篇文章进行深入修改等问题。但是&#xff0c;现在有了我们的一款自媒体洗稿软件&#xff0c;您再也不需…

洗稿用什么软件-洗稿软件免费

洗稿文章的主要优势 洗稿文章的主要优势在于提高文章的质量和效率。以下是洗稿文章的几个主要优势&#xff1a; 优化结构和语言 洗稿可以删除冗余、无用和重复的内容&#xff0c;同时对文章的结构和语言进行优化&#xff0c;提高文章的可读性和吸引力。这可以使文章更加专业…

洗稿伪原创工具-洗稿生成器

chatgpt快速洗稿一篇文章 做自媒体创作的人都知道&#xff0c;文案创作是一件十分耗时间和精力的事情&#xff0c;而且要做好一篇文章&#xff0c;还需要考虑排版、语法和语气等问题。为了让自媒体写作更简单、更快速&#xff0c;我们推出了一款名为ChatGPT的快速洗稿软件&…

chatgpt赋能python:PythonReadline遍历:如何准确高效地读取大文件

Python Readline遍历: 如何准确高效地读取大文件 简介 在Python编程中&#xff0c;读取大型文本和数据文件是一项常见的任务。通常&#xff0c;Python在读取文件时&#xff0c;会一次性将整个文件读入内存中&#xff0c;这在读取小型文件时是非常有效的&#xff0c;但当文件较…

chatgpt赋能python:Python文件调用指南

Python文件调用指南 在Python编程中&#xff0c;经常需要使用文件进行数据读取和写入&#xff0c;所以掌握文件读写操作是非常重要的。本文将介绍如何在Python中调用文件&#xff0c;并给出一些使用技巧。 1. Python如何打开文件 可以使用Python内置的open()函数打开文件。o…

chatgpt赋能python:Python文件句柄全面解析

Python文件句柄全面解析 在 Python 中&#xff0c;文件被视为 I/O&#xff08;输入/输出&#xff09;操作的基础&#xff0c;文件句柄是与文件进行交互的重要方式之一。本文将从以下方面介绍和解析 Python 文件句柄&#xff1a; 什么是文件句柄&#xff1f;如何创建文件句柄&…

chatgpt赋能python:Python文件读取入门指南

Python文件读取入门指南 Python是一门强大的编程语言&#xff0c;能够处理各种各样的数据类型&#xff0c;其中文件也不例外。文件是计算机与外部世界进行信息交换的基础&#xff0c;使用Python读取和处理文件是我们在日常编程中必须掌握的技能。 在这篇文章中&#xff0c;我…

【Go】从文件读取json

在Go语言中&#xff0c;可以使用标准库中的 encoding/json 包来将 JSON 数据解析为 Go 中的结构体。 下面是一个简单的示例代码&#xff0c;演示了如何从 JSON 文件中读取数据并将其解析为结构体&#xff1a; package mainimport ("encoding/json""fmt"&q…

chatgpt赋能python:Python读取目录下文件和文件夹:一个便捷的文件管理解决方案

Python 读取目录下文件和文件夹&#xff1a;一个便捷的文件管理解决方案 在现代计算机领域中&#xff0c;文件和文件夹是我们经常需要处理的基本单元。在Python编程中&#xff0c;我们通常需要迭代目录中的文件和文件夹&#xff0c;以便对它们进行操作。幸运的是&#xff0c;P…

自然人如何开发票-以广西为例

个人没有开办企业&#xff0c;没有营业执照的情况能不能开发票呢。例如张三开了一家淘宝店&#xff0c;顾客在他这买了产品&#xff0c;想要张三给他开发发票&#xff0c;如果张三开不了发票&#xff0c;那人家就不要了。那这张三亏大了啊。于是想问&#xff0c;个人能不能开发…

医药交易平台如何保证税务合规?

伴随着我国社会经济的快速发展&#xff0c;居民对自身健康的关注程度与医疗保健意识在不断提高&#xff0c;再加上社会保障制度、公共卫生体系等的不断完善&#xff0c;以及在互联网的助力下&#xff0c;为医药经济的发展提供了良好的市场和机遇。特别是我国人口数量持续增长且…

内蒙古自治区律师事务所排名情况

内蒙古经济长期稳定增长&#xff0c;为内蒙古律师事务所的崛起带来了突破性历史机遇。随着时代的发展&#xff0c;行业发展规模已趋于稳定&#xff0c;律师业的竞争亦趋于成熟&#xff0c;截止2022年3月14日&#xff0c;根据官方公布数据显示内蒙古自治区共有777家律师事务所&a…