爬取古诗文网的推荐古诗

爬取古诗文网的推荐古诗

  • 思路分析
  • 完整代码
  • 结果展示

思路分析

在这里插入图片描述
本次的主要目的是练习使用正则表达式提取网页中的数据。
该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指的是第一页。

https://www.gushiwen.org/default.aspx?page=1

想要第几页只需要让page等于对应的页码数即可。
页面数据的提取使用的是正则表达式,由于爬取的数据较少,这里我就直接保存成CSV文件了。

完整代码

# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time:    2020/2/3 13:04
# @Author:  Martin
# @File:    ancient_poetry.py
# @Software:PyCharm
import requests
import re
import pandas as pddef main():endIndex = 10data = []url = 'https://www.gushiwen.org/default.aspx?page=%d'for i in range(1, endIndex+1):data += parse_page(url % i)save(data)def parse_page(url):headers = {'Referer': 'https://www.gushiwen.org/default.aspx?page=1','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}r = requests.get(url, headers=headers)text = r.texttitles = re.findall(r'<div class="cont">.*?<b>(.*?)</b>', text, re.DOTALL)dynasties = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>', text, re.DOTALL)authors = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>', text, re.DOTALL)contents = re.findall(r'<div class="contson".*?>(.*?)</div>', text, re.DOTALL)poem_contents = []for content in contents:item = re.sub(r'<.*?>', "", content).strip()poem_contents.append(item)poem_list = []for title, dynasty, author, content in zip(titles, dynasties, authors, poem_contents):poem_list.append({'title': title,'author': author,'dynasty': dynasty,'content': content})print(poem_list)return poem_listdef save(data):pd.DataFrame(data).to_csv('./result/poem.csv', index=False, encoding='utf_8_sig')if __name__ == '__main__':main()

结果展示

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50436.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python程序写诗【训练1分钟】古诗生成

原创AI程序写诗&#xff1a;训练 一分钟&#xff0c;诗词一秒成&#xff01; 先看看写出来什么诗~ 文章目录 来看看程序语料下载地址关于程序的一些基础更多诗词创作山水田园宫廷别塞战争抒情春节 来看看程序 from gensim.models import Word2Vec # 词向量 from random impor…

最全中华古诗词数据库,收录30多万诗词

诗词诗人数据库 mysql文件 收录13136个诗人 305131个诗词&#xff0c;还有诗词赏析和注解等&#xff0c;需要的同学可以下载 可以搜索微信小程序 诗词成语大全 看数据效果 下载地址 人们习惯用史料来描述文学史的高峰状态&#xff0c;而在当今大数据时代&#xff0c;我们或可尝…

Python爬取古诗词

一、需求 爬取网址&#xff1a;https://www.gushiwen.org/ 需求&#xff1a; &#xff08;1&#xff09;获取侧边栏【类型】信息&#xff1b; &#xff08;2&#xff09;获取每个类型中古诗文详情页信息&#xff1b; &#xff08;3&#xff09;提取详情页数据&#xff1a;古诗…

最新C#调用Google即时翻译

主要是调用谷歌的翻译API进行翻译&#xff0c;WebRequest的请求&#xff0c;将获取到的翻译提取出来。下面上代码 需要用到一个的js文件&#xff1a;对获取到数据的过滤&#xff0c;命名为gettk.js var b function&#xff08;a&#xff0c;b&#xff09;{for&#xff08;var…

机器自动翻译古文拼音 - 十大宋词 - 江城子·乙卯正月二十日夜记梦 苏轼

【苏轼】江城子乙卯正月二十日夜记梦||纪录片剪辑 江城子乙卯正月二十日夜记梦 宋苏轼 十年生死两茫茫&#xff0c;不思量&#xff0c;自难忘。 千里孤坟&#xff0c;无处话凄凉。 纵使相逢应不识&#xff0c;尘满面&#xff0c;鬓如霜。 夜来幽梦忽还乡&#xff0c;小轩窗&…

汉译英翻译,中译英翻译古诗词有哪些要求?

作为中华民族优秀传统文化的代表——中国古诗词&#xff0c;受到了越来越多翻译人员的关注&#xff0c;将中文古诗词翻译成英文&#xff0c;对于促进中国古典文化在西方的传播有重大意义。那么&#xff0c;在中译英翻译过程中&#xff0c;如何才能准确翻译古诗词?提升古诗英译…

机器自动翻译古文拼音 - 宋词 - 桂枝香 金陵怀古 王安石

桂枝香金陵怀古 北宋王安石 登临送目&#xff0c;正故国晚秋&#xff0c;天气初肃。 千里澄江似练&#xff0c;翠峰如簇。 归帆去棹斜阳里&#xff0c;背西风&#xff0c;酒旗斜矗。 彩舟云淡&#xff0c;星河鹭起&#xff0c;画图难足。 念往昔、繁华竞逐&#xff0c;叹门外…

机器自动翻译古文拼音 - 十大宋词 - 水调歌头 明月几时有 苏轼

水调歌头明月几时有 北宋苏轼 明月几时有&#xff0c;把酒问青天。 不知天上宫阙&#xff0c;今夕是何年。 我欲乘风归去&#xff0c;又恐琼楼玉宇&#xff0c;高处不胜寒。 起舞弄清影&#xff0c;何似在人间&#xff1f; 转朱阁&#xff0c;低绮户&#xff0c;照无眠。 不应…

5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

熟悉橡皮擦的朋友都知道&#xff0c;橡皮擦最爱写的文章是关于 Python 的&#xff0c;但是呢&#xff0c;橡皮擦确实是一个产品经理&#xff0c;哈哈&#xff0c;所以每次给大家分享 Python 相关知识的时候&#xff0c;总想着自己是一个前端工程师&#xff08;好迷糊&#xff0…

模拟登录古诗词网

主要思路&#xff1a; 对登录界面发送请求&#xff0c;网址&#xff1a;https://so.gushiwen.cn/user/login.aspx?fromhttp://so.gushiwen.cn/user/collect.aspx由于该网址密码输错三次会有验证码&#xff0c;我们就需要第三方平台帮忙破解验证码。小编采用的斐斐打码平台&am…

随机古诗词

利用HTML CSS js 制作的随机游戏 <html> <head><meta charset"utf-8" /><title>随机古诗词</title><style>#box {width: 1000px;margin: 0 auto;background: rgb(3, 0, 7);color: rgb(11, 160, 224);height: 1000px;line-height…

机器自动翻译古文拼音 - 十大宋词 - 声声慢 寻寻觅觅 李清照

声声慢寻寻觅觅 宋李清照 寻寻觅觅&#xff0c;冷冷清清&#xff0c;凄凄惨惨戚戚。 乍暖还寒时候&#xff0c;最难将息。 三杯两盏淡酒&#xff0c;怎敌他、晚来风急。 雁过也&#xff0c;最伤心&#xff0c;却是旧时相识。 满地黄花堆积&#xff0c;憔悴损&#xff0c;如今…

app 上架到苹果应用商店

https://appstoreconnect.apple.com/ 登陆 可供销售 就是我的app提交申请并通过的状态 添加新建APP 信息 填写完就创建 按照提示进行填写 注意上传图片可以用苹果手机截屏 在做作图软件 做成需要得像素上传 重点记录 构建版本&#xff08;别的挺简单&#xff09; 打开m…

【考研初试】问题汇总及解答

●信息搜集 Q&#xff1a;哪里可以找考研资料&#xff1f; A&#xff1a;wx公众号、b站、知乎、csdn、王道论坛&#xff08;计算机考研&#xff09; &#xff08;资料一般是以百度网盘链接的形式分享&#xff0c;其实找网课视频最方便的是找到那种定期更新资料的网盘群&#x…

复试-专业问题

这是我的学长&#xff0c;SDZ学长整理&#xff0c;我就发出了&#xff0c;如果你们有幸去了浙大软科记得谢谢他&#xff0c;哈哈哈 这两种方法在形式上相像&#xff0c;其区别在于&#xff1a;pa是指针变量&#xff0c;a是数组名。值得注意的是&#xff1a;pa是一个可以变化的…

CPA2021_会计_东奥张志凤_02_会计概述、财务报告目标、会计基本假设和会计基础

文章目录 第一章 总论本章考情分析主要内容第一节 会计概述一、会计的定义二、会计的作用三、企业会计准则的制定与企业会计准则体系 第二节 财务报告目标、会计基本假设和会计基础一、财务报告目标二、会计基本假设三、会计基础 第一章 总论 本章考情分析 本章内容是会计准则…

20应用统计考研复试要点(part2)--统计学

学习笔记,仅供参考,有错必纠 具体原理:统计量及其抽样分布 ;数据的概括性度量 文章目录 贾俊平统计学数据的分布特征概率与概率分布统计量及其抽样分布贾俊平统计学 数据的分布特征 概率与概率分布 样本、事件和样本空间总体:是包含所研究的全部个体(数据)的集合。 样本:…

20应用统计考研复试要点(part24)--简答题

学习笔记,仅供参考,有错必纠 简答题 什么是数据的离散程度,列举5种,并说明其特点数据的离散程度反映的是各变量值远离其中心值的程度。 异众比率,是指非众数组的频数占总频数的比例,其计算公式为: 四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差用 Q d…

浙江工商大学813理学统计学复试常见问题整理总结——概率论部分

大家好&#xff01;本人是去年上岸浙江工商大学&#xff0c;本科是江苏省的一本&#xff0c;专业课成绩在135&#xff08;可以去官网查证&#xff09;。本人根据去年线上复试的个人情况并结合其他一些上岸的同学在复试中被问到的专业课问题进行整理汇总了如下的浙江工商大学813…

20应用统计考研复试要点(part1)--统计学

学习笔记,仅供参考,有错必纠 贾俊平统计学 数据的搜集 数据的来源统计数据主要来自两条渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用。另一个是通过自己的调查或实验活动,直接获得第一手数据,对此我们称为数据的直…