5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

熟悉橡皮擦的朋友都知道,橡皮擦最爱写的文章是关于 Python 的,但是呢,橡皮擦确实是一个产品经理,哈哈,所以每次给大家分享 Python 相关知识的时候,总想着自己是一个前端工程师(好迷糊),有时候当我发现一款非常棒的 Python 库的时候,忍不住要推荐给大家。

Python 大神库夸夸

作为一个产品经理,哦不,程序员每天最快乐的事情就是去 github 翻阅,在闲逛的途中经常会发现一些非常棒的大佬开发的开源库,有时候忍不住点赞分享,这不,在 1024 这么一个特殊的日期里就碰到了这个神奇的库,而且作者还是用 Python 编写的,双重符合要求,必须唠叨唠叨了。

该项目是基于 Python 爬虫采集数据,积累大量的 唐诗,宋词数据,作者在 github 说明中已经进行了说明:

The most comprehensive database of Chinese poetry 最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近 5.5 万首唐诗加 26 万宋诗. 两宋时期 1564 位词人,21050 首词。

厉害厉害!

是不是非常期待看到了,下面的链接就是大佬的项目地址了 https://github.com/chinese-poetry/chinese-poetry。

所有的数据都被作者上传分享了出来,大家可以利用数据做一些诗词类的网站或者 APP 都是非常不错的。

数据格式已经转成了 JSON,方便导入到各种数据库中。

5.5 万首唐诗、26 万首宋诗、2.1 万首宋词 Python助力中华古典文集数据库

分享这些还不够,作者也同时分享了爬取代码,方便你阅读,贴上链接地址:https://ijg.io/r/words/crawl-ci.html。

代码阅读过程中,发现 parsel 库在爬虫百例中竟然还给遗漏了,抽时间加餐篇给大家增加上去。

写在后面

本文单纯的为爱好爬取数据的人点赞,希望更多的朋友加入到数据采集的大军中。当然更想让大家看到,用 Python 爬虫可以去做很多自己喜欢的事情,当数据慢慢积累到一定量的时候,你就已经开辟出来一条独特的路线了。

如果你想跟博主建立亲密关系,可以关注同名公众号 “梦想橡皮擦”,近距离接触一个逗趣的互联网高级网虫。
博主 ID:梦想橡皮擦,希望大家点赞、评论、收藏。

爬虫百例教程导航链接 : https://blog.csdn.net/hihell/article/details/86106916

以下内容无用,为本篇博客被搜索引擎抓取使用
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
python 是干什么的 零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程 网络爬虫 python python 爬虫经典例子
python 爬虫
梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦梦想橡皮擦
(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)(* ̄︶ ̄)
以上内容无用,为本篇博客被搜索引擎抓取使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50424.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模拟登录古诗词网

主要思路: 对登录界面发送请求,网址:https://so.gushiwen.cn/user/login.aspx?fromhttp://so.gushiwen.cn/user/collect.aspx由于该网址密码输错三次会有验证码,我们就需要第三方平台帮忙破解验证码。小编采用的斐斐打码平台&am…

随机古诗词

利用HTML CSS js 制作的随机游戏 <html> <head><meta charset"utf-8" /><title>随机古诗词</title><style>#box {width: 1000px;margin: 0 auto;background: rgb(3, 0, 7);color: rgb(11, 160, 224);height: 1000px;line-height…

机器自动翻译古文拼音 - 十大宋词 - 声声慢 寻寻觅觅 李清照

声声慢寻寻觅觅 宋李清照 寻寻觅觅&#xff0c;冷冷清清&#xff0c;凄凄惨惨戚戚。 乍暖还寒时候&#xff0c;最难将息。 三杯两盏淡酒&#xff0c;怎敌他、晚来风急。 雁过也&#xff0c;最伤心&#xff0c;却是旧时相识。 满地黄花堆积&#xff0c;憔悴损&#xff0c;如今…

app 上架到苹果应用商店

https://appstoreconnect.apple.com/ 登陆 可供销售 就是我的app提交申请并通过的状态 添加新建APP 信息 填写完就创建 按照提示进行填写 注意上传图片可以用苹果手机截屏 在做作图软件 做成需要得像素上传 重点记录 构建版本&#xff08;别的挺简单&#xff09; 打开m…

【考研初试】问题汇总及解答

●信息搜集 Q&#xff1a;哪里可以找考研资料&#xff1f; A&#xff1a;wx公众号、b站、知乎、csdn、王道论坛&#xff08;计算机考研&#xff09; &#xff08;资料一般是以百度网盘链接的形式分享&#xff0c;其实找网课视频最方便的是找到那种定期更新资料的网盘群&#x…

复试-专业问题

这是我的学长&#xff0c;SDZ学长整理&#xff0c;我就发出了&#xff0c;如果你们有幸去了浙大软科记得谢谢他&#xff0c;哈哈哈 这两种方法在形式上相像&#xff0c;其区别在于&#xff1a;pa是指针变量&#xff0c;a是数组名。值得注意的是&#xff1a;pa是一个可以变化的…

CPA2021_会计_东奥张志凤_02_会计概述、财务报告目标、会计基本假设和会计基础

文章目录 第一章 总论本章考情分析主要内容第一节 会计概述一、会计的定义二、会计的作用三、企业会计准则的制定与企业会计准则体系 第二节 财务报告目标、会计基本假设和会计基础一、财务报告目标二、会计基本假设三、会计基础 第一章 总论 本章考情分析 本章内容是会计准则…

20应用统计考研复试要点(part2)--统计学

学习笔记,仅供参考,有错必纠 具体原理:统计量及其抽样分布 ;数据的概括性度量 文章目录 贾俊平统计学数据的分布特征概率与概率分布统计量及其抽样分布贾俊平统计学 数据的分布特征 概率与概率分布 样本、事件和样本空间总体:是包含所研究的全部个体(数据)的集合。 样本:…

20应用统计考研复试要点(part24)--简答题

学习笔记,仅供参考,有错必纠 简答题 什么是数据的离散程度,列举5种,并说明其特点数据的离散程度反映的是各变量值远离其中心值的程度。 异众比率,是指非众数组的频数占总频数的比例,其计算公式为: 四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差用 Q d…

浙江工商大学813理学统计学复试常见问题整理总结——概率论部分

大家好&#xff01;本人是去年上岸浙江工商大学&#xff0c;本科是江苏省的一本&#xff0c;专业课成绩在135&#xff08;可以去官网查证&#xff09;。本人根据去年线上复试的个人情况并结合其他一些上岸的同学在复试中被问到的专业课问题进行整理汇总了如下的浙江工商大学813…

20应用统计考研复试要点(part1)--统计学

学习笔记,仅供参考,有错必纠 贾俊平统计学 数据的搜集 数据的来源统计数据主要来自两条渠道:一个是数据的间接来源,即数据是由别人通过调查或实验的方式搜集的,使用者只是找到它们并加以使用。另一个是通过自己的调查或实验活动,直接获得第一手数据,对此我们称为数据的直…

江西财经大学2016-2022年研究生试题解析总结

前言&#xff1a; 1.卷子中的部分答案并非唯一&#xff0c;仅供参考 2.本总结是按题型进行分类的 3.2022年题型略微进行了改变&#xff0c;添加了程序分析题 1. 根据要求写出C语言表达式 2016年&#xff08;20分&#xff09; &#xff08;1&#xff09;三元运算符 ※ 答&am…

前端请求,后台一直返回404路径报错

心塞&#xff0c;找了一下午404报错&#xff0c;看图&#xff0c;报错是这样的 首先先知道404是什么问题&#xff1a;404 客户端请求的资源或者数据不存在(发现请求接口404,有两种情况一种是咱们写错接口了或者服 务端还没部署&#xff0c;在加一个就是后台写错了) 可以看一下这…

HTTP Status 404错误分析及解决方法

这是我之前因为复制一个项目,然后启动服务器时在网页报的错误,我用的myeclipse2016,我最后解决了这个问题,方法如下: 1,选中项目名右键>>Properties>>web就会出现,这样的. 在箭头指位置改成你当前的项目名,如果可以改动那就成功,重启myeclipse.运行就可以. 如…

项目一直报404的各种原因及解决方法

项目一直报404的各种原因及解决方法 404找不到的路径或资源的情况会经常出现,那么怎么样排查才能快速解决问题呢? 1. 路径和文件名 项目报404&#xff0c;首先应该考虑路径和文件名的匹配问题&#xff0c;多半是文件放错位置&#xff08;一般不会放错&#xff0c;毕竟都会放…

uniapp 跨域代理后请求报404

最近刚开始接触uni-app&#xff0c;H5页面&#xff0c;本地调试&#xff0c;请求报跨域 查了官方文档&#xff0c;devServer对应的就是webpack的devServer 于是在manifest.json中添加代码&#xff1a; 然而查了很多解决方法依旧没有成功&#xff0c;后来发现我的项目用的是vit…

使用Postman调试API遇到“400 Bad Request”问题

问题 今日使用Postman调试一个临时接手的API&#xff0c;参照调用程序代码填充好请求头、请求体参数&#xff08;post&#xff09;&#xff0c;Postman客户端始终提示“400 Bad Request”&#xff0c;调用失败&#xff01; 解决方案 尝试&#xff1a; 观察日志&#xff0c;…

Vite + Vue3 + Ts 解决打包生成的index.html页面 显示空白、报资源跨域、找不到资源、404-Page Not Found等错误

问题描述&#xff1a; 在用Vue3 Ts进行项目开发&#xff0c;通过Vite进行构建打包后&#xff0c;直接在本地以文件系统的方式&#xff0c;用浏览器直接打开打包生成后的dist目录下的index.html文件访问时&#xff0c;浏览器页面显示空白、打开控制台后有报错、该路径找不到对…

post提交数据返回404错误

使用post提交数据&#xff0c;发现无法执行success函数&#xff0c;后台的代码也正常执行了&#xff0c;但是就是无法执行success函数&#xff0c;执行error函数&#xff0c; 我在MainConfig中做了一个映射 js代码&#xff1a; 实在是看不出哪里错了 &#xff0c;求大神指点

Apipost测后台接口出现404错误的几种解决方式

1.url写错了&#xff1a;检查一下单词拼写和路径名&#xff0c;仔细检查有没有多写一个‘ / ’ 2.检查一下参数的类型有没有和代码中一致 3.检查一下Controller层的方法前有没有加ResponseBody注解&#xff0c;没有的要加上或者将Controller改为RestController也行&#xff08;…