python制作标书_爬取比比网中标标书，并保存为PDF格式文件

python制作标书_爬取比比网中标标书，并保存为PDF格式文件

news/2025/1/10 2:31:31/文章来源:https://blog.csdn.net/weixin_35782323/article/details/114960827

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

以下文章来源于CSDN，作者嗨学编程

python开发环境

python 3.6

pycharm

import requests

import parsel

import pdfkit

import time

相关模块pip安装即可

目标网页分析

1、先从列表页中获取详情页的URL地址

是静态网站，可以直接请求网页获取数据

for page in range(1, 31):

url = 'https://www.bibenet.com/mfzbu{}.html'.format(page)

headers = {

'Referer': 'https://www.bibenet.com/mianfei/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'

}

response = requests.get(url=url, headers=headers)

selector = parsel.Selector(response.text)

urls = selector.css('body > div.wrap > div.clearFiex > div.col9.fl > div.secondary_box > table tr .fl a::attr(href)').getall()

for page_url in urls:

print(page_url)

2、从详情页中获取标题以及内容

response_2 = requests.get(url=page_url, headers=headers)

selector_2 = parsel.Selector(response_2.text)

article = selector_2.css('.container').get()

title = selector_2.css('.detailtitle::text').get()

3、保存html网页数据并转成PDF

html_str = """

Document

{article}

"""

def download(article, title):

html = html_str.format(article=article)

html_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.html'

pdf_path = 'D:\\python\\demo\\招标网\\文书\\' + title + '.pdf'

with open(html_path, mode='wb', encoding='utf-8') as f:

f.write(html)

print('{}已下载完成'.format(title))

# exe 文件存放的路径

config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')

# 把 html 通过 pdfkit 变成 pdf 文件

pdfkit.from_file(html_path, pdf_path, configuration=config)

运行实现效果

本文分享 CSDN - 松鼠爱吃饼干。

如有侵权，请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/53055.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

python制作标书_Python爬取比比网中标标书并保存成PDF格式

python制作标书_Python爬取比比网中标标书并保存成PDF格式

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。 python开发环境 python 3.6 pycharm requests parsel pdfkit time 相关模块pip安装即可目标网页分析 1、先从列表页中获取详情页的URL地址是静态网站，可以直接请求…

阅读更多...

第一次写标书

第一次写标书

由于工作需要开始写起标书。前后大概花了五天时间。经过自我学习和老师指导，知道了一件事情，不管做什么，其实都是能够有所学习的。而学习，为了有所收获，需要用心再去体会每一个过程，并记录下来&#xf…

阅读更多...

小程序投标书_快来学习招投标小技巧！中标率提高50％（建议收藏）

小程序投标书_快来学习招投标小技巧！中标率提高50％（建议收藏）

99%的投标人使用【建企同盟APP】都中标了！ 建企同盟APP 招标信息不遮挡订阅推送零费用从保证中标的因素来看，三个因素最为重要，首先是关系，其次是能力，最后才是价格。关系指与用户的关系，既有最终用户又包…

阅读更多...

小程序投标书_程序员接私活常用哪些平台？

小程序投标书_程序员接私活常用哪些平台？

给大家推荐国内外几个接外包比较靠谱的平台，相对来说规模和专业性都还不错。想要接外包或者积累行业人脉的小伙伴都可以收藏一波： 国外篇如果打算接国外的软件外包，首先以下几点能力需要提前掌握： 基本的英语沟通能力(能够基本沟…

阅读更多...

重磅：AI 的 “iPhone 时刻” 已经到来

重磅：AI 的 “iPhone 时刻” 已经到来

大家好，我是校长。上周英伟达 CEO 黄仁勋在 GTC 大会主题演讲火爆了全网。一起来看看黄仁勋说了什么。英伟达 CEO 黄仁勋在 GTC 大会主题演讲上开场时这么说： “近四十年来，摩尔定律一直是引领计算机行业动态发展的重要规律，而…

阅读更多...

AI内容生成检查器

AI内容生成检查器

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版，欢迎购买。点击进入详情 AI进行内容生成已经是是当下的人们话题，那么怎么判断文本的内容是不是AI生成的呢？AI 生成的句子将被突出显示，目前工具可以检测…

阅读更多...

ChatGPT生成文本检测器-task5

ChatGPT生成文本检测器-task5

#### 任务五：使用TFIDF特征和XGBoost完成训练和预测说明：在这个任务中，你需要使用TFIDF特征和XGBoost算法完成训练和预测，进一步提升文本分类的性能。实践步骤： 准备TFIDF特征矩阵和相应的标签。划分训练集和测试集。…

阅读更多...

ChatGPT生成文本检测器-task2

ChatGPT生成文本检测器-task2

#### 任务二：对数据集字符进行可视化，统计标签和字符分布说明：在这个任务中，你需要使用Pandas库对数据集的字符进行可视化，并统计数据集中的标签和字符的分布情况，以便更好地理解数据集。实践步骤&#x…

阅读更多...

ChatGPT生成文本检测器-task8

ChatGPT生成文本检测器-task8

#### 任务八：使用Word2Vec词向量，搭建BILSTM模型进行训练和预测说明：在这个任务中，你将使用Word2Vec词向量，搭建BILSTM模型进行文本分类的训练和预测，通过双向长短期记忆网络来进行文本分类。实践步骤&am…

阅读更多...

ChatGPT生成文本检测器-task1

ChatGPT生成文本检测器-task1

### 背景介绍近年来人工智能在自然语言处理领域取得了巨大的进展。其中一项引人注目的技术是生成模型，如OpenAI的GPT-3.5。这类模型通过学习大量的文本数据，具备了生成高质量文本的能力，从而引发了一系列关于文本生成真实性的讨论。正因为…

阅读更多...

Mac GoLand打不开（闪退）也不报错

Mac GoLand打不开（闪退）也不报错

Mac用过GoLand，电脑应用初始化后就打不开了，下其他版本也不行原因就是之前的配置文件还在需要清理： /Users/你的文件/Library/Preferences/ 配置文件在这个文件下

阅读更多...

MAC 有些网址可以 ping 通，但是浏览器打不开

MAC 有些网址可以 ping 通，但是浏览器打不开

MAC 访问外网网址打不开，因为平时开着 VPN，故开始逐步排查问题： 重启电脑ping ip切换网络改 DNS 方法都试过了在公司还是不行，但是在家里能连上最后解决办法是点击网络，新建位置就一切正常了。

阅读更多...

Mac有些网址打不开问题解决办法

Mac有些网址打不开问题解决办法

搜这个问题的兄嘚是不是遇到了这样的问题，大多数网页可以打开，但是某些网页确死活打不开，将连接发给朋友，人家秒开，很气，辣鸡Mac ，，，困扰了我这么久，&#xf…

阅读更多...

Mac上Chrome登录了LT网页打不开

Mac上Chrome登录了LT网页打不开

Mac上首先登陆了LT成功的时候上面的菜单栏会显示点亮状态的LT 可是过了一段时间，发现菜单栏上的LT不见了，此时发现浏览器打开其他的网页的时候打不开经过排查发现原因如下需要退出这个LT进程解决办法： 进入活动监视器，找到…

阅读更多...

解决Mac能上微信聊QQ但是打不开网页的问题

解决Mac能上微信聊QQ但是打不开网页的问题

解决Mac能上微信聊QQ但是打不开网页的问题 1.在访达中，前往文件夹 2.操作截图复制代码 /Library/Preferences/SystemConfiguration/com.apple.Boot.plist3.在SystemConfiguration文件夹里面 4.只要留下com.apple.Boot.plist文件，其他全部删掉&#xf…

阅读更多...

Mac 电脑能联网但打不开网页

Mac 电脑能联网但打不开网页

Mac 电脑能联网但打不开网页现象描述现象分析解决方法网络高级配置DNS 现象描述今天电脑出现一个奇怪的现象，可以连接上网络，钉钉和微信可以正常收发信息，但是浏览器却怎么也访问不了网页，断网重新连接依然没作用，这…

阅读更多...

mac和window电脑解决github打不开问题

mac和window电脑解决github打不开问题

一.mac电脑（mac电脑亲测有效） 1.新建一个访达窗口，同时按住shift command G三个键，进入前往文件夹页面 2.在输入框内输入/etc/hosts 3.找到hosts文件夹 4.由于hosts文件夹不可编辑，所以复制一份hosts文件先保存到本地桌…

阅读更多...

mac升级Monterey12.3 AccessClient打不开

mac升级Monterey12.3 AccessClient打不开

搜了一圈发现是由于新系统将python2运行库移除了。解决方案:进入application之后找到accessclient 进入Contents/Resources/Scripts，进入main.scpt文件中的python修改成python3。修改完之后进入bastion，点击堡垒机跳转发现还是闪退，不成功…

阅读更多...

未来Mac下载站怎么打不开了

未来Mac下载站怎么打不开了

重要公告： 未来软件园因业务需要现更换域名原域名：Mac.orsoon.com 更为新域名：未来mac下载-Mac软件-mac软件下载-mac软件大全程序已全面转移，请访问新域名

阅读更多...

解决GitHub打不开(FastGithub，支持MAC)

解决GitHub打不开(FastGithub，支持MAC)

前言最近在想在github上查阅框架源码，发现所有github相关网址都打不开，其实之前也有过，但是直接将https更换为www就能解决，这次抽风实在厉害，更改也无用(之前就是我懒的去找方法，得过且过，哈哈…

阅读更多...

最新文章

推荐文章