用Python脚本自动采集金融网站当天发布的免费报告

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

其间旦暮闻何物?杜鹃啼血猿哀鸣。

大家好,我是皮皮。

一、前言

前几天在Python群【林生】问了一个Python数据采集的问题,需求如下:

想写一个脚本能自动采集下载当天发布的这个页面的这几个免费报告,能保存成这个标题的pdf文件,网站是手机号注册就能下载这些文件的,就是在我注册登录状态下,能采集下载。

b53564a77aaddc8790d1de6d56036939.png

二、实现过程

一开始以为网站有逆向,还觉得挺难的,后来发现完全是裸奔,就放心了,发布任务到接单裙,一下子就被抢了,毕竟送钱的单子,人见人爱,花见花开了,300元的爬虫单子,也很香了。

下面是部分核心代码,如果你也对这个感兴趣的话,欢迎私我拿全部源码。

# -*- coding:utf-8 -*-
"""
开发环境:Python 3.86
脚本名称:2023-07-07 报告厅baogaoting
创建日期:2023年07月07日
"""
import datetime
import os, sys, time, traceback
import pathlib
from parsel import Selector
import requestsheaders = {"xxx"
}
cookies = {"xxx"
}def _down_file(dow_url,file_name):""":param dow_url:   下载链接:param file_name:  图片绝对路径 包括后缀名:return:"""re_重试次数=0while True:try:response = requests.get(dow_url, headers=headers, cookies=cookies, timeout=10)if response.status_code == 200:breakelif response.status_code == 404:breakelse:print(response.status_code)re_重试次数 += 1except Exception as e:adress = sys.exc_info()[-1]  # 异常地址line_error = traceback.extract_tb(adress, limit=1)[-1][1]  # 读取错误日志,最后一列的第二个元素即为模块出错行print(f"===================\n【异常原因】:{e}\n【异常类型】:{type(e)}\n【异常位置】:{line_error}\n===================")time.sleep(5)re_重试次数 += 1if re_重试次数 >= 10:response=""breakif response:with open(file_name, "wb+") as f:  # , errors='ignore'f.write(response.content)else:print(f"【跳过】:下载失败{file_name}")import winreg
def get_desktop():key = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')return winreg.QueryValueEx(key, "Desktop")[0]if __name__ == '__main__':zm_path=get_desktop()x_date = time.strftime("%Y-%m-%d")list_file_path=list(pathlib.Path(x_date).rglob("*"))dict_file_path={i.name:True for i in list_file_path}url = "https://www.baogaoting.com/space/30909237"for page in  range(1,3):params = {"page": page,"size": "15"}response = requests.get(url, headers=headers, cookies=cookies, params=params)"""此处略去多行代码"""print(f"【{title}】:热度{h3} 是当天上传的资料,准备访问下载{href_download}")if href_download:if not os.path.exists(f"{zm_path}//今日研报"):os.makedirs(f"{zm_path}//今日研报",exist_ok=True)title=title+ pathlib.Path(href_download).suffix#print(href_download, h3,title)for k in ["<", ">", "|", '"', "*", '\\', ":", "/", "?", "\n", "\r", "\t", "!", "☆"]:date = date.replace(k, '').strip()if dict_file_path.get(f"{date}_"+title):print(f"【状态】:已经下载了哦,自动跳过")continueelse:_down_file(href_download, f"{zm_path}//今日研报//{title}")else:print(f"【状态】:链接{href_download} {title}无效,跳过不下载")else:print(f"【状态】:不是免费的,不下载")time.sleep(0.5)else:print(f"【状态】:{date} 上传时间不符合,直接结束!")breakinput(f"【状态】:完成了哦,按任意键退出软件")

顺利地解决了粉丝的问题。

cb8b6ce64b2089b0c5648003eeefb3cb.png

这样每天打开软件,就可以获取到想要的研报文件了,再也不用挨个去下载,解放双手。

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个Python网络爬虫实战的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

【提问补充】温馨提示,大家在群里提问的时候。可以注意下面几点:如果涉及到大文件数据,可以数据脱敏后,发点demo数据来(小文件的意思),然后贴点代码(可以复制的那种),记得发报错截图(截全)。代码不多的话,直接发代码文字即可,代码超过50行这样的话,发个.py文件就行。

c8e451f6c708304d317634b22afcd605.png

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting1),应粉丝要求,我创建了一些ChatGPT机器人交流群和高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

7f42514d552886b9558dca8ec1c0e764.png

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

39af75096fe175f44c85b978c2618364.jpeg

------------------- End -------------------

往期精彩文章推荐:

  • if a and b and c and d:这种代码有优雅的写法吗?

  • Pycharm和Python到底啥关系?

  • 都说chatGPT编程怎么怎么厉害,今天试了一下,有个静态网页,chatGPT居然没搞定?

  • 站不住就准备加仓,这个pandas语句该咋写?

b86c017f270935cc9f497a348ff2c51c.png

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24800.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌

【导读】最新研究结果表明&#xff0c;AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%&#xff0c;而人类仅为87%。 GPT-4的心智理论&#xff0c;已经超越了人类&#xff01; 最近&#xff0c;约翰斯霍普金斯大学的专家发现&#xff0c;GPT-4…

DALL-E发明者:我对其两年来产生的影响感到惊讶

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>CV微信技术交流群 转载自&#xff1a;机器之心 | 作者&#xff1a;Sharon Goldman | 编辑&#xff1a;袁铭怿 DALL-E 等生成式模型的「高光时刻」已经出现&#xff0c;作为发…

【原创】AIGC之Midjourney绘画应用

AIGC是什么 AIGC - AI Generated Content &#xff08;AI生成内容&#xff09;&#xff0c;对应我们的过去的主要是 UGC&#xff08;User Generated Content&#xff09;和 PGC&#xff08;Professional user Generated Content&#xff09;。 AIGC就是说所有输出内容是通过AI机…

目标检测算法——图像分类开源数据集汇总(附下载链接)

>>>深度学习Tricks&#xff0c;第一时间送达<<< 目录 1、CUB-200-2011 鸟类细粒度图像分类数据集 2、飞机数据集 3、Stanford Dogs Dataset 狗类细粒度图像分类数据集 4、花卉数据集 5、90种动物图像数据集 6、综合汽车数据集 7、衣服数据集 8、商标…

协程相比线程到底好在哪里?

协程虽然被提出的时间很早&#xff0c;但是使用它的年限很短。尤其是最近几年&#xff0c;随着 Go、Lua 等语言的流行&#xff0c;把协程推向了一个新的高潮。 在所有语言中都存在着层级调用&#xff0c;比如 A 调用 B&#xff0c;B 在执行过程中又调用了 C&#xff0c;C 执行…

GPT-4:不了不了,这些我还做不到

ChatGPT的余波未平&#xff0c;GPT-4的风波又起。这次GPT-4的全新升级&#xff0c;再一次突破了技术的壁垒&#xff0c;很快受到众人的追捧&#xff1a; 有人说GPT-4的出现是场变革&#xff0c;但也许只是对人工智能的过度炒作&#xff1b; 有人说GPT-4可以直接生成好莱坞电影&…

【满血Buff】ChatGPT科普篇,三段式介绍

【满血Buff】ChatGPT科普篇&#xff0c;三段式介绍&#xff0c;内含各种高效率插件 1、ChatGPT是什么2、为什么要掌握ChatGPT效能工具3、ChatGPT能做什么 本篇博客采用三段论的叙事方式进行时下流行的人工智能工具ChatGPT的科普。 1、ChatGPT是什么 ChatGPT是Chat Generated b…

ChatGPT 又一波王炸更新!

公众号关注 “GitHubDaily” 设为 “星标”&#xff0c;每天带你逛 GitHub&#xff01; 令很多人都没想到的是&#xff0c;在过去的一两个月时间&#xff0c;AIGC 的热度看似有所下降&#xff0c;但其实是各个 AI 科技公司都在养精蓄锐憋大招。甩手便是王炸&#xff0c;不鸣则已…

一位同学拿到 亚马逊 offer 的经历 (毫无保留)

之前分享过很多国内的互联网公司的面试心得&#xff0c;这几天看到一位同学面试外企的心得&#xff0c;写的很全面&#xff0c;换个视角看看国外互联网是怎么面试人才的。 从这 5 个方向进行了总结&#xff1a;算法刷题、简历、系统设计、面试技巧、offer沟通。 希望对想去外企…

深圳内推 | 粤港澳大湾区数字经济研究院招聘NLP/多模态算法实习生

合适的工作难找&#xff1f;最新的招聘信息也不知道&#xff1f; AI 求职为大家精选人工智能领域最新鲜的招聘信息&#xff0c;助你先人一步投递&#xff0c;快人一步入职&#xff01; IDEA研究院 粤港澳大湾区数字经济研究院&#xff08;International Digital Economy Academ…

北京内推 | 微软亚洲研究院DKI组招聘大模型方向研究实习生

合适的工作难找&#xff1f;最新的招聘信息也不知道&#xff1f; AI 求职为大家精选人工智能领域最新鲜的招聘信息&#xff0c;助你先人一步投递&#xff0c;快人一步入职&#xff01; 微软亚洲研究院 Cloud Intelligence组是微软亚洲研究院DKI (Data, Knowledge & Intelli…

香港大学赵恒爽老师招收计算机视觉博士/博士后/研究助理

导师信息 赵恒爽博士 (www.cs.hku.hk/~hszhao) 是香港大学计算机科学系的助理教授&#xff0c;研究方向为计算机视觉、机器学习和人工智能。赵老师此前分别在麻省理工学院 Antonio Torralba 教授组和牛津大学 Philip Torr 教授组开展博士后研究。他博士毕业于香港中文大学&…

香港大学招聘研究助理、软件工程师和博士生

来源&#xff1a;机器之心 导师简介 余涛 (Tao Yu) 是香港大学计算机科学助理教授&#xff0c;共同领导港大自然语言处理实验室 (HKUNLP)。他于 Yale 博士毕业&#xff0c;在 UW NLP 访问一年&#xff0c;曾获得 2021 Amazon Research Award。他的研究旨在设计和构建基于大型语…

何恺明大神回归学界,网友:要成全MIT引用最高的人了

梦晨 Alex 发自 凹非寺来源 | 量子位 AI大牛何恺明有了最新动向&#xff0c;而且是回归学术界。 MIT CSAIL实验室发布公告&#xff0c;3月13日下周一&#xff0c;何恺明将到MIT做学术演讲。 此事引起AI圈广泛关注。在相关知乎问题下&#xff0c;MIT博士Charles指出&#xff0c;…

通用人工智能:定义、范围和作为早期 AGI 的 ChatGPT

通用人工智能 (AGI) 一直是人工智能研究领域内备受关注和争论的话题&#xff0c;尤其是自 GPT-4 推出以来。通用人工智能 (AGI) 代表在软件中模拟人类认知能力。因此&#xff0c;使 AGI 系统能够找到解决不熟悉任务的方法。AGI 的最终目标是执行人类可以完成的任何任务&#xf…

当医疗健康遇上ChatGPT,会碰撞出什么样的火花?

最近&#xff0c;ChatGPT刷屏朋友圈&#xff0c;人工智能&#xff08;AI&#xff09;再一次颠覆了人们的想象。当先进的人工智能技术遇上医疗健康行业&#xff0c;又会碰撞出什么样的火花&#xff1f; 什么是ChatGPT ChatGPT是美国一家名为OpenAl的人工智能公司在2022年11月发布…

模型转换、模型压缩、模型加速工具汇总

目录 一、场景需求解读二、模型转化工具汇总 1、模型转换工具的作用2、模型转换工具简介 1、MMdnn2、 ONNX3、 X2Paddle 三、模型压缩和加速工具汇总 1、模型压缩加速工具的作用2、模型压缩加速工具简介 1、PocketFlow3、distiller4、TVM5、tflite6、ncnn7、MNN8、OpenVIO9、T…

树莓派与STM32之间串口通信

目录 一、树莓派串口通信模块介绍 二、树莓派蓝牙、串口引脚映射对换步骤 1.启动串口 2. 禁用蓝牙&#xff08;硬件串口与mini串口映射对换&#xff09; 3.验证是否交换成功 三、树莓派安装mini串口调试助手 四、树莓派与电脑串口调试 五、树莓派与STM32串口调试 一、树…

【python】选择合适的机器学习模型

文章目录 1. python包&#xff1a;lazypredict1.1 安装lazypredict1.2 使用lazypredict 2. 选择模型3. 常用第三方库 1. python包&#xff1a;lazypredict lazypredict包功能&#xff1a;了解哪些模型在没有任何参数调整的情况下效果更好 1.1 安装lazypredict 直接用pip安装…

AI是什么?AI工具集网站大全

大家好&#xff0c;我是网媒智星&#xff0c;今天给大家总结了一些AI工具&#xff0c;希望能给大家提供帮助。 AI是什么&#xff1f; AI 是人工智能的缩写&#xff0c;指的是通过计算机技术和算法来实现智能的能力。我们人类的智能是基于我们的大脑所实现的&#xff0c;而 AI…