百度网盘_SEARCH

需求分析

我有一些资源网站，但是每次我需要资源的时候需要打开他们的网页，搜索再筛选我需要的网盘资源，这样的操作非常麻烦
使用python模拟这些搜索操作，然后爬取我需要的百度网盘信息
用python的Gui编程开发一个简单的界面

实现

界面开发

搜索框
搜索按键
结果展示框

#coding=utf-8from tkinter imprt *class movieFrame:def __init__(self, init_window_name):self.init_window_name = init_window_namedef setInitWindow(self):self.init_window_name.title("百度网盘_SEARCH by YoooKnight")self.init_window_name.getmetry('500x400')# 搜索框self.init_search_text = Text(self.init_window_name, width=30, height=2)self.init_search_text.grid(row=0, column=1, padx=20, pady=10)# 结果集self.init_result_data = Text(self.init_window_name, width=50, height=20)self.init_result_data.config(state=DISABLED)self.init_result_data.grid(row=1, column=1, columnspan=2, padx=20, pady=10, sticky=W)#滚动条scroll = Scrollbar(command=self.init_result_data.yview)self.init_result_data.config(yscrollcommand=scroll.set)scroll.grid(row=1,column=3, sticky=S + W + E + N)# 查询按钮self.searchButton = Button(self.init_window_name, text="查询", bg='lightblue', command=self.searchMovie)self.searchButton.grid(row=0, column=2)def searchMovie:pass

BDY资源爬虫开发

目前只做了一个资源网站的爬取，后期有时间会进行扩展
该网站做了爬虫封锁间隔时间，也就是如果连续爬取该页面会直接不给你访问，可能会等待一段时间才能继续访问，后期有时间会增加代理ip访问

from bs4 import BeautifulSoup
from urllib.request import quote
import urllib.request
import string
import reclass Spider:search = ''# 需要访问的网址indexUrl = 'http://****/'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}def __init__(self, search):self.search = searchdef getlinkList(self):# 搜索文件searchUrl = self.indexUrl + '?s=' + self.searchsearchUrl = quote(searchUrl, safe=string.printable)req = urllib.request.Request(searchUrl, headers=self.headers)res = urllib.request.urlopen(req)html = res.read().decode('utf8')# 读取详情页面soup = BeautifulSoup(html, 'html.parser')try:# 这里只找了第一个链接，所有相当于是查找到相似度最高的一个结果detailUrl = soup.find('div', class_='mainleft').find('div', class_='thumbnail').find('a').get('href')# 获取详情页面detailReq = urllib.request.Request(detailUrl, headers=self.headers)detailRes = urllib.request.urlopen(detailReq)detailHtml = detailRes.read().decode('utf-8')dic = []# 查找所有的a标签soup = BeautifulSoup(detailHtml, 'html.parser')aList = soup.findAll("a")linkUrlList = []for aTag in aList:tempHref = aTag.get("href")if tempHref and tempHref.find("pan.baidu.com")>=0:linkUrlList.append(tempHref)# 获取所有的提取码codeList = re.findall('((提取码|密码)[\:\：][ ]?.{4})', str(detailHtml))# 拼接我需要的数据index=0for link in linkUrlList:if (index<len(codeList)):tempDic = {"link": link,"code": codeList[index][0][-4:]}dic.append(tempDic)index += 1return dicexcept Exception as e:print(e)return []

整合界面和爬虫

点击搜索之后调用爬虫接口
获取网盘数据并且展示

from sourceSpider.pinghaoche import spider as pingSpiderclass movieFrame:def searchMovie(self):# 获取搜索框里面的内容search = self.init_search_Text.get(1.0, END)spiderObject = pingSpider.Spider(search)ret = spiderObject.getlinkList()index = 1self.init_result_data.config(state=NORMAL)self.init_result_data.delete(1.0, END)if ret:for temp in ret:tempIndex = format(index, '0.1f')self.init_result_data.insert(tempIndex, "链接地址：" + temp['link'] + "\n")index += 1tempIndex = format(index, '0.1f')self.init_result_data.insert(tempIndex, "提取码：" + temp['code'] + "\n\n")index += 2else:self.init_result_data.insert(1.0, "非常抱歉，没有找到你要的影片")self.init_result_data.config(state=DISABLED)

打包

安装pyInstaller

pip install pyInstaller

打包成exe文件

# F: 生成结果是一个exe文件，所有的第三方依赖、资源和代码均被打包进该exe内
# w: 不显示命令行窗口
pyInstaller -Fw xx.py

成果展示

1566972692(1).jpg

总结

界面开发使用的是tkinter，后期看一下qt开发
在爬虫的过程中发现详情页面规则并不是确定的，发现每次爬取可能会出错，于是直接爬取所有的a标签并且对比百度网盘的地址，提取码直接用正则全文搜索出来，肯定还是有误差的，可能会出错，先把功能实现，后期修改就行

Tips：有兴趣的朋友可以+qq1592388194，这只是一个小工具，有很多问题，不介意的可以找我，大家一起学习进步，哈哈哈。

ps:
该文章已经同步发到简书，链接地址：https://www.jianshu.com/p/9a53322a6d0c

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/48227.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

百度网盘_SEARCH

需求分析

实现

界面开发

BDY资源爬虫开发

整合界面和爬虫

打包

成果展示

总结

相关文章

使用ChatGPT进行个性化学习

【对话ChatGPT】如何使用ChatGpt来学习和提问？

chatgpt赋能python：Python收费介绍

微信「订阅号助手」 App 正式上线，请尽情吐槽！

易媒助手是自媒体一键式发布平台吗？

自媒体营销工具-绑定自媒体账号一键分发到媒体平台，让运营高效省心

模拟微信自动化发送（微信公众号文章自动点击）

Wetool 一款高效免费的微信社群管理工具，检查单向好友，自动回复、群发

微信运营必备！专业的微信粉丝和社群管理工具！功能强大好用，而且免费！

加粉推广全能助手推广辅助工具好多粉微信号加粉复制统计工具加强版，加粉推广神器，持续完善升级，新增统计点击转化，页面插件功能，完美支持ocpc接口

轻松采集微信文章，助自媒体创作优质内容！

Wechaty|微信小助手（非web|机器人）

全网一触即发，自媒体人的内容分发全能助手——融媒宝

自媒体人必不可少的多平台同步、一文多发小助手

自媒体助手软件开发需具备哪些功能？

微信同步助手android,微信同步助手插件(自媒体分发)

来聊聊我们为什么要写单测

7805和78l05可以代换吗_78L05和7805有什么区别

能代替苹果pencil的手写笔有吗？比较好用的ipad手写笔推荐

私有属性可以被继承吗_养子女、有抚养关系的继子女可以代位参与继承吗