MechanicalSoup,一个非常实用的 Python 自动化浏览器交互工具库!

目录

前言

什么是 Python MechanicalSoup 库?

核心功能

使用方法

 1. 安装 MechanicalSoup 库

 2. 创建 MechanicalSoup 客户端

 3. 打开网页并与之交互

实际应用场景

 1. 网页自动化测试

 2. 网络爬虫与数据提取

 3. 网页自动化操作

 4. 自动化填写和提交多个表单

 5. 与 JavaScript 交互

 6. 页面导航和链接跟踪

总结


前言

大家好,今天为大家分享一个非常实用的 Python 库 - MechanicalSoup。

Github地址:https://github.com/MechanicalSoup/MechanicalSoup


在网络爬虫和自动化测试等领域,与网页进行交互是一项常见的任务。Python MechanicalSoup 库就是为了简化这一过程而设计的工具。本文将全面探讨 MechanicalSoup 库的原理、功能、用法以及实际应用场景,并提供丰富的示例代码,帮助读者更好地了解和使用这个强大的工具。

什么是 Python MechanicalSoup 库?

Python MechanicalSoup 是一个自动化浏览器交互工具,它基于 Python 的 requests 和 BeautifulSoup 库。MechanicalSoup 的目标是模拟人类用户与网站的交互过程,从而实现自动化处理和数据提取。通过模拟浏览器行为,包括填写表单、点击按钮、提交数据等操作,MechanicalSoup 可以实现网页的自动化浏览和操作。

核心功能

  • 表单填写与提交 :MechanicalSoup 可以自动填写网页表单,并模拟用户提交数据的操作。

  • 页面导航与点击 :MechanicalSoup 可以模拟用户在网页上的点击操作,实现页面导航和跳转。

  • 数据提取与解析 :MechanicalSoup 可以从网页中提取数据,并使用 BeautifulSoup 库进行解析和处理。

  • 会话管理 :MechanicalSoup 支持会话管理,可以保持与网站的持久连接,并保持用户状态。

使用方法

 1. 安装 MechanicalSoup 库

首先,需要安装 MechanicalSoup 库:

pip install MechanicalSoup

 2. 创建 MechanicalSoup 客户端

import mechanicalsoup# 创建一个浏览器客户端
browser = mechanicalsoup.StatefulBrowser()

 3. 打开网页并与之交互

# 打开网页
browser.open("http://example.com")# 填写表单并提交
browser.select_form('form[action="/submit"]')
browser["username"] = "user"
browser["password"] = "pass"
browser.submit_selected()# 提取页面数据
page = browser.get_current_page()
data = page.find_all("div", class_="data")
print(data)

实际应用场景

 1. 网页自动化测试

MechanicalSoup 可以用于自动化测试,模拟用户与网页的交互过程,从而进行网页功能的自动化测试和验证。

# 模拟用户登录并验证登录结果
browser.open("http://example.com/login")
browser.select_form('form[action="/login"]')
browser["username"] = "testuser"
browser["password"] = "testpass"
browser.submit_selected()
assert browser.get_url() == "http://example.com/dashboard"

 2. 网络爬虫与数据提取

MechanicalSoup 可以用于构建简单的网络爬虫,从网页中提取数据,并进行后续处理和分析。

# 提取网页中的新闻标题
browser.open("http://example.com/news")
page = browser.get_current_page()
news_titles = [headline.text for headline in page.find_all("h2", class_="title")]
print(news_titles)

 3. 网页自动化操作

MechanicalSoup 可以用于自动化执行网页上的操作,例如填写表单、点击按钮、提交数据等。

# 自动填写并提交表单
browser.open("http://example.com/form")
browser.select_form('form[action="/submit"]')
browser["name"] = "John Doe"
browser["email"] = "john@example.com"
browser.submit_selected()

 4. 自动化填写和提交多个表单

有时候,我们需要自动化填写和提交多个表单,例如在网站上进行批量操作。MechanicalSoup 可以很容易地实现这一点。

# 打开网页
browser.open("http://example.com/multiple-forms")# 填写第一个表单
browser.select_form('form[id="form1"]')
browser["name"] = "John"
browser["email"] = "john@example.com"
browser.submit_selected()# 填写第二个表单
browser.select_form('form[id="form2"]')
browser["username"] = "john"
browser["password"] = "123456"
browser.submit_selected()

 5. 与 JavaScript 交互

有些网页使用 JavaScript 动态加载内容或执行操作。虽然 MechanicalSoup 不能直接执行 JavaScript,但您可以使用其他工具如 Selenium WebDriver 与 MechanicalSoup 结合,实现对 JavaScript 动态网页的操作。

# 使用 Selenium WebDriver 打开网页
from selenium import webdriverdriver = webdriver.Chrome()
driver.get("http://example.com")# 获取动态加载后的页面内容
page_source = driver.page_source# 将页面内容传递给 MechanicalSoup
browser.set_soup(BeautifulSoup(page_source, "html.parser"))# 继续使用 MechanicalSoup 进行后续操作

 6. 页面导航和链接跟踪

MechanicalSoup 也可以用于模拟用户在网页上的导航操作,包括点击链接、返回、前进等。

# 点击链接并跟踪页面导航
link = browser.find_link(text="Next Page")
browser.follow_link(link)

总结

Python MechanicalSoup 库是一个强大而实用的工具,可以帮助开发者轻松实现自动化的网页交互和数据提取任务。通过模拟人类用户与网站的交互过程,包括填写表单、点击按钮、提交数据等操作,MechanicalSoup 提供了简单易用的接口,使得网页自动化处理变得轻而易举。无论是用于自动化测试、数据挖掘还是网页自动化操作,MechanicalSoup 都展现了强大的功能和灵活的应用性,为开发者节省了大量时间和精力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/277659.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

柚见十三期(优化)

前端优化 加载匹配功能与加载骨架特效 骨架屏 : vant-skeleton index.vue中 /** * 加载数据 */ const loadData async () > { let userListData; loading.value true; //心动模式 if (isMatchMode.value){ const num 10;//推荐人数 userListData await myA…

django-comment-migrate 模型注释的使用

django-comment-migrate 的使用 django-comment-migrate 是一个 Django 应用,用于将模型注释自动迁移到数据库表注释中。它可以帮助您保持数据库表注释与模型定义的一致性,并提高代码的可读性。 安装 要使用 django-comment-migrate,您需要…

线程是如何在 6 种状态之间转换的

线程是如何在 6 种状态之间转换的 线程的 6 种状态New 新创建Runnable 可运行阻塞状态Blocked 被阻塞Waiting 等待Timed Waiting 限期等待 注意点 主要学习线程是如何在 6 种状态之间转换。 线程的 6 种状态 就像生物从出生到长大、最终死亡的过程一样,线程也有自己…

搭建Hadoop3.x完全分布式集群

零、资源准备 虚拟机相关: VMware workstation 16:虚拟机 > vmware_177981.zipCentOS Stream 9:虚拟机 > CentOS-Stream-9-latest-x86_64-dvd1.iso Hadoop相关 jdk1.8:JDK > jdk-8u261-linux-x64.tar.gzHadoop 3.3.6&am…

Netty架构详解

文章目录 概述整体结构Netty的核心组件逻辑架构BootStrap & ServerBootStrapChannelPipelineFuture、回调和 ChannelHandler选择器、事件和 EventLoopChannelHandler的各种ChannelInitializer类图 Protocol Support 协议支持层Transport Service 传输服务层Core 核心层模块…

第七节:Vben Admin权限-后端获取路由和菜单

系列文章目录 第一节:Vben Admin介绍和初次运行 第二节:Vben Admin 登录逻辑梳理和对接后端准备 第三节:Vben Admin登录对接后端login接口 第四节:Vben Admin登录对接后端getUserInfo接口 第五节:Vben Admin权限-前端控制方式 第六节:Vben Admin权限-后端控制方式 第七节…

Unity2019.2.x 导出apk 安装到安卓Android12+及以上的系统版本 安装出现-108 安装包似乎无效的解决办法

Unity2019.2.x 导出apk 安装到安卓Android12及以上的系统版本 安装出现-108 安装包似乎无效的解决办法 导出AndroidStudio工程后 需要设置 build.gradle文件 // GENERATED BY UNITY. REMOVE THIS COMMENT TO PREVENT OVERWRITING WHEN EXPORTING AGAINbuildscript {repositor…

河马优化算法(HO)-2024年Nature子刊新算法 公式原理详解与性能测评 Matlab代码免费获取

声明:文章是从本人公众号中复制而来,因此,想最新最快了解各类智能优化算法及其改进的朋友,可关注我的公众号:强盛机器学习,不定期会有很多免费代码分享~ 目录 原理简介 一、种群初始化 二、河马在河流或…

【Python编程基础】第一节.Python基本语法(上)

文章目录 前言⼀、Python介绍二、Python环境配置三、Pycharm 书写代码四、Python基本语法 4.1 print 函数的简单使用 4.2 注释 4.3 Python 代码中三种波浪线和 PEP8 4.4 在 cmd 终端中运⾏ Python 代码 4.5 变量 4.6 数据类型 4.7 类型转换…

Python使用openpyxl库或pandas库创建.xlsx格式的Excel文件,并向文件不同的sheet按行或按列写入内容

import openpyxl# 创建-一个Workbook对象 wb openpyxl.Workbook()# 创建多个工作表 sheet1 wb.active sheet1.title "s1"sheet2 wb.create_sheet("s2")# 在不同的工作表中写入数据 sheet1["A1"] Data for Sheet1 sheet1["A2"] D…

HCIP—BGP邻居关系建立实验

BGP的邻居称为:IBGP对等体 EBGP对等体 1.EBGP对等体关系: 位于 不同自治系统 的BGP路由器之间的BGP对等体关系 EBGP对等体一般使用 直连建立 对等体关系,EBGP邻居之间的报文 TTL中值设置为1 两台路由器之间建立EBGP对等体关系&#xff0…

SQLiteC/C++接口详细介绍之sqlite3类(十三)

返回目录:SQLite—免费开源数据库系列文章目录 上一篇:SQLiteC/C接口详细介绍之sqlite3类(十二) 下一篇:SQLiteC/C接口详细介绍之sqlite3类(十四)(未发表) 40.sqlite3…

【算法】一类支持向量机OC-SVM(1)

【算法】一类支持向量机OC-SVM 前言一类支持向量机OC-SVM 概念介绍示例编写数据集创建实现一类支持向量机OC-SVM完整的示例输出 前言 由于之前毕设期间主要的工具就是支持向量机,从基础的回归和分类到后来的优化,在接触到支持向量机还有一类支持向量机的…

Redis Desktop Manager:一站式Redis数据库管理与优化

Redis Desktop Manager是一款功能强大的Redis桌面管理工具,也被称作Redis可视化工具。以下是其主要的功能特色: 连接管理:Redis Desktop Manager支持连接多个Redis服务器,用户可以在同一界面下管理多个数据库,大大提高…

通用的springboot web jar包执行脚本,释放端口并执行jar包

1、通用的springboot web jar包执行脚本,释放端口并执行jar包: #!/bin/bash set -eDATE$(date %Y%m%d%H%M) # 基础路径 BASE_PATH/data/yitu-projects/yitu-xzhq/sftp # 服务名称。同时约定部署服务的 jar 包名字也为它。 SERVER_NAMEyitu-server # 环境…

数据仓库数据分层详解

数据仓库中的数据分层是一种重要的数据组织方式,其目的是为了在管理数据时能够对数据有一个更加清晰的掌控。以下是数据仓库中的数据分层详解: 原始数据层(Raw Data Layer):这是数仓中最底层的层级,用于存…

计算机二级Python题目13

目录 1. 基本题 1.1 基本题1 1.2 基本题2 1.3 基本题3 2. turtle画图 3. 大题 3.1 大题1 3.2 大题2 1. 基本题 1.1 基本题1 lseval(input()) s"" for item in ls:if type(item)type("香山"):s item print(s) 1.2 基本题2 import random random.se…

android MMKV数据持久化缓存集合

前言 最近在使用mmkv缓存的时候 发现没有集合缓存 非常不方便 自己写一个方法 MMKV public class MmkvUtils {private MmkvUtils() {throw new UnsupportedOperationException("u cant instantiate me...");}public static void init() {MMKV.initialize(LeoUtils…

RTP 控制协议 (RTCP) 反馈用于拥塞控制

摘要 有效的 RTP 拥塞控制算法,需要比标准 RTP 控制协议(RTCP)发送方报告(SR)和接收方报告(RR)数据包提供的关于数据包丢失、定时和显式拥塞通知 (ECN) 标记的更细粒度的反馈。 本文档描述了 RTCP 反馈消息,旨在使用 RTP 对交互式实时流量启用拥塞控制…

【安全类书籍-3】XSS跨站脚剖析与防御

目录 内容简介 作用 下载地址 内容简介 这本书涵盖以下几点: XSS攻击原理:解释XSS是如何利用Web应用未能有效过滤用户输入的缺陷,将恶意脚本注入到网页中,当其他用户访问时被执行,实现攻击者的目的,例如窃取用户会话凭证、实施钓鱼攻击等。 XSS分类:分为存储型XSS(…