基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】

基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】

news/2024/12/24 1:28:26/文章来源:https://blog.csdn.net/Jesse_Kyrie/article/details/133882639

scrapyd部署爬虫

Scrapyd 是一个基于 Scrapy 的开源项目，它提供了一个简单的方式来部署、运行和监控 Scrapy 爬虫。它是一个用于集成 Scrapy 爬虫到分布式架构中的工具，允许您在分布式环境中运行爬虫，并提供了一组 Web API，用于管理和监控爬虫的部署和运行。
Scrapyd 的主要功能和特点包括：

部署爬虫： Scrapyd 允许用户将 Scrapy 爬虫部署到远程服务器，而不必手动在每台服务器上安装和配置爬虫。
运行爬虫：您可以使用 Scrapyd 启动、停止和监控远程服务器上的爬虫。
Web API： Scrapyd 提供了一组 Web API，使您能够通过 HTTP 请求进行爬虫管理和监控，包括部署新版本、运行爬虫、检查运行状态等。

Scrapyd 对于需要在分布式环境中运行 Scrapy 爬虫的项目非常有用，因为它简化了部署和管理的流程，同时提供了对爬虫状态的监控和控制。

安装与启动部署节点

安装 Scrapyd：
首先，您需要确保已经安装了 Python 和 pip。然后使用 pip 安装 Scrapyd：

pip install scrapyd

启动 Scrapyd 服务器：
要在服务器上启动 Scrapyd，只需运行以下命令：

scrapyd

修改默认配置，使scrapyd公开访问【后面部署多台机器需要添加此配置】
在当前运行目录添加文件scrapyd.conf 文件，写入以下内容

bind_address = 0.0.0.0
http_port = 6800

重新启动，并注意防火墙设置，即可在公开网络内访问到。

Gerapy管理scrapyd节点，部署爬虫

Gerapy 是一个分布式爬虫管理框架，用于帮助开发人员创建、调度和监控爬虫。

安装 Gerapy：你可以使用 pip 安装 Gerapy。
```
pip install gerapy
```
初始化工作目录
```
gerapy init
```
初始化数据库
```
gerapy migrate
```
生成管理账号【账号与密码都为admin】
```
gerapy initadmin
```
启动gerapy服务
```
gerapy runserver
```
登录本地8000端口，访问gerapy服务
点击主机管理右边的创建主机，填写正在运行的scrapyd主机，点击认证与创建，即可链接scrapyd任务节点

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/162217.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

docker入门加实战—部署Java和前端项目

docker入门加实战—部署Java和前端项目

docker入门加实战—部署Java和前端项目部署之前，先删除nginx，和自己创建的dd两个容器： docker rm -f nginx dd部署Java项目作为演示，我们的Java项目比较简单，提供了一个接口： 配置文件连接docker里的m…

阅读更多...

ios safari 浏览器跳转页面没有自适应

ios safari 浏览器跳转页面没有自适应

今天开发遇到了一个问题，当用户点击浏览器中的表单进行注册时，表单元素会放大，随后跳转页面无法还原到初始状态。这是因为如果的 font-size 被设定为 16px 或更大，那么 iOS 上的 Safari 将正常聚焦到输入表单中。但是&#xff…

阅读更多...

MultiPlayerShoot----C++学习记录02人物

MultiPlayerShoot----C++学习记录02人物

获取人物和动画可以再Mixamo下载你想要的人物，将文件全部导入（不做更改） 再在网站里选到动画，下载一些动画左转，右转，起跳，跳中，落下导入动画，此时不用选择导入骨骼&a…

阅读更多...

智能化安全巡更巡查系统—提升安全管理效率

智能化安全巡更巡查系统—提升安全管理效率

传统的巡检都是手工完成，记录、拍照，回到办公室打印表单再交给作业队伍整改，再去现场核实复查，流程繁琐，效率低。而且大部分工地为了减少麻烦，人员往往都是口头沟通，存在很大质量风险&#xff0…

阅读更多...

【QT】常用控件——按钮组

【QT】常用控件——按钮组

继承Widget PushButton 设置图片，先导入图片资源，见：【QT】资源文件导入_复制其他项目中的文件到qt项目中_StudyWinter的博客-CSDN博客在布局中添加图片调整尺寸 toolButton 显示图片、文本显示图片（图片和文字都有时&#…

阅读更多...

web漏洞挖掘指南-前端跨域漏洞

web漏洞挖掘指南-前端跨域漏洞

web漏洞挖掘指南前端跨域漏洞如果你对网络安全入门感兴趣，那么你需要的话可以点击这里👉【入门&进阶全套282G学习资源包免费分享！】一、何为跨域 1.设想一种场景，一个恶意网站上嵌入了一个iframe标签去加载银行的登陆页…

阅读更多...

优化大型机床装配调度：项目管理软件的应用方法

优化大型机床装配调度：项目管理软件的应用方法

最近，Zoho Projects项目管理软件的一位资深客户，跟我们分享了他是如何把Projects应用于大型机床装配的复杂调度。小Z觉得特别有必要，把各行各业的成功应用和实践经验发布出来。在取得这位资深用户同意后，我们推出了本篇文章&#…

阅读更多...

vcruntime140.dll如何修复，五种修复vcruntime140.dll方法分享

vcruntime140.dll如何修复，五种修复vcruntime140.dll方法分享

当我们在运行某些程序时，可能会遇到“找不到VCRuntime140.dll”的错误。这个错误通常表示我们的系统中缺少某个重要的动态链接库文件，而VCRuntime140.dll正是其中之一。本文将详细介绍如何修复这个问题。一、问题出现的原因首先，我们需要了…

阅读更多...

2.3 如何使用FlinkSQL读取写入到JDBC(MySQL)

2.3 如何使用FlinkSQL读取写入到JDBC(MySQL)

1、JDBC SQL 连接器 FlinkSQL允许使用 JDBC连接器，向任意类型的关系型数据库读取或者写入数据添加Maven依赖 <dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-jdbc</artifactId><version>3.1…

阅读更多...

MySQL双主一从高可用

MySQL双主一从高可用

MySQL双主一从高可用文章目录 MySQL双主一从高可用环境说明1.配置前的准备工作2.配置yum源 1.在部署NFS服务2.安装主数据库的数据库服务，并挂载nfs3.初始化数据库4.配置两台master主机数据库5.配置m1和m2成为主数据库6.安装、配置keepalived7.安装部署从数据库8.测…

阅读更多...

用 JHipster Azure Spring Apps 构建和部署 Spring 应用

用 JHipster Azure Spring Apps 构建和部署 Spring 应用

作者：Hang Wang 排版：Alan Wang 此教程将向您展示如何使用 React、Spring Boot 和 PostgreSQL 在 Azure 上构建和部署全栈 Web 应用程序，由 JHipster Azure Spring Apps 提供支持。 JHipster Azure Spring Apps 为全栈 Web 开发提供了全面的…

阅读更多...

虚拟现实VR技术在医疗行业的应用介绍

虚拟现实VR技术在医疗行业的应用介绍

虚拟现实 (VR) 虽然经常与游戏联系在一起，但不可否认，未来科技少不了虚拟现实，其应用可以彻底改变许多行业。在医疗领域，无数人正在探索 VR 可以帮助患者和医疗从业者实现更好的治疗结果治疗方式，比如在手术、疼痛管理…

阅读更多...

下拉选择器的树状结构图

下拉选择器的树状结构图

类似：【Vue-Treeselect 和 vue3-treeselect】树形下拉框一：图二：如果有多层级的数据结构，可以用treeselect插件实现 1、安装： npm install --save riophae/vue-treeselect 2、实现： <el-form ref&qu…

阅读更多...

[计算机入门] 应用软件介绍(娱乐类)

[计算机入门] 应用软件介绍(娱乐类)

3.21 应用软件介绍(娱乐类) 3.21.1 音乐：酷狗音乐软件是一类可以帮助人们播放、管理和发现音乐的应用程序。它们提供了丰富的音乐内容，用户可以通过搜索、分类浏览或个性化推荐等方式找到自己喜欢的歌曲、专辑或艺术家。音乐软件还通常支持创建和管理…

阅读更多...

【学习笔记】RabbitMQ-5 消息的可靠性投递以及示例代码

【学习笔记】RabbitMQ-5 消息的可靠性投递以及示例代码

参考资料 RabbitMQ官方网站RabbitMQ官方文档噼咔噼咔-动力节点教程文章目录八、RabbitMQ的确认机制 -confirm8.1 Confirm 模式简介8.2 具体代码设置8.2.1 **设置思路**：8.2.2 **代码实现**8.2.2.1 开启生产者的确认模式.8.2.2.2 实现接口ComfirmCallback8.2.2.3 配…

阅读更多...

Git 分布式版本控制工具

Git 分布式版本控制工具

目录 1. 前言1.1 什么是Git1.2 使用Git能做什么 2. Git概述2.1 Git简介2.2 Git下载与安装 3. Git代码托管服务3.1 常用的Git代码托管服务3.2 码云代码托管服务3.2.1 注册码云账号3.2.2 登录码云3.2.3 创建远程仓库3.2.4 邀请其他用户成为仓库成员 4. Git常用命令4.1 Git全局设置…

阅读更多...

Flume 整合 Kafka

Flume 整合 Kafka

1.背景先说一下，为什么要使用 Flume + Kafka？以实时流处理项目为例，由于采集的数据量可能存在峰值和峰谷，假设是一个电商项目，那么峰值通常出现在秒杀时，这时如果直接将 Flume 聚合后的数据输入到 Storm 等分布式计算框架中，可能就会超过集群的处理能力，这时采用 Kaf…

阅读更多...

品牌创意二维码营销活动：MoneyLion 在纽约全城“撒钱”，月增百万级曝光！

品牌创意二维码营销活动：MoneyLion 在纽约全城“撒钱”，月增百万级曝光！

在2023年4月——金融知识月，MoneyLion 在纽约策划了一场轰动全城的“撒钱”活动！ 在开始介绍这场极具创意的活动之前，我们先来了解一下MoneyLion这家公司。MoneyLion 是一家私营金融科技公司，为消费者提供贷款、财务咨询和投资服…

阅读更多...

Apache Doris (四十二）： RECOVER数据删除恢复

Apache Doris (四十二）： RECOVER数据删除恢复

🏡 个人主页：IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主：加入大数据技术讨论群聊，获取更多大数据资料。 🔔 博主个人B栈地址：豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频目录

阅读更多...

HTML 常用标签及练习

HTML 常用标签及练习

常用标签 <head>中的标签概述 head中的内容不显示到页面上标签说明<title>定义网页的标题<meta>定义网页的基本信息（供搜索引擎）<style>定义CSS样式<link>链接外部CSS文件或脚本文件<script>定义脚本语言<…

阅读更多...

最新文章

推荐文章