华为云云耀云服务器L实例评测|用Python的Flask框架加Nginx实现一个通用的爬虫项目

在这里插入图片描述

🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。
🏆数年电商行业从业经验,AWS/阿里云资深使用用户,历任核心研发工程师,项目技术负责人。
🎉欢迎 👍点赞✍评论⭐收藏

文章目录

  • 🚀一、前言-关于Flask框架
  • 🚀二、功能描述
  • 🚀三、功能开发实现
    • 🔎3.1 搭建后端服务
      • 🍁3.1.1 安装Flask
      • 🍁3.1.2 创建后端服务代码
      • 🍁3.1.3 测试5000端口访问
      • 🍁3.1.4 规范化启动服务(restart.sh)
      • 🍁3.1.5 Nginx代理5000端口
      • 🍁3.1.6 修改本机host访问Api
    • 🔎3.2 编写前端页面
      • 🍁3.2.1 创建HTML文件
      • 🍁3.2.2 部署前端页面
  • 🚀四、测试功能
    • 4.1 测试标题抓取
    • 4.2 测试图片抓取
  • 🚀五、结语


随着云计算时代的进一步深入,越来越多的中小企业企业与开发者需要一款简单易用、高能高效的云计算基础设施产品来支撑自身业务运营和创新开发。基于这种需求,华为云焕新推出华为云云服务器实例新品。

前面通过 华为云云耀云服务器L实例评测|从服务器购买到一站式搭建Presta Shop跨境商城完整教学 这一篇,已经完整实现了服务器的购买到初步的使用。这边文章由我带大家再进一步的进行实战内容扩充,本篇主要讲述用Python的Flask框架加Nginx实现一个通用的爬虫项目实践。在评测服务器使用的同时,供大家学习使用参考。

如果想了解华为云云耀云服务器L实例评测,可以点击这里直接进入。

在这里插入图片描述

🚀一、前言-关于Flask框架

Flask是一个基于Python的微框架,用于构建Web应用程序。它是一个轻量的并且被广泛应用的框架,具有简单易懂的设计和灵活的扩展能力。

在这里插入图片描述

以下是关于Flask的一些重要特点和概念:

路由:Flask使用装饰器来定义URL路由,将不同的URL路径映射到相应的函数上。例如,可以使用@app.route('/hello')装饰器将函数hello()与路径/hello绑定。

视图函数(View function):视图函数是Flask应用程序处理URL请求的函数。每当用户访问指定路径时,与该路径绑定的视图函数将被调用,并返回相应的内容。

模板引擎:Flask使用Jinja2模板引擎来实现页面的动态生成。模板引擎允许开发人员将静态模板与动态数据结合,生成最终的HTML页面发送给客户端。

请求-响应循环:当用户发送HTTP请求时,Flask使用请求-响应循环来处理请求并返回响应。请求-响应循环由Flask框架自动处理,开发人员只需要关注如何处理请求和生成响应。

扩展性:Flask拥有丰富的第三方扩展,可以轻松地集成其他功能,如数据库访问、用户认证、表单验证等。

开发简便:Flask提供了简洁的API和清晰的文档,使开发人员能够快速构建Web应用程序。它的学习曲线相对较低,适合初学者入门。

🚀二、功能描述

今天本文主要在华为云云耀云服务器L实例上面,通过Flask框架做服务,前端开发主要通过Html+JQuery来实现。写一个爬虫功能,前端有一个Input用来输入网页地址,然后还有一个下拉框Select,里面可以选择标题,图片,视频等。还有一个提交按钮,提交给了Python后端,比如提交了https://www.baidu.com这个网页地址,然后Select选择了图片,就抓去这个地址的所有图片url返回给前端。

在这里插入图片描述

话不多说,下面直接进入正题。

🚀三、功能开发实现

🔎3.1 搭建后端服务

使用Flask搭建一个简单的后端服务来处理前端的请求。可以看到L实例上面已经预装Python3的环境。

在这里插入图片描述

🍁3.1.1 安装Flask

打开命令行终端,执行以下命令安装Flask,这里还是加一个源,不然默认的太慢了:

pip3 install flask -i https://pypi.tuna.tsinghua.edu.cn/simple

下面是实际执行的效果,很快就安装好了。

在这里插入图片描述

🍁3.1.2 创建后端服务代码

创建一个名为server.pyPython文件,添加以下内容:

from flask import Flask, request, jsonify
import requests
from bs4 import BeautifulSoupapp = Flask(__name__)@app.route('/', methods=['POST'])
def crawl():url = request.form.get('url')mode = request.form.get('mode')response = requests.get(url)soup = BeautifulSoup(response.text, 'html.parser')result = []if mode == 'title':title = soup.title.stringresult.append(title)elif mode == 'image':images = soup.find_all('img')for img in images:result.append(img['src'])elif mode == 'video':videos = soup.find_all('video')for video in videos:result.append(video['src'])return jsonify(result)if __name__ == '__main__':app.run()

然后我把我这个文件放到了/var/web目录下面,然后我来尝试运行一下,看看效果。

在这里插入图片描述
报错了,我的扩展少装了,继续执行一下下面的操作

pip3 install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

然后继续python3 server.py。发现成功了,一个简单的web服务就这么启动了,太舒服了。

在这里插入图片描述

🍁3.1.3 测试5000端口访问

现在服务启动起来了,我们先不要停止,现在没有开发5000安全组,来试一下浏览器能不能访问。直接输入http://124.70.177.136:5000/,这是我真实的服务器地址。浏览器转了半天事实证明没有反应,访问不可触达。

在这里插入图片描述

现在我们去安全组开一把5000端口试试。

在这里插入图片描述

开了安全组后发现还是不行,后面经过排查,把上面代码里面的最后一句改为app.run(host='0.0.0.0')即可。下面是浏览器通畅后的效果。

在这里插入图片描述

然后访问后,服务器控制台也给出了请求的反馈。

在这里插入图片描述

🍁3.1.4 规范化启动服务(restart.sh)

上面这种直接在控制台输出肯定不行,这样太粗糙了,一点都不优雅,终端断了还可能导致服务中断,直接上一个sh脚本控制日志输出并且让服务后台运行才是最佳实践,玩的就是一个项目实战。这方面知识欠缺的可以去看我的Linux命令大全专栏。

#!/bin/bash
echo "结束进程"
kill ` lsof -i:5000 | awk '{NR==2 ;print $2}' ` #杀死运行中的server服务进程
echo "启动进程"
nohup python3 server.py >> server.log 2>&1 & #后台启动服务将日志写入server.log文件
ps -aux | grep 5000 

直接bash restart.sh就可以重启服务,服务后台运行,日志直接查看server.log,是不是舒服多了。见下图。

在这里插入图片描述

🍁3.1.5 Nginx代理5000端口

如果你以为直接访问5000端口可行,那也是粗糙*2,不够优雅,玩的就是一个细节,下面继续用Nginx来代理上5000端口。这里我们通过sites-enabled目录来新建虚拟域名代理,这样显得更加隔离一些。

cd /etc/nginx/
mkdir sites-enabled

然后在sites-enabled下面建一个reptile.conf放入下面的内容:

server {listen 80;server_name reptile.heiye.net;set $back_port "5000";location ~* ^/api {proxy_pass "http://127.0.0.1:$back_port";}
}

然后在主要文件里面要引入sites-enabled下面的所有文件,使得这些配置生效。vim /etc/nginx/conf.d/default.conf 头部放入如下内容。注意不同的环境配置效果可能不一样,我这里是这样去配置。
在这里插入图片描述
然后nginx -t通过后nginx -s reload。养成先测试的好习惯。

在这里插入图片描述

🍁3.1.6 修改本机host访问Api

上面Nginx配置里面提到了reptile.heiye.net这个域名,实际上这个域名不是真实存在的,要访问到需要配置一下,我是Mac,在/etc/hosts中修改,WindowsC:\Windows\System32\drivers\etc这个目录下面的host文件,放入下面这一行。

124.70.177.136 reptile.heiye.net

现在我们一起用浏览器访问一下reptile.heiye.net就能够直达上面开启的server服务了,完美,后端服务基本上就部署完成了。

在这里插入图片描述

🔎3.2 编写前端页面

使用HTML和jQuery编写一个简单的前端页面。

🍁3.2.1 创建HTML文件

创建一个名为index.html的HTML文件,添加以下内容:

<!DOCTYPE html>
<html>
<head><title>爬虫功能示例</title><script src="https://code.jquery.com/jquery-3.6.0.min.js"></script>
</head>
<body><h1>爬虫功能示例</h1><form id="crawl-form"><label for="url">网页地址:</label><input type="text" id="url" name="url" required><br><br><label for="mode">抓取内容:</label><select id="mode" name="mode" required><option value="title">标题</option><option value="image">图片</option><option value="video">视频</option></select><br><br><input type="submit" value="提交"></form><div id="result"></div><script>$(document).ready(function() {$('#crawl-form').on('submit', function(event) {event.preventDefault();var url = $('#url').val();var mode = $('#mode').val();$.ajax({url: '/',method: 'POST',data: {url: url,mode: mode},success: function(response) {var resultHtml = '';if (response.length > 0) {for (var i = 0; i < response.length; i++) {resultHtml += '<p>' + response[i] + '</p>';}} else {resultHtml = '<p>没有找到相关内容。</p>';}$('#result').html(resultHtml);},error: function() {alert('请求失败,请检查输入的网页地址。');}});});});</script>
</body>
</html>

🍁3.2.2 部署前端页面

前端页面实际上也要放到服务器下面去,具体的文件放置于/var/web/front/reptile/index.html。同样的Nginx也配置一下,对于请求到底是到页面还是到后端服务需要进行分流。在reptile.conf中添加如下代码。在location /这个位置的前面。

location ~* ^/reptile {root /var/web/front/;
}

然后nginx -s reload,然后尝试访问一下页面http://reptile.heiye.net/reptile/index.html,成功出现。

在这里插入图片描述

🚀四、测试功能

在浏览器中访问http://reptile.heiye.net/reptile/index.html,即可看到前端页面。

4.1 测试标题抓取

这里通过https://www.runoob.com/linux/linux-command-manual.html这个网址作为我们的测试用例。抓取内容为标题,点击提交,就成功获取了。
在这里插入图片描述

4.2 测试图片抓取

抓取内容选择图片,可以看到页面上两张图片地址被分析出来了。
在这里插入图片描述

🚀五、结语

本篇文章通过华为云云耀云服务器L实例进行支持开发,实现了一个五脏俱全的前后端一起的完整爬虫小项目。所有的代码都在文章中给出了展示,您也可以根据具体的自己的使用情况进行扩展,实际项目中会遇到非常丰富以及复杂的情况,不过通过不断努力总是可以把问题解决了的。

由于是真实的流程演示,项目也实际部署到了线上,大家可以看文章绑定一下host,然后通过http://reptile.heiye.net/reptile/index.html进行访问。感谢华为云的支持。整体在L实例上面的测试流程还是比较顺畅,没有遇到多大问题,就是pip默认安装源有点慢,另外之前我安装的Presta Shop跨境商城经过一段时间的运行,还是比较稳定,没有出现过服务中断的情况,因为我这个上面部署的服务也不少了。

希望华为云越来越好,希望中国的云事业更上一层楼,我作为一个普通开发者,也将不断参与与见证这一伟大的技术探索与变革。

在这里插入图片描述

今天的内容就到这里,我们下期再会。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/135651.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机专业毕业设计项目推荐06-工作室管理系统(Java+Vue+Mysql)

工作室管理系统&#xff08;JavaSpringVueMysql&#xff09; **介绍****系统总体开发情况-功能模块****各部分模块实现****最后想说的****联系方式** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较…

FPGA----VCU128的DDR4无法使用问题(全网唯一)

1、在Vivado 2019.1版本中使用DDR4的IP核会遇到如下图所示的错误&#xff0c;即便过了implementation生成了bit&#xff0c;DDR4也无法正常启动。 2、解决办法&#xff0c;上xilinx社区搜一下就知道了 AMD Customer Communityhttps://support.xilinx.com/s/article/69035?lan…

(JavaEE) 多线程基础3——多线程的代码案例 (单例模式, 阻塞队列,定时器)详解!!!

​​​​​​​ 目录 单例模式 什么是单例模式&#xff1f; —— “饿汉模式” —— “懒汉模式” ——懒汉模式-多线程版 ——懒汉模式-多线程版&#xff08;改进版&#xff09; 总结“懒汉模式”—— 多线程&#xff08;线程安全版&#xff09; 的要点 阻塞队列 什么…

K8s(Kubernetes)学习(六)——Ingress

第六章 Ingress 什么是 IngressIngress 和 Service 区别Ingress 控制器 Traefik 使用Ingress Route的定义 1 简介 https://kubernetes.io/zh-cn/docs/concepts/services-networking/ingress/ Ingress 是一种 Kubernetes 资源类型&#xff0c;它允许在 Kubernetes 集群中暴露…

【TCP】滑动窗口、流量控制 以及拥塞控制

滑动窗口、流量控制 以及拥塞控制 1. 滑动窗口&#xff08;效率机制&#xff09;2. 流量控制&#xff08;安全机制&#xff09;3. 拥塞控制&#xff08;安全机制&#xff09; 1. 滑动窗口&#xff08;效率机制&#xff09; TCP 使用 确认应答 策略&#xff0c;对每一个发送的数…

深入解读什么是期权的内在价值和时间价值?

期权品种越来越丰富&#xff0c;对于大家套利对冲都有很多的选择。而有些初学者对时间价值一直不理解&#xff0c;今天呢&#xff0c;就给大家讲一讲深入解读什么是期权的内在价值和时间价值&#xff1f;本文来自&#xff1a;期权酱 01在期权交易过程中&#xff0c;想必大家都会…

抖音seo矩阵系统源代码分享

技术开发注意事项&#xff1a; 确定业务需求&#xff1a;在开发前&#xff0c;需要明确抖音矩阵系统的业务需求&#xff0c;了解用户的需求和使用习惯&#xff0c;明确系统的功能、性能和安全需求。 选择合适的技术方案&#xff1a;根据系统的需求和复杂度&#xff0c;选择合适…

@EventListener 监听事件 ,在同一个虚拟机中如何保证顺序执行

文章目录 前言EventListener 监听事件 &#xff0c;在同一个虚拟机中如何保证顺序执行1. 设计原理2. 具体编码2.1. 编码事件监听器2.2. 制作一个生成序号方法2.3. 制作测试代码2.4. 测试结果 前言 如果您觉得有用的话&#xff0c;记得给博主点个赞&#xff0c;评论&#xff0c;…

如何在 Excel 中进行加,减,乘,除

在本教程中&#xff0c;我们将执行基本的算术运算&#xff0c;即加法&#xff0c;减法&#xff0c;除法和乘法。 下表显示了我们将使用的数据以及预期的结果。 | **S / N** | **算术运算符** | **第一个号码** | **第二个号码** | **结果** | | 1 | 加法&#xff08;&#xff…

mysql报错You do not have the SUPER privilege and binary logging is enabled

创建触发器,显示You do not have the SUPER privilege and binary logging is enabled CREATE TRIGGER delete_lottery_template AFTER DELETE ON lottery_info FOR EACH ROW BEGINDELETE FROM lottery_template WHERE lottery_template_id old.lottery_template_id; END; …

C#,《小白学程序》第二十六课:大数乘法(BigInteger Multiply)的Toom-Cook 3算法及源程序

凑数的&#xff0c;仅供参考。 1 文本格式 /// <summary> /// 《小白学程序》第二十六课&#xff1a;大数&#xff08;BigInteger&#xff09;的Toom-Cook 3乘法 /// Toom-Cook 3-Way Multiplication /// </summary> /// <param name"a"></par…

【AI视野·今日NLP 自然语言处理论文速览 第三十五期】Mon, 18 Sep 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 18 Sep 2023 Totally 51 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computation and Language Papers "Merge Conflicts!" Exploring the Impacts of External Distractors to Parametric Knowledge Gra…

6.1、Flink数据写入到文件

1、前言 Flink API 提供了FileSink连接器&#xff0c;来帮助我们将数据写出到文件系统中去 版本说明&#xff1a;java1.8、flink1.17 官网链接&#xff1a;官网 2、Format Types - 指定文件格式 FileSink 支持 Row-encoded 、Bulk-encoded 两种格式写入文件系统 Row-encode…

Vulnhub实战-DC9

前言 本次的实验靶场是Vulnhub上面的DC-9&#xff0c;其中的渗透测试过程比较多&#xff0c;最终的目的是要找到其中的flag。 一、信息收集 对目标网络进行扫描 arp-scan -l 对目标进行端口扫描 nmap -sC -sV -oA dc-9 192.168.1.131 扫描出目标开放了22和80两个端口&a…

GFS分布式文件系统

目录 1、GFS理论 1.1、概述 1.2、GFS的基本概念和架构&#xff1a; 1.2.1. 基本概念 1.2.2. 架构&#xff1a; 1.3、GFS的基本组成部分包括&#xff1a; 1.4、GFS具有以下几个关键特点&#xff1a; 1.5、GlusterFS特点 1.6、GFS的术语 1.7、GlusterFS 采用模块化、堆…

【C++】STL简介 | string类的常用接口

目录 STL简介 学string类前的铺垫 概念 为什么要学string类 string类的底层&#xff08;了解&#xff09; 编码表的故事 string类的常用接口与应用 3个必掌握的构造 赋值 访问字符operator[] 初识迭代器&#xff08;iterator&#xff09; 反向迭代器 用范围for遍历…

【微信小程序】swiper的使用

1.swiper的基本使用 <jxz-header></jxz-header> <view class"banner"><swiperprevious-margin"30rpx"autoplayinterval"2000"indicator-dotsindicator-color"rgba(0,0,0,0.3)"indicator-active-color"#bda…

每日一题 337. 打家劫舍 III

难度&#xff1a;中等 整体思路相当于是前两天的方法倒过来&#xff0c;毕竟二叉树最常用的解法就是递归倒推 对于每一颗子树&#xff0c;他必定有一种最大的盗取方法&#xff0c;但是只有它的 root 的盗取情况才会影响到 root 的父节点&#xff0c;即如果收益最大的盗取方法…

虚拟线上发布会带来颠覆性新体验,3D虚拟场景直播迸发品牌新动能

虚拟线上发布会是近年来在数字化营销领域备受关注的形式&#xff0c;而随着虚拟现实技术的不断进步&#xff0c;3D虚拟场景直播更成为了品牌宣传、推广的新选择。可以说&#xff0c;虚拟线上发布会正在以其颠覆性的新体验&#xff0c;为品牌带来全新的活力。 1.突破时空限制&am…

竞赛选题 基于深度学习的人脸性别年龄识别 - 图像识别 opencv

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 毕业设计…