C++编写的多线程自动爬虫程序

C++编写的多线程自动爬虫程序

news/2024/12/24 0:59:36/文章来源:https://blog.csdn.net/weixin_44617651/article/details/134379614

以下是一个使用C++编写的爬虫程序，用于爬取Python进行多线程跑数据的内容。本示例使用了Python的requests库来发送HTTP请求，并使用cheeseboy的爬虫ipIP库来设置爬虫ip信息。以下是详细代码和步骤：

在这里插入图片描述

#include <iostream>
#include <string>
#include <thread>
#include <curl/curl.h>#include "cheeseboy.h"using namespace std;// 爬取函数
void spider() {// 设置爬虫ip信息char *proxy_host = "www.duoip.cn";int proxy_port = 8000;struct curl_slist *proxy_list = NULL;proxy_list = curl_slist_append(proxy_list, "http://" + proxy_host + ":" + to_string(proxy_port));// 创建CURL对象CURL *curl = curl_easy_init();if(curl) {// 设置爬虫ip信息curl_easy_setopt(curl, CURLOPT_PROXY, proxy_list);curl_easy_setopt(curl, CURLOPT_URL, "http://python-thread-pool.com/");// 发送请求curl_easy_perform(curl);// 处理返回信息string response = curl_easy_getinfo(curl, CURLINFO_BODY_CONTENT, NULL);cout << "Response: " << response << endl;// 关闭CURL对象curl_easy_cleanup(curl);}
}int main() {// 创建线程thread spider_thread(spider);// 等待线程完成spider_thread.join();return 0;
}

以下是每行代码的解释：

1、#include <iostream>：包含iostream库，用于输入输出。

2、#include <string>：包含string库，用于字符串处理。

3、#include <thread>：包含thread库，用于线程编程。

4、#include <curl/curl.h>：包含curl库，用于发送HTTP请求。

5、using namespace std;：使用标准命名空间。

6、void spider() { ..、}：定义一个名为spider的函数，该函数负责爬取数据。

7、char *proxy_host = "www.duoip.cn";：定义一个名为proxy_host的字符指针，用于存储爬虫ipIP的地址。

8、int proxy_port = 8000;：定义一个名为proxy_port的整型变量，用于存储爬虫ipIP的端口号。

9、struct curl_slist *proxy_list = NULL;：定义一个名为proxy_list的CURL_slist结构体指针，用于存储爬虫ip信息。

10、proxy_list = curl_slist_append(proxy_list, "http://" + proxy_host + ":" + to_string(proxy_port));：将爬虫ip信息添加到proxy_list中。

11、CURL *curl = curl_easy_init();：创建一个名为curl的CURL对象。

12、if(curl) { ..、}：如果curl对象创建成功，执行以下代码。

13、curl_easy_setopt(curl, CURLOPT_PROXY, proxy_list);：设置爬虫ip信息。

14、curl_easy_setopt(curl, CURLOPT_URL, "http://python-thread-pool.com/");：设置要爬取的网站的URL。

15、curl_easy_perform(curl);：发送HTTP请求。

16、string response = curl_easy_getinfo(curl, CURLINFO_BODY_CONTENT, NULL);：获取服务器返回的数据。

17、cout << "Response: " << response << endl;：输出服务器返回的数据。

18、curl_easy_cleanup(curl);：关闭CURL对象。

19、int main() { ..、}：定义一个名为main的函数，该函数用于创建线程并等待其完成。

20、thread spider_thread(spider);：创建一个名为spider_thread的线程，该线程执行spider函数。

21、spider_thread.join();：等待spider_thread线程完成。

22、return 0;：返回0表示程序成功执行。

以上就是一个使用C++编写的爬虫程序，用于爬取Python进行多线程跑数据的内容。注意，使用爬虫ipIP爬取数据可能违反某些网站的使用协议，使用时请确保遵守相关法律法规和网站使用协议。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/190977.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

东莞松山湖数据中心|莞服务器托管的优势

东莞松山湖数据中心|莞服务器托管的优势

东莞位于珠江三角洲经济圈，交通便利，与广州、深圳等大城市相邻，而且东莞是中国重要的制造业基地，有众多的制造业和科技企业集聚于此，随着互联网和数字化时代的到来，企业都向数字化转型，对于信息…

阅读更多...

Django中Cookie和Session的使用

Django中Cookie和Session的使用

目录一、Cookie的使用 1、什么是Cookie？ 2、Cookie的优点 3、Cookie的缺点 4、Django中Cookie的使用二、Session的使用 1、什么是Session？ 2、Session的优点 3、Session的缺点 4、Django中Session的使用三、Cookie和Session的对比总结 D…

阅读更多...

Vatee万腾科技决策力的引领创新：Vatee数字化视野的崭新天地

Vatee万腾科技决策力的引领创新：Vatee数字化视野的崭新天地

在数字时代的激烈竞争中，Vatee万腾以其科技决策力的引领，开创了数字化视野的崭新天地。这并不仅仅是一场技术的飞跃，更是一次对未来的深刻洞察和引领创新的勇敢实践。 Vatee万腾的科技决策力不仅仅停留在数据分析和算法的运用，更是…

阅读更多...

idea maven 构建本地jar包及pom文件

idea maven 构建本地jar包及pom文件

1、设置模块build 本地输出路径 <build><defaultGoal>compile</defaultGoal><resources><resource><directory>${basedir}/src/main/resources</directory><includes><include>**/**</include></includes>…

阅读更多...

OpenCV 实现透视变换

OpenCV 实现透视变换

一：OpenCV透视变换的概念仿射变换(affine transform)与透视变换(perspective transform)在图像还原、图像局部变化处理方面有重要意义。通常，在2D平面中，仿射变换的应用较多，而在3D平面中，透视变换又有了自己的一席之…

阅读更多...

ceph修复pg inconsistent（ scrub errors）

ceph修复pg inconsistent（ scrub errors）

异常情况 1、收到异常情况如下: OSD_SCRUB_ERRORS 12 scrub errors PG_DAMAGED Possible data damage: 1 pg inconsistentpg 6.d is activeremappedinconsistentbackfill_wait, acting [5,7,4]2、查看详细信息登录后复制 #ceph health detail HEALTH_ERR 12 scrub errors…

阅读更多...

数据结构与算法之美学习笔记：18 | 散列表（上）：Word文档中的单词拼写检查功能是如何实现的？

数据结构与算法之美学习笔记：18 | 散列表（上）：Word文档中的单词拼写检查功能是如何实现的？

目录前言散列思想散列函数散列冲突解答开篇前言本节课程思维导图： Word 的单词拼写检查功能，虽然很小但却非常实用。你有没有想过，这个功能是如何实现的呢？其实啊，一点儿都不难。只要你学完今天的内容，…

阅读更多...

OpenAtom OpenHarmony三方库创建发布及安全隐私检测

OpenAtom OpenHarmony三方库创建发布及安全隐私检测

OpenAtom OpenHarmony三方库（以下简称“三方库”或“包”），是经过验证可在OpenHarmony系统上可重复使用的软件组件，可帮助开发者快速开发OpenHarmony应用。三方库根据其开发语言分为2种，一种是使用JavaScript和TypeScr…

阅读更多...

Spark3.0中的AOE、DPP和Hint增强

Spark3.0中的AOE、DPP和Hint增强

1 Spark3.0 AQE Spark 在 3.0 版本推出了 AQE（Adaptive Query Execution），即自适应查询执行。AQE 是 Spark SQL 的一种动态优化机制，在运行时，每当 Shuffle Map 阶段执行完毕，AQE 都会结合这个阶段的统计信…

阅读更多...

如何在电脑和手机设备上编辑只读 PDF

如何在电脑和手机设备上编辑只读 PDF

我们大多数人更喜欢以 PDF 格式共享和查看文件，因为它更专业、更便携。但是，通常情况下您被拒绝访问除查看之外的内容编辑、复制或评论。如果您希望更好地控制您的 PDF 或更灵活地编辑它，请弄清楚为什么您的 PDF 是只读的，然后使用…

阅读更多...

flutter逆向 ACTF native app

flutter逆向 ACTF native app

前言算了一下好长时间没打过CTF了,前两天看到ACTF逆向有道flutter逆向题就过来玩玩啦,花了一个下午做完了.说来也巧,我给DASCTF十月赛出的逆向题其中一道也是flutter,不过那题我难度降的相当之低啦,不知道有多少人做出来了呢~ 还原函数名 flutter逆向的一大难点就是不知道l…

阅读更多...

RTOS实时操作系统在嵌入式开发中的应用

RTOS实时操作系统在嵌入式开发中的应用

随着各种嵌入式系统应用的日益复杂和对实时性要求的提高，使用实时操作系统（RTOS）成为嵌入式开发中的一种重要选择。STM32微控制器作为一种强大的嵌入式处理器，与各种RTOS相结合，能够提供更高效、可靠并且易于维护的系统…

阅读更多...

linux 安装 mini conda，linux下安装 Miniconda

linux 安装 mini conda，linux下安装 Miniconda

下载地址 https://docs.conda.io/projects/miniconda/en/latest/index.html 安装conda mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh bash ~/miniconda3/miniconda.sh -b -u -p ~/mini…

阅读更多...

数据结构-堆和二叉树

数据结构-堆和二叉树

目录 1.树的概念及结构 1.1 树的相关概念 1.2 树的概念 1.3 树的表示 1.4 树在实际中的应用（表示文件系统的目录树结构） 2.二叉树的概念及结构 2.1 概念 2.2 特殊的二叉树 2.3 二叉树的存储 3.堆的概念及结构 4.堆的实现初始化堆堆的插入…

阅读更多...

Android图形系统之X11、Weston、Wayland、Mesa3D、ANGLE、SwiftShader介绍(十五)

Android图形系统之X11、Weston、Wayland、Mesa3D、ANGLE、SwiftShader介绍(十五)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…

阅读更多...

APP备案获取安卓app证书公钥获取方法和签名MD5值

APP备案获取安卓app证书公钥获取方法和签名MD5值

前言在开发和发布安卓应用程序时，了解应用程序证书的公钥和签名MD5值是很重要的。这些信息对于应用程序的安全性和合规性至关重要。现在又因为今年开始APP必须接入备案才能在国内各大应用市场上架，所以获取这两个值成了所有开发者的必经之路。本文将介…

阅读更多...

PP-ChatOCRv2、PP-TSv2、大模型半监督学习工具...PaddleX新特性等你来pick!

PP-ChatOCRv2、PP-TSv2、大模型半监督学习工具...PaddleX新特性等你来pick!

小A是一名刚刚毕业的算法工程师，有一天，他被老板安排了一个活，要对一批合同扫描件进行自动化信息抽取，输出结构化的分析报表。OCR问题不大，但是怎么进行批量的结构化信息抽取呢？小A陷入了苦苦思索... 小B是…

阅读更多...

Python实现WOA智能鲸鱼优化算法优化BP神经网络回归模型(BP神经网络回归算法)项目实战

Python实现WOA智能鲸鱼优化算法优化BP神经网络回归模型(BP神经网络回归算法)项目实战

说明：这是一个机器学习实战项目（附带数据代码文档视频讲解），如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景鲸鱼优化算法 (whale optimization algorithm,WOA)是 2016 年由澳大利亚格里菲斯大学的Mirjalili 等提…

阅读更多...

Element-Ui el-table 动态添加行

Element-Ui el-table 动态添加行

一、在项目需要使用这个需求主要是在项目中需要用到 1.点击新增按钮，可以实现新增行。 2.在每个列里面可以进行输入。 3.可以删除新增的行，包括数据。二、HTML代码 1.主要是循环每一个列，而且这些列都是动态，根据父组件传过来…

阅读更多...

Kotlin之控制语句和表达式

Kotlin之控制语句和表达式

原文链接 Kotlin Controls and Expressions 有结果返回的是表达式，没有返回的称之为语句，语句最大的问题是它没有返回值，那么想要保存结果就必然会产生副作用，比如改变变量。很多时候这是不够方便的，并且在多线程条件…

阅读更多...

最新文章

推荐文章