C#实战 - 使用 C# 编写简单的网页爬虫

作者:逍遥Sean
简介:一个主修Java的Web网站\游戏服务器后端开发者
主页:https://blog.csdn.net/Ureliable
觉得博主文章不错的话,可以三连支持一下~ 如有疑问和建议,请私信或评论留言!

前言
在本篇博文中,我们将介绍如何使用 C# 编写一个简单的网页爬虫,来获取指定网页的内容。我们将使用 .NET Core 环境,并依赖于 HtmlAgilityPack 库来解析 HTML。让我们逐步实现这个爬虫的过程。

使用 C# 编写简单的网页爬虫

        • 准备工作
        • 实现网页爬虫
        • 解释代码
        • 运行结果
        • 结论

准备工作
  1. 安装 HtmlAgilityPack 库

    HtmlAgilityPack 是一个流行的 HTML 解析库,用于处理 HTML 文档的结构和内容。您可以通过 NuGet 管理器或者命令行安装它:

    Install-Package HtmlAgilityPack
    
  2. 创建一个新的 .NET Core 项目

    打开 Visual Studio 或者使用命令行工具创建一个新的 .NET Core 控制台应用程序:

    dotnet new console -n SimpleWebCrawler
    cd SimpleWebCrawler
    
  3. 引用所需的命名空间

    在程序的顶部引入需要的命名空间:

    using HtmlAgilityPack;
    using System;
    using System.Net.Http;
    using System.Threading.Tasks;
    
实现网页爬虫

现在,让我们开始编写网页爬虫的代码。以下是一个简单的示例,演示如何获取指定网页的标题和所有的链接。

using HtmlAgilityPack;
using System;
using System.Net.Http;
using System.Threading.Tasks;class Program
{static async Task Main(string[] args){string url = "https://example.com"; // 设置要爬取的网页 URLvar httpClient = new HttpClient();var html = await httpClient.GetStringAsync(url);var htmlDocument = new HtmlDocument();htmlDocument.LoadHtml(html);// 获取网页标题var titleNode = htmlDocument.DocumentNode.SelectSingleNode("//title");string title = titleNode.InnerText.Trim();Console.WriteLine($"网页标题: {title}");// 获取所有链接var linkNodes = htmlDocument.DocumentNode.SelectNodes("//a[@href]");Console.WriteLine("\n所有链接:");foreach (var linkNode in linkNodes){string link = linkNode.Attributes["href"].Value;Console.WriteLine(link);}}
}
解释代码
  • HttpClient:用于发起 HTTP 请求并获取网页内容。
  • HtmlDocumentHtmlNode:来自 HtmlAgilityPack,用于解析和查询 HTML 文档的节点和内容。
  • Main 方法:程序的入口点,异步执行网页爬取操作。
  • url 变量:指定要爬取的网页地址。
运行结果

编译并运行程序,将会输出指定网页的标题和所有链接:

网页标题: Example Domain所有链接:
https://www.iana.org/domains/example
结论

通过这篇博文,我们学习了如何使用 C# 编写一个简单的网页爬虫,获取网页的标题和所有链接。这只是一个入门级的示例,您可以根据实际需求扩展功能,例如存储数据、处理异常或者实现更复杂的爬取逻辑。希望这篇文章能帮助您开始探索和应用 C# 中的网页爬虫技术!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/388179.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARCGIS PRO DSK GraphicsLayer创建文本要素

一、判断GraphicsLayer层【地块注记】是否存在,如果不存在则新建、如果存在则删除所有要素 Dim GraphicsLayer pmap.GetLayersAsFlattenedList().OfType(Of ArcGIS.Desktop.Mapping.GraphicsLayer).FirstOrDefault() 获取当前map对象中的GetLayer图层 Await Queue…

DataKit之OpenGauss数据迁移工具

# 在讲openGauss和datakit之前,我先说下pgloader这个工具也支持将数据从mysql同步到openGauss或者postgresql,但是 注意了,官网明确说明了不支持视图和触发器的迁移,如果你只是迁移表结构和数据,那么这个既简单又快下面…

使用Go的tls库搭建HTTPS服务

文章目录 tls.go 中文文档使用OpenSSL生成证书Win系统安装openssl生成证书 HTTP情况下的通信编写服务器代码编写客户端代码 tls.go 中文文档 https://studygolang.com/pkgdoc 使用OpenSSL生成证书 Win系统安装openssl 安装地址 https://slproweb.com/products/Win32OpenSSL.…

设计模式17-适配模式

设计模式17-适配模式 动机定义与结构C代码推导总结应用具体应用示例 动机 在软件系统中由于应用环境的变化常常需要将一些现存的对象。放到新的环境中去应用。但是新环境要求的接口是这些现存对象所不满足的。那么这种情况下如何应对这种迁移的变化?如何既能利用现…

计算机毕业设计选题推荐-戏曲文化体验系统-Java/Python项目实战

✨作者主页:IT毕设梦工厂✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

Python自动发送邮件如何设置邮件内容格式?

Python自动发送邮件时,如何自动化发送HTML格式邮件? Python是一种功能强大且灵活的编程语言,广泛用于各种自动化任务,其中包括自动发送邮件。AokSend将介绍在使用Python自动发送邮件时,如何设置邮件内容的格式&#x…

【系统架构设计师】二十二、嵌入式系统架构设计理论与实践②

目录 五、嵌入式中间件 5.1 嵌入式中间件定义 5.2 嵌入式中间件的分类 六、嵌入式系统软件架构设计方法 6.1 基于架构的软件设计开发方法的应用 6.2 属性驱动的软件设计方法 6.2.1 ADD 开发方法的质量属性与场景 6.2.2 ADD 开发过程 6.3 实时系统设计方法 6.3.1 DART…

索引:SpringCloudAlibaba分布式组件全部框架笔记

索引:SpringCloudAlibaba分布式组件全部框架笔记 一推荐一套分布式微服务的版本管理父工程pom模板:Springcloud、SpringCloudAlibaba、Springboot二SpringBoot、SpringCloud、SpringCloudAlibaba等各种组件的版本匹配图:三Spring Cloud Aliba…

【MySQL篇】Percona XtraBackup标准化全库完整备份策略(第三篇,总共五篇)

💫《博主介绍》:✨又是一天没白过,我是奈斯,DBA一名✨ 💫《擅长领域》:✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌️…

C++初学(8)

8.1、string类简介 现在可以用string类型的变量而不是字符数组来存储字符串,string类也用的会比数组简单,同时提供了将字符串作为一种数据类型的表示方式。 要使用string类,必须在程序中包含头文件string。string类位于名称空间std中&#…

2024年8月1日 十二生肖 今日运势

小运播报:2024年8月1日,星期四,农历六月廿七 (甲辰年辛未月丁酉日),法定工作日。今天建军节,祝保家卫国、英勇无畏的解放军战士们节日快乐! 红榜生肖:龙、牛、猪 需要注…

使用CLI脚手架搭建Vue2项目

一、配置前端的环境 1、下载安装Node.js 网址:Node.js 中文网 (nodejs.com.cn) 参考:【简明图文教程】Node.js的下载、安装、环境配置及测试_node下载安装-CSDN博客 推荐安装路径C盘改为D盘 2、配置nodejs及环境变量【安装的时候勾选Add to PATH就不…

GPT 和 BERT 系列论文阅读总结

文章目录 1. GPT1.1 GPT的目的和任务1.2 GPT的实现1.2.1 Unsupervised pre-training1.2.2 Supervised fine-tuning1.2.3 特定任务的输入格式 2. BERT2.1 BERT的目的和任务2.2 BERT的实现2.2.1 Masked Language Model2.2.2 Next Sentence Prediction (NSP) 3. GPT-23.1 初见 pro…

2-51 基于matlab的IFP_FCM(Improved fuzzy partitions-FCM)

基于matlab的IFP_FCM(Improved fuzzy partitions-FCM),改进型FCM(模糊C均值)聚类算法,解决了FCM算法对初始值设定较为敏感、训练速度慢、在迭代时容易陷入局部极小的问题。并附带了Box和Jenkins煤气炉数据模型辨识实例。程序已调通&#xff0…

基于单片机的电梯控制系统的设计

摘 要: 本文提出了一种基于单片机的电梯控制系统设计 。 设计以单片机为核心,通过使用和设计新型先进的硬件和控制程序来模拟和控制整个电梯的运行,在使用过程中具有成本低廉、 维护方便、 运行稳定 、 易于操作 、 安全系数高等优点 。 主要设计思路是…

RocketMQ消息发送基本示例(推送消费者)

消息生产者通过三种方式发送消息 1.同步发送:等待消息返回后再继续进行下面的操作 同步发送保证了消息的可靠性,适用于关键业务场景。 2.异步发送:不等待消息返回直接进入后续流程.broker将结果返回后调用callback函数,并使用 CountDownLatch计数 3.单向发送:只…

MySQL---JDBC

一、JDBC是什么? JDBC(Java Database Connectivity):是Java访问数据库的解决方案。 JDBC定义了一套标准的接口,即访问数据库的通用API,不同数据库的厂商根据各自数据库的特点实现这些接口。 JDBC希望用相同的方式访问不同的数据库&#xff0c…

cocos creator绘制网格背景(基于矢量绘图)

在2D游戏开发中,设计2D地图的背景实现通常有以下几种方式: 静态背景图: 最简单的方式是使用静态背景图,即将整个背景作为一个静态图像加载到游戏中。这种方式适用于简单的游戏或者背景不需要变化的场景。 平铺背景图:…

java~反射

反射 使用的前提条件:必须先得到代表的字节码的Class,Class类用于表示.class文件(字节码) 原理图 加载完类后,在堆中就产生了一个Class类型的对象(一个类只有一个Class对象),这个对…

湖南(市场调研公司)源点咨询 如何进行精准化用户画像细分研究

湖南源点咨询认为,用户画像,是根据用户的基本属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。我们在这里为大家分析为什么要建立用户画像,进行用户细分调研。 一、什么是用户画像 简单来讲,就是想要在通…