Swift使用Embassy库进行数据采集:热点新闻自动生成器

亿牛云.png

概述

爬虫程序是一种可以自动从网页上抓取数据的软件。爬虫程序可以用于各种目的,例如搜索引擎、数据分析、内容聚合等。本文将介绍如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。

正文

Swift语言和Embassy库

Swift是一种现代的、高性能的、安全的、表达力强的编程语言,主要用于开发iOS、macOS、watchOS和tvOS等平台的应用。Swift也可以用于开发服务器端和命令行工具等应用。Swift支持多种编程范式,例如面向对象、函数式、协议导向等。Swift还提供了强大的错误处理机制,可以让开发者更容易地处理异常情况。

Embassy是一个基于Swift NIO的网络库,可以让开发者轻松地创建异步的网络应用。Embassy提供了一个事件循环,可以在单线程中处理多个网络请求和响应。Embassy还提供了一个HTTP客户端,可以发送HTTP请求并接收HTTP响应。Embassy还支持HTTPS、WebSocket、HTTP/2等协议。

爬虫程序的设计和实现

本文将使用Swift语言和Embassy库编写一个爬虫程序,该程序可以从新浪新闻网站上采集热点信息,并生成一个简单的新闻摘要。该程序的设计和实现如下:

  • 首先,创建一个事件循环,用于处理网络请求和响应。
  • 然后,创建一个HTTP客户端,用于发送HTTP请求并接收HTTP响应。
  • 接着,使用爬虫代理,通过代理IP池用于随机选择代理IP地址,以避免被目标网站屏蔽。
  • 然后,创建一个URL队列,用于存储待抓取的URL地址。
  • 接着,创建一个解析器,用于解析HTML文档,并提取出新闻标题、链接、时间和内容等信息。
  • 然后,创建一个生成器,用于根据新闻内容生成一个简单的新闻摘要。
  • 最后,创建一个主函数,用于启动事件循环,并从URL队列中取出URL地址,发送HTTP请求,并处理HTTP响应。

以下是该程序的代码实现(加上中文注释):

// 导入Embassy库
import Embassy// 创建一个事件循环
let loop = try SelectorEventLoop(selector: try KqueueSelector())// 创建一个HTTP客户端
let httpClient = DefaultHTTPClient(eventLoop: loop)// 创建一个URL队列
let urlQueue = ["https://news.sina.com.cn/",// ...
]// 创建一个解析器
func parse(html: String) -> (title: String, link: String, time: String, content: String)? {// 使用正则表达式或其他方法解析HTML文档,并提取出新闻标题、链接、时间和内容等信息// 如果解析成功,返回一个元组;如果解析失败,返回nil// 这里只是一个示例,实际的解析方法可能需要更复杂的逻辑let pattern = "<h1><a href=\"(.*?)\".*?>(.*?)</a></h1>.*?<span class=\"time\">(.*?)</span>.*?<p class=\"content\">(.*?)</p>"let regex = try? NSRegularExpression(pattern: pattern, options: [])if let match = regex?.firstMatch(in: html, options: [], range: NSRange(location: 0, length: html.count)) {let link = (html as NSString).substring(with: match.range(at: 1))let title = (html as NSString).substring(with: match.range(at: 2))let time = (html as NSString).substring(with: match.range(at: 3))let content = (html as NSString).substring(with: match.range(at: 4))return (title, link, time, content)} else {return nil}
}// 创建一个生成器
func generate(content: String) -> String {// 使用自然语言处理或其他方法根据新闻内容生成一个简单的新闻摘要// 这里只是一个示例,实际的生成方法可能需要更复杂的逻辑// 这里使用了一个简单的规则:取出新闻内容中的前三句话作为新闻摘要let sentences = content.components(separatedBy: ".")if sentences.count >= 3 {return sentences[0...2].joined(separator: ".") + "."} else {return content}
}// 创建一个主函数
func main() {// 启动事件循环loop.runForever { error inprint(error)}// 从URL队列中取出URL地址for url in urlQueue {// 使用代理IP池(参考 亿牛云 爬虫代理的域名、端口、用户名、密码,需要到官网注册并免费获取)let proxy = "http://16YUN:16IP@www.16yun.cn:7102"// 发送HTTP请求,并处理HTTP响应httpClient.request(method: "GET",url: url,headers: ["User-Agent": "Mozilla/5.0"],proxyURLString: proxy,body: nil) { response, error inif let error = error {print(error)} else if let response = response {print("Status code:", response.statusCode)print("Headers:", response.headers)var data = Data()response.body.drain { chunk, error inif let chunk = chunk {data.append(chunk)} else if let error = error {print(error)} else {// 将数据转换为字符串if let html = String(data: data, encoding: .utf8) {// 调用解析器,解析HTML文档,并提取出新闻信息if let news = parse(html: html) {print("Title:", news.title)print("Link:", news.link)print("Time:", news.time)print("Content:", news.content)// 调用生成器,根据新闻内容生成一个简单的新闻摘要let summary = generate(content: news.content)print("Summary:", summary)} else {print("Failed to parse HTML")}} else {print("Failed to convert data to string")}}}} else {print("No response")}}}
}// 调用主函数
main()

结语

本文介绍了如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。本文还提供了该程序的代码实现,并加上了中文注释。如果你对爬虫技术感兴趣,可以继续深入学习和探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/163642.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis的五大基础数据类型

String 字符串类型&#xff0c;通过set关键字和get关键字来设置字符串键值对和获取字符串键值对。 hash 哈希类型&#xff0c;结构和Map<String,Map<String,stirng>>类似。 使用hset来设置哈希&#xff0c;使用hget来获取哈希&#xff0c;hget要精确到第二个key…

苍穹外卖(八) 使用WebSocket协议完成来单提醒及客户催单功能

WebSocket介绍 WebSocket 是基于 TCP 的一种新的网络协议。它实现了浏览器与服务器全双工通信(双向传输)——浏览器和服务器只需要完成一次握手&#xff0c;两者之间就可以创建持久性的连接&#xff0c; 并进行双向数据传输。 HTTP协议和WebSocket协议对比&#xff1a; HTTP…

2022年下半年 软件设计师 上午试卷(前21题)

以下关于RISC&#xff08;精简指令集计算机&#xff09;特点的叙述中&#xff0c;错误的是 &#xff08;1&#xff09; 。 &#xff08;1&#xff09; A. 对存储器操作进行限制&#xff0c;使控制简单化 B. 指令种类多&#xff0c;指令功能强 C. 设置大量通用寄存器 D. 选…

【算法|动态规划No.23】leetcode376. 摆动序列

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【LeetCode】 &#x1f354;本专栏旨在提高自己算法能力的同时&#xff0c;记录一下自己的学习过程&#xff0c;希望…

【C#】【winform】Microsoft Visual Studio Installer Project 打包应用程序全部过程

提示&#xff1a;只针对扩展包来完成打包的工作过程。 文章目录 前言一、Microsoft Visual Studio Installer Project 是什么&#xff1f;二、安装1.安装Microsoft Visual Studio Installer Project 三、安开始打包1.添加setup1.在解决方案上面右键&#xff0c;添加-新建项目2.…

H5+Vue3编写官网,并打包发布到同一个域名下

背景 因为html5有利于搜索引擎抓取和收录我们网站更多的内容&#xff0c;对SEO很友好&#xff0c;可以为网站带来更多的流量,并且多端适配&#xff0c;兼容性和性能都非常不错&#xff0c;所以使用h5来编写官网首页。 因为用户个人中心可以通过官网跳转&#xff0c;不需要被浏…

双目视觉实战--单视图测量方法

目录 一.简介 二、2D变换 1. 等距变换&#xff08;欧式变换&#xff09; 2. 相似变换 3. 仿射变换 4. 射影变换&#xff08;透视变换&#xff09; 5. 结论 三、影消点与影消线 1. 平面上的线 2. 直线的交点 3. 2D无穷远点 4. 无穷远直线 5. 无穷远点的透视变换与仿…

【01】LVGL-CodeBlock模拟器安装 | LVGL工程下载 | PC端模拟LVGL步骤

LVGL模拟器 1.LVGL模拟器介绍2.Windows环境搭建CodeBlock及获取LVGL工程3.PC端模拟LVGL4.总结 1.LVGL模拟器介绍 LVGL模拟器&#xff1a;使用PC端软件模拟LVGL运行&#xff0c;而不需要任何嵌入式硬件。优点&#xff1a;便于学习、跨平台协同开发 2.Windows环境搭建CodeBlock及…

【Python、Qt】使用QItemDelegate实现单元格的富文本显示+复选框功能

[2023-10-19]代码已更新&#xff0c;完善了单元格宽度不足时省略号的显示问题。 [2023-10-18]代码已更新&#xff0c;追加单元格的文本对齐功能(使用成员函数QStandardItem.setTextAlignment设置单元格的Align。 主打一个 折磨 坑多 陪伴。代码为Python&#xff0c;C的就自己逐…

Python万圣节蝙蝠

目录 系列文章 前言 蝙蝠 程序设计 程序分析 运行结果 尾声 系列文章 序号文章目录直达链接1浪漫520表白代码https://want595.blog.csdn.net/article/details/1306668812满屏表白代码https://want595.blog.csdn.net/article/details/1297945183跳动的爱心https://want5…

云务器迁移(腾讯云>华为云)

自己平时除了写些bug外还喜欢玩玩服务器&#xff0c;这不前几年买了一个域名&#xff0c;当时服务器买的是阿里云的&#xff0c;想着域名备案挺麻烦的就一直用着&#xff0c;只是在服务器到期后会重新购买其他运营商的&#xff08;关键是续不起&#x1f92b;&#xff09; 这不最…

C/C++ 快速入门

参考&#xff1a;https://blog.csdn.net/gao_zhennan/article/details/128769439 1 下载Visual Studio Code并安装中文插件&#xff0c;此处不再叙述 2 插件安装C/C插件 3 使用快捷键【Ctr ~】打打开终端 验证并未安装编译器 4 我们即将使用【MinGW-64】做为编译器 https:…

程序环境和预处理

导言&#xff1a; 在编写代码的过程中&#xff0c;我们一般都是在一些图形化软件的编译器中实现&#xff0c;编译器帮我们实现了很多操作&#xff0c;这里就一些简单的过程进行说明。本文主要阐述了c语言程序的编译链接以及一些预处理知识&#xff0c;和宏定义的使用。 目录 …

IDEA提高工作效率的实用技巧

IDEA是一款备受开发者喜爱的集成开发环境&#xff0c;它提供了许多实用的功能&#xff0c;可以帮助我们更快速、更高效地编写代码。本文将介绍一些IDEA的使用技巧提高工作效率的实用技巧。 验证正则表达式 要验证编写的正则表达式是否正确&#xff0c;只需将光标放在要检查的…

MongoDB 未授权访问漏洞

简介 MongoDB是一个基于分布式文件存储的数据库&#xff0c;是一个介于关系数据库和非关系数据库之间的产品&#xff0c;它的特点是高性能、易部署、易使用&#xff0c;存储数据非常方便&#xff0c;默认情况下是没有认证的这就导致不熟悉它的研发人员部署后没有做访问控制导致…

C++项目实战——基于多设计模式下的同步异步日志系统-⑩-异步缓冲区类与异步工作器类设计

文章目录 专栏导读异步缓冲区设计思想异步缓冲区类设计异步工作器类设计异步日志器设计异步缓冲区类整理异步工作器类整理 专栏导读 &#x1f338;作者简介&#xff1a;花想云 &#xff0c;在读本科生一枚&#xff0c;C/C领域新星创作者&#xff0c;新星计划导师&#xff0c;阿…

LeetCode算法栈—有效的括号

目录 有效的括号 用到的数据结构&#xff1a; 位运算、Map 和 Stack Stack 常用的函数&#xff1a; 题解&#xff1a; 代码&#xff1a; 运行结果; 给定一个只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判断字符…

模拟IIC通讯协议(stm32)(硬件iic后面在补)

一、IIC基础知识总结。 1、IIC通讯需要两条线就可以&#xff0c;SCL、SDA。 2、IIC的数据传输的速率&#xff0c;不同的ic是不同的&#xff0c;根据电平维持的延时函数的时间来确定IIC数据传输的速率. 3、IIC的延时函数可以使用延时函数&#xff0c;延时函数一般使用系统滴答时…

20款VS Code实用插件推荐

前言&#xff1a; VS Code是一个轻量级但功能强大的源代码编辑器&#xff0c;轻量级指的是下载下来的VS Code其实就是一个简单的编辑器&#xff0c;强大指的是支持多种语言的环境插件拓展&#xff0c;也正是因为这种支持插件式安装环境开发让VS Code成为了开发语言工具中的霸主…

Fast DDS之Subscriber

目录 SubscriberSubscriberQosSubscriberListener创建Subscriber DataReaderSampleInfo读取数据 Subscriber扮演容器的角色&#xff0c;里面可以有很多DataReaders&#xff0c;它们使用Subscriber的同一份SubscriberQos配置。Subscriber可以承载不同Topic和数据类型的DataReade…