ScrapeGraphAI 大模型增强的网络爬虫

在数据驱动的动态领域,从在线资源中提取有价值的见解至关重要。从市场分析到学术研究,对特定数据的需求推动了对强大的网络抓取工具的需求。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 

传统上,像 BeautifulSoup 和 Scrapy 这样的 Python 库一直是首选解决方案,需要用户利用编程专业知识来浏览复杂的网络结构。例如这个BeautifulSoup的示例:

# BeautifulSoup Example
from bs4 import BeautifulSoup
import requestsurl = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title)

或这个Scrapy的示例:

# Scrapy Example
import scrapyclass ExampleSpider(scrapy.Spider):name = 'example'start_urls = ['https://example.com']def parse(self, response):title = response.css('title::text').get()print(title)

1、ScrapeGraphAI 简介

ScrapeGraphAI 是一款开创性的 Python 库,可重塑网络抓取格局。这款创新工具利用大型语言模型 (LLM) 和直接图形逻辑的强大功能来简化数据收集。与前代产品不同,ScrapeGraphAI 使用户能够表达他们的数据需求,从而消除网络抓取的复杂性。

%%capture
!apt install chromium-chromedriver
!pip install nest_asyncio
!pip install scrapegraphai
!playwright install# if you plan on using text_to_speech and GPT4-Vision models be sure to use the
# correct APIKEY
OPENAI_API_KEY = "YOUR API KEY"
GOOGLE_API_KEY = "YOUR API KEY"from scrapegraphai.graphs import SmartScraperGraphgraph_config = {"llm": {"api_key": OPENAI_API_KEY,"model": "gpt-3.5-turbo",},
}smart_scraper_graph = SmartScraperGraph(prompt="List me all the projects with their descriptions.",# also accepts a string with the already downloaded HTML codesource="https://perinim.github.io/projects/",config=graph_config
)result = smart_scraper_graph.run()
import jsonoutput = json.dumps(result, indent=2)line_list = output.split("\n")  # Sort of line replacing "\n" with a new linefor line in line_list:print(line)

2、SpeechGraph

SpeechGraph 是一个类,代表默认抓取管道之一,可生成答案和音频文件。与 SmartScraperGraph 类似,但添加了 TextToSpeechNode 节点。

from scrapegraphai.graphs import SpeechGraph# Define the configuration for the graph
graph_config = {"llm": {"api_key": OPENAI_API_KEY,"model": "gpt-3.5-turbo",},"tts_model": {"api_key": OPENAI_API_KEY,"model": "tts-1","voice": "alloy"},"output_path": "website_summary.mp3",
}# Create the SpeechGraph instance
speech_graph = SpeechGraph(prompt="Create a summary of the website",source="https://perinim.github.io/projects/",config=graph_config,
)result = speech_graph.run()
answer = result.get("answer", "No answer found")
import jsonoutput = json.dumps(answer, indent=2)line_list = output.split("\n")  # Sort of line replacing "\n" with a new linefor line in line_list:print(line)
from IPython.display import Audio
wn = Audio("website_summary.mp3", autoplay=True)
display(wn)

3、GraphBuilder(实验性)

GraphBuilder 根据用户提示从头开始创建抓取管道。它返回包含节点和边的图形。

GraphBuilder 是一个实验性类,可帮助您根据提示创建自定义图形。它创建一个包含标识图形的基本元素的 json,并允许您使用 graphviz 对其进行可视化。它知道库默认提供的节点类型,并将它们连接起来以帮助您实现目标。

from scrapegraphai.builders import GraphBuilder# Define the configuration for the graph
graph_config = {"llm": {"api_key": OPENAI_API_KEY,"model": "gpt-3.5-turbo",},
}# Example usage of GraphBuilder
graph_builder = GraphBuilder(user_prompt="Extract the news and generate a text summary with a voiceover.",config=graph_config
)graph_json = graph_builder.build_graph()# Convert the resulting JSON to Graphviz format
graphviz_graph = graph_builder.convert_json_to_graphviz(graph_json)# Save the graph to a file and open it in the default viewer
graphviz_graph.render('ScrapeGraphAI_generated_graph', view=True)
graph_json
graphviz_graph

4、ScrapeGraphAI 的工作原理

ScrapeGraphAI 通过解释用户查询并智能地导航 Web 内容以获取所需信息来运行。利用 LLM,它可以自主构建抓取管道,最大限度地减少用户干预。这种方法不仅提高了效率,还降低了进入门槛,使用户能够专注于数据分析而不是技术复杂性。

ScrapeGraphAI 能够自动执行复杂的抓取任务,同时确保高精度,是各行各业专业人士的游戏规则改变者。无论是监控竞争对手还是进行学术研究,此工具都使用户能够有效地利用网络数据。随着数字格局的不断发展,ScrapeGraphAI 成为推动数据驱动决策向前发展的不可或缺的盟友。

5、结束语

在以数据为中心的世界中,高效数据提取的重要性怎么强调也不为过。

ScrapeGraphAI 代表了网络抓取的范式转变,提供了一种由尖端技术支持的用户友好方法。当企业和研究人员力争在竞争环境中保持领先地位时,采用 这样的工具对于获得可行的见解和做出明智的决策至关重要。


原文链接:ScrapeGraphAI LLM爬虫 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/438465.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑出现msvcp140.dll丢失的解决方法,总结6种解决方法

在计算机使用过程中,我们常常会遇到一些错误提示,其中最常见的就是“msvcp140.dll丢失”的错误。这个错误提示通常出现在运行某个程序时,它意味着计算机无法找到所需的msvcp140.dll文件。那么,msvcp140.dll丢失是怎么回事呢&#…

69 BERT预训练_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录NLP里的迁移学习Bert的动机Bert架构对输入的修改五、预训练任务1、2、3、 六、1、2、3、 七、1、2、3、 八、1、2、3、 NLP里的迁移学习 之前是使用预训练好的模型来抽取词、句子的特征,例如 word2vec 或语言模型这种非深度学习…

银河麒麟V10如何关闭定期锁屏功能?

银河麒麟V10如何关闭定期锁屏功能? 1. 打开终端2. 执行命令3. 验证设置 💖The Begin💖点点关注,收藏不迷路💖 在银河麒麟高级服务器操作系统V10中,关闭定期锁屏功能很简单。使用场景:比如,当你…

大模型~合集6

我自己的原文哦~ https://blog.51cto.com/whaosoft/11566566 # 深度模型融合(LLM/基础模型/联邦学习/微调等) 23年9月国防科大、京东和北理工的论文“Deep Model Fusion: A Survey”。 深度模型融合/合并是一种新兴技术,它将多个深度学习模…

.NET CORE程序发布IIS后报错误 500.19

发布IIS后浏览时报错误500.19,同时配置文件web.config的路径中也存在问号“?”。 可能原因:没有安装运行时

CMU 10423 Generative AI:lec14(Vision Language Model:CLIP、VQ-VAE)

文章目录 1 概述2 CLIP (Used in GPT-V)3 VQ-VAE (Used in Gemini)**VQ-VAE 详细笔记****VQ-VAE 的模块组成与数据流** **1. 输入数据****2. 编码器(Encoder)****2.1 编码器的作用****2.2 数据流与维度变化****2.3 编码器输出** **3. 量化器(…

手机使用指南:如何在没有备份的情况下从 Android 设备恢复已删除的联系人

在本指南中,您将了解如何从 Android 手机内存中恢复已删除的联系人。Android 诞生、见证并征服了 80% 的智能手机行业。有些人可能将此称为“非常大胆的宣言”,但最近的统计数据完全支持我们的说法。灵活性、高度改进的可用性和快速性是 Android 操作系统…

Qt QWidget控件

目录 一、概述 二、Qwidget常用属性及函数介绍 2.1 enable 2.2 geometry 2.3 windowTitle 2.4 windowIcon 2.5 cursor 2.6 font 设置字体样式 2.7 toolTip 2.8 focusPolicy焦点策略 2.9 styleSheet 一、概述 widget翻译而来就是小控件,小部件。…

10.3作业

基于TCP的快查云词典 仿照有道云词典功能,实现一个自己的云词典功能,可以查询单词和发音。 服务器描述:服务器启动后,等待客户端连接,完成以下操作: 1.创建用户表、单词表、历史表 2.注册:接…

C++模拟实现vector容器【万字模拟✨】

更多精彩内容..... 🎉❤️播主の主页✨😘 Stark、-CSDN博客 本文所在专栏: 学习专栏C语言_Stark、的博客-CSDN博客 项目实战C系列_Stark、的博客-CSDN博客 数据结构与算法_Stark、的博客-CSDN博客 座右铭:梦想是一盏明灯&#xff…

mysql-索引笔记

索引 1、什么是索引 索引是对数据库中数据的一种结构化表示。它像一本书的目录,能够快速定位信息,而无需逐行扫描所有数据。 索引的出现其实就是为了提高数据查询的效率,就像书的目录一样。 2、索引的常见模型 2.1.哈希表 用一个哈希函…

828华为云征文|华为云 Flexus X 实例初体验

一直想有自己的一款的服务器,为了更好的进行家庭娱乐,甚至偶尔可以满足个人搭建开发环境的需求,直到接触到了华为云 Flexus X 云服务器。Flexus 云服务器 X 实例是面向中小企业和开发者打造的轻量级云服务器。提供快速应用部署和简易的管理能…

每日论文5—06TCAS2锁相环电流匹配的gain-boosting电荷泵

《Gain-Boosting Charge Pump for Current Matching in Phase-Locked Loop》 06TCAS2 本质上和cascode来增加输出电阻,从而减小电流变化的思路是一样的。这里用了放大器来增加输出电阻。具体做法如下图: 如图1(a),A3把Vb和Vx拉平&#xff0…

vscode安装及c++配置编译

1、VScode下载 VS Code官网下载地址:Visual Studio Code - Code Editing. Redefined。 2、安装中文插件 搜索chinese,点击install下载安装中文插件。 3、VS Code配置C/C开发环境 3.1、MinGW-w64下载 VS Code是一个高级的编辑器,只能用来写代…

基础算法--枚举

枚举算法是一种简单而有效的算法,它通过枚举所有可能的情况来解决问题。它通常用于解决问题规模比较小的问题,因为它的时间复杂度很高,随着问题的规模增加,算法的效率会急剧下降。 枚举算法的基本思路是通过循环遍历所有可能的情…

Rust和Go谁会更胜一筹

在国内,我认为Go语言会成为未来的主流,因为国内程序员号称码农,比较适合搬砖,而Rust对心智要求太高了,不适合搬砖。 就个人经验来看,Go语言简单,下限低,没有什么心智成本&#xff0c…

使用MTVerseXR SDK实现VR串流

1、概述​ MTVerseXR SDK 是摩尔线程GPU加速的虚拟现实(VR)流媒体平台,专门用于从远程服务器流式传输基于标准OpenXR的应用程序。MTVerseXR可以通过Wi-Fi和USB流式将VR内容从Windows服务器流式传输到XR客户端设备, 使相对性能低的VR客户端可…

【CSS in Depth 2 精译_043】6.5 CSS 中的粘性定位技术 + 本章小结

当前内容所在位置(可进入专栏查看其他译好的章节内容) 第一章 层叠、优先级与继承(已完结)第二章 相对单位(已完结)第三章 文档流与盒模型(已完结)第四章 Flexbox 布局(已…

【2022工业3D异常检测文献】AST: 基于归一化流的双射性产生不对称学生-教师异常检测方法

Asymmetric Student-Teacher Networks for Industrial Anomaly Detection 1、Background 所谓的学生-教师网络,首先,对教师进行训练,以学习语义嵌入的辅助性训练任务;其次,训练学生以匹配教师的输出。主要目的是让学生…

SpringBoot日志打印实践

背景 在项目当中,我们经常需要打印一些日志埋点信息,这些日志埋点信息,在后续软件的运维、稳定性建设中发挥了巨大的作用: 问题追踪:通过埋点日志中的关键信息,帮助定位系统异常原因系统监控:…