如何使用 ChatGPT 完全自动化网页抓取

Web 抓取是使用脚本从网站自动提取数据的过程。ChatGPT 能够为您生成网络抓取脚本代码。让我们看看这是如何工作的……

IMDb 是一个提供有关电影、电视节目和其他娱乐形式的信息的网站,包括评分最高的电影图表,该网站https://www.imdb.com/chart/top/?ref_=nv_mv_250显示 IMDb 上评分最高的 250 部电影的列表,包括它们的标题、演员、导演、和 IMDb 评级:

假设我们想使用网络抓取通过 Python 及其网络抓取库 BeautifulSoup 从该网站提取电影信息。也许 ChapGPT 能够帮助我们编写所需的代码。WINDOWS 10 或 11 中的计算器键盘快捷键让我们简单地要求 ChatGPT 通过输入以下请求来执行此任务:

Web scrape https://www.imdb.com/chart/top/?ref_=nv_mv_250 with Python and BeautifulSoup

然后 ChatGPT 以具体的实现步骤和相应的 Python 源代码作为响应,如下面的屏幕截图所示:

好的,这已经是一个很好的结果,可以帮助我们理解源代码是如何执行其任务的。然而,我们希望只在一个文件中实现,这样我们只需要复制和粘贴它。让我们再次请求 ChatGPT 在一个文件中提供 Python 网页抓取脚本:

Please provide the code in one file.

Great ChatGPT 马上回复完整的源代码:

在以下清单中,您可以看到由 ChatGPT 生成的完整 Python 代码:

import requests
from bs4 import BeautifulSoup
import pandas as pd# Retrieve the HTML content of the website
url = 'https://www.imdb.com/chart/top/?ref_=nv_mv_250'
response = requests.get(url)# Parse the HTML content
soup = BeautifulSoup(response.text, 'html.parser')# Find all movie elements
movies = soup.find_all('td', class_='titleColumn')# Extract the desired information
data = []
for movie in movies:title = movie.find('a').textyear = movie.find('span', class_='secondaryInfo').textdata.append({'title': title, 'year': year})# Create a dataframe and save it to a csv
df = pd.DataFrame(data)
df.to_csv('imdb_top_movies.csv', index=False)

让我们试试代码是否按预期工作。因此我们首先需要创建一个新文件:

$ mkdir chatgpt-web-scrape
$ cd chatgpt-web-scrape
$ touch webscrape.py

然后我们可以将代码复制并粘贴到 webscrape.py 中:

让我们通过在命令行中输入以下命令来启动 python 脚本:

$ python webscrape.py

该脚本正在运行,几秒钟后您会注意到已创建一个新文件 imdb_top_movies.cvs,其中包含提取的 CSV 格式的电影信息。

ChatGPT 已经生成了一个开箱即用的网络抓取脚本。无需手动调整代码。这是一个很好的结果。

在我们对 ChatGPT 的原始请求中,我们没有指定应从网站中提取哪些电影信息。ChatGPT 决定提取电影名称和出版年份。假设我们还想包括评级。在 ChatGPT 中输入以下内容:

Also retrieve the IMDb rating for each film

ChatGPT 为您提供了详细的说明和代码片段,用于更改现有代码以包含和提取评级信息:

我们现在可以再次请求 ChatGPT 将此更改合并到脚本中:

Please give me the full code in one with, with the try-except block

然后再次生成完整的 Python 脚本,包括从网站提取附加信息的更改:

结论

本教程的示例表明,ChatGPT 在生成用于网络抓取的脚本时非常有帮助。事实上,我们只需将简单的要求输入到 ChatGPT 中,结果我们收到了一个 Python 脚本,该脚本无需任何调整即可执行任务。这使网络抓取变得更加容易,并让您立即开始。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1394.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费快速部署ChatGPT线上聊天网页:ChatGPT API + Github + Railway

1、使用工具 (1)需要自己生成的openai api,获取API的网站:openAI API 获取方式:OpenAI的API key获取方法 (2)本次使用该参考项目进行部署:chatweb 需要将该项目fork到自己的仓库里 …

ChatGPT网页版(基于SpringBoot和Vue)

目录 1.使用说明1.1 登录1.2 获取OpenAI KEY或User Token1.3 创建对话1.4 删除会话 1.使用说明 1.1 登录 登录http://chatgpt.alpacos.cn/ 1.2 获取OpenAI KEY或User Token 如果自己有OpenAI的token(sk-xxxx)的话,可以直接输入,点击右上角绑定按钮&am…

基于Vercel自建ChatGPT网页应用

因为平时我们在使用ChatGPT官方提供的网页应用的时候,总是经常访问不了,或者经常报错,越来越频繁,一旦你离开页面太久,再返回跟它对话的时候,就会出现如下报错等等。 An error occurred. If this issue per…

ChatGPT-Next-Web: 一键轻松拥有自己专属的 ChatGPT 网页服务

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! ​ 今天给大家推荐一个非常好用的开源项目:ChatGPT-Next-Web。 这个开源项目可以做到一键免费部署你的私人 ChatGPT 网页应用。如果部署Vercel,Vercel可以绑…

ChatGPT实现HTML网页文本提取

网页自动化工具 既然ChatGPT对于编程语言有非常强大的理解能力,那么它是否可以用来自动化地处理网页呢?答案是肯定的。ChatGPT可以使用机器学习算法来识别网页元素中的文本,并抽取出有用的信息。 例如我们提供一段层数比较多的相对来说较为…

【ChatGPT实战】5.使用ChatGPT自动化操作网页

在当今数字化的时代,网页已经成为了人们获取信息、娱乐、社交和购物等方面的主要途径。然而,随着我们对网页的需求和使用不断增加,我们也经常会面临着一些繁琐的网页操作,例如自动填充表单、自动化浏览和搜索等,这些操…

【chatGPT】API 即将来临,GPT-3 不等同于chatGPT,chatGPT收费了?

今天的人工智能系统具有令人印象深刻但范围有限的能力。 似乎我们会不断削弱它们的限制,在极端情况下,它们几乎可以在每一项智力任务上达到人类的水平。 很难想象人类水平的人工智能能给社会带来多大的好处,同样也很难想象如果构建或使用不当…

chatgpt3.5实时插件

打开chrome的应用商店搜索webchatgpt 添加webchatgpt扩展插件打开chatgpt打开web开关

ChatGPT所有插件详细教程

​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) 官方插件 ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) 插件名称:KeyMate.AISearch 描述:使用自定义搜索引擎进行…

技巧|使用Chatgpt练习多种类型口语

练雅思口语——其实练什么语言、什么形式的口语都可以。 ChatGPT作为一款聊天机器人,自然可以用于对练口语——只要你的输入和它的输出都变换为语音的形式即可。 一、语音插件 首先,谷歌搜索voice control for chatgpt,点击第一个chrome……

chatgpt赋能Python-python3_9怎么安装

Python 3.9:安装指南 如果你正在学习编程或者已经是一名程序员,那么一定会了解到Python这个编程语言。Python是一种高级编程语言,其强大的设计特点和易于操作的特性使其成为了开发人员的首选。Python 3.9已经发布了,它虽然不是Py…

Windows 10使用WSL部署Chatgpt_academic

目录 一、在windows10中安装Ubuntu系统 二、在Ubuntu系统中安装anaconda3和GPT_Academic 本文主要介绍windows10使用WSL安装Ubuntu系统,然后通过安装anaconda3来部署chatgpt学术版的整个过程。Chatgpt学术版用来做论文润色等任务还是挺不错的,但是是否…

安装油猴插件解决chatgpt报错问题

转载自Github Daily公众号 Something went wrong. If this issue persists please contact usthrough our help center at help. openai.com. 最近几天,相信大家都发现了 ChatGPT 一个问题,就是官网报错越来越频繁了。 当你需用 ChatGPT 来处理一些比较…

「部署全流程」 中科院学术专业版chatGPT来啦

前言 上周末的时候,一位开发者将名为「ChatGPT Academic」的项目开源至 GitHub。 仅用了短短一两天,该项目 Star 数便增长到了 21k,成为 GitHub 上又一个基于 ChatGPT 构建的热门开源项目。 这个项目就是《中科院学术专业版 ChatGPT》。 …

chatgpt academic3.37安装教程(haust)

作者邮箱:634494816qq.com chatgpt academic能干啥?具体用法看官网 使用chatgpt academic前置条件: ①需xx上网 ②有key(chatgpt官网注册账户即可免费获得)(注册教程在这,注意:无需付费&…

ChatGPT搭建语音智能助手

环境 python:3 ffmpeg:用于处理视频和语音 gradio:UI界面和读取语音 概述 我们的目的是做一个语音智能助手 下面我们开始 准备工作 下载Visual Studio Code Visual Studio Code 因为需要写python代码,用Visual Studio Code比较方便。 安装pytho…

【利用ChatGPT学习英语口语(包括如何安装插件的详细教程)】

内容目录 一、插入ChatGPT语音播放插件1. 打开谷歌浏览器——右上角三点——更多工具——扩展程序2. 点击扩展程序三个横杠——打开chrome 应用商店3. 搜索Voice Control for ChatGPT——点击如下图第一个——添加至Chrome——添加扩展程序4. 成功安装,打开ChatGPT有…

chatgpt小程序安装指引

chatgpt小程序安装指引 JAVA 创建数据库,名字随意,数据库编码为utf8mb4 导入sql文件,在renren-api/db目录下面 第一次导入数据的先执行chatgpt.sql文件,在根据日期先后顺序执行 已导入过的同志,根据更新已经更新日期来导入 后台管理默认账号密码为admin 修改application-de…

关于chatGPT专栏

这边已经受到了限制,关于gpt的内容文章已经被下架了众多 所以我关于gpt的文章只能在微信公众号里面查看, 还有许多新的文章是在此平台没有发过的,所以想了解关于chatgpt的文章,可以关注我文章下面的公众号。

ChatGPT初步了解

ChatGPT 是 InstructGPT 的同级模型,它经过训练可以按照提示中的说明进行操作并提供详细的响应。 InstructGPT论文:https://arxiv.org/pdf/2203.02155.pdf InstructGPT怎么准备和标记数据集:https://harryliu.blog.csdn.net/article/detail…