Web 抓取是使用脚本从网站自动提取数据的过程。ChatGPT 能够为您生成网络抓取脚本代码。让我们看看这是如何工作的……
IMDb 是一个提供有关电影、电视节目和其他娱乐形式的信息的网站,包括评分最高的电影图表,该网站https://www.imdb.com/chart/top/?ref_=nv_mv_250显示 IMDb 上评分最高的 250 部电影的列表,包括它们的标题、演员、导演、和 IMDb 评级:
假设我们想使用网络抓取通过 Python 及其网络抓取库 BeautifulSoup 从该网站提取电影信息。也许 ChapGPT 能够帮助我们编写所需的代码。WINDOWS 10 或 11 中的计算器键盘快捷键让我们简单地要求 ChatGPT 通过输入以下请求来执行此任务:
Web scrape https://www.imdb.com/chart/top/?ref_=nv_mv_250 with Python and BeautifulSoup
然后 ChatGPT 以具体的实现步骤和相应的 Python 源代码作为响应,如下面的屏幕截图所示:
好的,这已经是一个很好的结果,可以帮助我们理解源代码是如何执行其任务的。然而,我们希望只在一个文件中实现,这样我们只需要复制和粘贴它。让我们再次请求 ChatGPT 在一个文件中提供 Python 网页抓取脚本:
Please provide the code in one file.
Great ChatGPT 马上回复完整的源代码:
在以下清单中,您可以看到由 ChatGPT 生成的完整 Python 代码:
import requests
from bs4 import BeautifulSoup
import pandas as pd# Retrieve the HTML content of the website
url = 'https://www.imdb.com/chart/top/?ref_=nv_mv_250'
response = requests.get(url)# Parse the HTML content
soup = BeautifulSoup(response.text, 'html.parser')# Find all movie elements
movies = soup.find_all('td', class_='titleColumn')# Extract the desired information
data = []
for movie in movies:title = movie.find('a').textyear = movie.find('span', class_='secondaryInfo').textdata.append({'title': title, 'year': year})# Create a dataframe and save it to a csv
df = pd.DataFrame(data)
df.to_csv('imdb_top_movies.csv', index=False)
让我们试试代码是否按预期工作。因此我们首先需要创建一个新文件:
$ mkdir chatgpt-web-scrape
$ cd chatgpt-web-scrape
$ touch webscrape.py
然后我们可以将代码复制并粘贴到 webscrape.py 中:
让我们通过在命令行中输入以下命令来启动 python 脚本:
$ python webscrape.py
该脚本正在运行,几秒钟后您会注意到已创建一个新文件 imdb_top_movies.cvs,其中包含提取的 CSV 格式的电影信息。
ChatGPT 已经生成了一个开箱即用的网络抓取脚本。无需手动调整代码。这是一个很好的结果。
在我们对 ChatGPT 的原始请求中,我们没有指定应从网站中提取哪些电影信息。ChatGPT 决定提取电影名称和出版年份。假设我们还想包括评级。在 ChatGPT 中输入以下内容:
Also retrieve the IMDb rating for each film
ChatGPT 为您提供了详细的说明和代码片段,用于更改现有代码以包含和提取评级信息:
我们现在可以再次请求 ChatGPT 将此更改合并到脚本中:
Please give me the full code in one with, with the try-except block
然后再次生成完整的 Python 脚本,包括从网站提取附加信息的更改:
结论
本教程的示例表明,ChatGPT 在生成用于网络抓取的脚本时非常有帮助。事实上,我们只需将简单的要求输入到 ChatGPT 中,结果我们收到了一个 Python 脚本,该脚本无需任何调整即可执行任务。这使网络抓取变得更加容易,并让您立即开始。