GPT-Crawler一键爬虫构建GPTs知识库

GPT-Crawler一键爬虫构建GPTs知识库

news/2025/1/11 7:41:30/文章来源:https://blog.csdn.net/wtyuong/article/details/134819013

GPT-Crawler一键爬虫构建GPTs知识库

写在最前面
安装node.js
安装GPT-Crawler
启动爬虫
结合 OpenAI
- 自定义 assistant
- 自定义 GPTs（笔者用的这个）
总结

写在最前面

GPT-Crawler一键爬虫构建GPTs知识库
能够爬取网站数据，构建GPTs的知识库，项目依赖node.js环境，接下来我们按步骤来安装，非常简单

参考：https://zhuanlan.zhihu.com/p/668700619

在信息爆炸的时代，数据成为了新的石油。但是，如何有效地从这无穷无尽的网络信息中提取有价值的知识，成为了技术人员面临的一大挑战。特别是对于GPTs这样的先进技术，构建一个强大且更新的知识库是至关重要的。这就是我们今天要介绍的GPT-Crawler一键爬虫工具的使命所在——一种强大的工具，旨在帮助开发者和数据科学家高效地构建和维护GPTs的知识库。

在这篇博客中，我们将深入探讨如何利用GPT-Crawler来捕获和处理网络数据，从而为GPTs模型提供丰富而精准的信息。从安装Node.js作为运行环境的基础开始，我们将一步步指导您如何安装和启动GPT-Crawler。此外，我们还会介绍如何将这个强大的爬虫工具与OpenAI的技术结合起来，以及如何自定义assistant和GPTs，以满足您特定的需求和偏好。

无论您是一名经验丰富的开发者，还是对数据科学和人工智能有浓厚兴趣的初学者，这篇博客都将为您提供宝贵的知识和实践指导。通过阅读本文，您不仅能够了解如何构建一个高效的GPTs知识库，还能够获得关于如何自定义和优化爬虫的实用技巧。那么，让我们一起开始这趟激动人心的技术之旅吧！

安装node.js

Node.js下载地址：https://nodejs.org/en
下载20.10.0版本即可，下载后一路默认安装

在这里插入图片描述

安装完成后在命令行输入node -v，显示版本则安装成功

在这里插入图片描述

安装GPT-Crawler

项目地址：https://github.com/BuilderIO/gpt-crawler
这个项目能爬取网站数据，生成用于创建GPTs的知识库文件
打开项目地址后，点击【Code】，下载压缩文件，保存到电脑本地解压

VSCode官网下载：https://code.visualstudio.com/Download

用VSCode编码工具打开，
或者点开VSCode，左上角文件，点击打开文件夹，地址选择解压的地址

切换到项目目录（例如我的是C:\Users\Yu\Desktop\gpt-crawler-main\gpt-crawler-main>），右键，选择在集成终端中打开
输入npm install，把项目依赖包进行安装

在这里插入图片描述

启动爬虫

npm start

日志输出下面这些为正常：

在这里插入图片描述

最后程序会在项目根目录输出文件output.json，这就是我们需要的文件。
输出的文件就在该目录下
点开看一下，很完美

在这里插入图片描述

结合 OpenAI

这步需要一个 OpenAI 账户，我们需要将生成的文件上传给 OpenAI。

自定义 assistant

选择 assistant 的优势是，我们可以使用 OpenAI 提供的 assistant API，集成到自己的系统中。

操作步骤：
1、进入自定义 Assistants 页面https://platform.openai.com/assistants
2、创建一个 Assistant
3、添加上面生成的output.json文件
4、配置其他选项

上传配置完点击保存，然后开始测试：

自定义 GPTs（笔者用的这个）

自定义 GPTs 和上面的操作类似，大家自行体验。GPTs 需要大家付费 Plus，并且官方似乎还没有提供 GPTs 的 API 可用。

总结

GPT Crawler 项目能让我们只做简单的配置，即可自定义自己的知识库。结合 OpenAI 的 API，能够做很多的事情。大家自行体验。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/214121.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

nginx多端口部署

nginx多端口部署

1.配置nginx.conf文件有几个端口需要部署就写几个server，我这里只部署了两个端口分别为80和81端口，所以有两个server文件。80端口项目入口在根目录的test文件中，81端口项目入口在根目录的test1文件夹中。 2.准备项目文件html文件在/test1…

阅读更多...

电脑出现这些现象，说明你的固态硬盘要坏了

电脑出现这些现象，说明你的固态硬盘要坏了

与传统机械硬盘（HDD）相比，固态硬盘（SSD）速度更快、更稳定、功耗更低。但固态硬盘并不是完美无瑕的，由于颗粒写入机制，可能会在七到十年的预期寿命之前出现故障。所以用户最好为最终故障做好准备…

阅读更多...

SQL之string的使用与模拟实现

SQL之string的使用与模拟实现

SQL之string的使用与模拟实现 1.官方库中string类的使用接口1.1 工具网站搜索string类的使用2.2string类的常用接口说明 2.模拟实现重要/常用的成员函数接口2.1 准备工作2.1.1. 解决命名冲突2.1.2. 成员变量2.1.3. 默认成员函数——构造函数/拷贝构造函数/析构函数2.1.4赋值运算…

阅读更多...

12.9_黑马数据结构与算法笔记Java

12.9_黑马数据结构与算法笔记Java

目录 057 多路递归 e03 杨辉三角2 057 多路递归 e03 杨辉三角3 058 链表 e01 反转单向链表1 058 链表 e01 反转单向链表2 058 链表 e01 反转单向链表3 递归 058 链表 e01 反转单向链表4 058 链表 e01 反转单向链表5 058 链表 e02 根据值删除节点1 058 链表 e02 根据值…

阅读更多...

【动手学深度学习】(十一)池化层+LeNet

【动手学深度学习】(十一)池化层+LeNet

文章目录一、池化层1.理论知识2.代码二、LeNet1.理论知识2.代码实现【相关总结】nn.MaxPool2d() 卷积层对位置比较敏感一、池化层 1.理论知识二维最大池化填充、步幅和多个通道池化层与卷积层类似，都具有填充和步幅没有可学习的参数在每个输入通道应用池…

阅读更多...

【Kubernetes】四层代理Service

【Kubernetes】四层代理Service

Service四层代理一、Service概念原理1.1、为什么要有Service1.2、Service概述1.3、工作原理1.4、三类IP地址【1】Node Network（节点网络）【2】Pod network（pod 网络）【3】Cluster Network（服务网络） 二、S…

阅读更多...

基于Springboot的校园失物招领系统（有报告）。Javaee项目，springboot项目。

基于Springboot的校园失物招领系统（有报告）。Javaee项目，springboot项目。

演示视频： 基于Springboot的校园失物招领系统（有报告）。Javaee项目，springboot项目。项目介绍： 采用M（model）V（view）C（controller）三层体系结构…

阅读更多...

微信小程序 -- ios 底部小黑条样式问题

微信小程序 -- ios 底部小黑条样式问题

问题： 如图，ios有的机型底部伪home键会显示在按钮之上，导致点击按钮的时候误触解决： App.vue <script>export default {wx.getSystemInfo({success: res > {let bottomHeight res.screenHeight - res.safeArea.bott…

阅读更多...

准确！！！在 CentOS 8 上配置 PostgreSQL 14 的主从复制

准确！！！在 CentOS 8 上配置 PostgreSQL 14 的主从复制

在 CentOS 8 上配置 PostgreSQL 14 的主从复制，并设置 WAL 归档到特定路径 /home/postgres/archive 的步骤如下： 主服务器配置（主机） 配置 PostgreSQL： 编辑 postgresql.conf 文件： vim /data/postgres/p…

阅读更多...

什么是呼叫中心的语音通道？呼叫中心语音线路有几种？

什么是呼叫中心的语音通道？呼叫中心语音线路有几种？

什么是呼叫中心的语音通道？ 呼叫中心的语音通道是指在呼叫中心中使用的语音信号传输通道，它是呼叫中心中至关重要的一部分，负责将客户的语音信息传递给客服代表，以及将客服代表的语音信息传递给客户。在呼叫中心的运营中&#xf…

阅读更多...

C语言——字符函数和字符串函数（一）

C语言——字符函数和字符串函数（一）

📝前言： 这篇文章对我最近学习的有关字符串的函数做一个总结和整理，主要讲解字符函数和字符串函数（strlen，strcpy和strncpy，strcat和strncat）的使用方法，使用场景和一些注意事项&…

阅读更多...

记录 | vscode pyhton c++调试launch.json配置

记录 | vscode pyhton c++调试launch.json配置

下面提供 vscode 中 python 和 c 调试配置的 launch.json (好用，已用好几年，建议收藏) {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息，请访问: https://go.microsoft.com/fwlink/?linkid830387&qu…

阅读更多...

Python开发运维：Python垃圾回收机制

Python开发运维：Python垃圾回收机制

目录一、理论 1.Python垃圾回收机制一、理论 1.Python垃圾回收机制 （1）引⽤计数器 1）环状双向链表 refchain 在python程序中创建的任何对象都会放在refchain链表中。 name "david" age 20 hobby ["篮球",游泳…

阅读更多...

Ultimate VFX

Ultimate VFX

Ultimate VFX 构建套件：

阅读更多...

C.小苯的排列构造

C.小苯的排列构造

C-小苯的排列构造_北京信息科技大学第十五届程序设计竞赛（同步赛） (nowcoder.com) 凑2很容易想出来，但是2 4 1 3 这个内核不好想，算是一种尝试和经验吧 #include<bits/stdc.h> using namespace std;int n;int main() {cin&g…

阅读更多...

使用RSA工具进行对信息加解密

使用RSA工具进行对信息加解密

我们在开发中需要对用户敏感数据进行加解密，比如密码这边科普一下RSA算法 RSA是非对称加密算法，与对称加密算法不同;在对称加密中，相同的密钥用于加密和解密数据,因此密钥的安全性至关重要;而在RSA非对称加密中，有两个密钥&…

阅读更多...

P11 Linux进程编程exec族函数

P11 Linux进程编程exec族函数

前言 🎬 个人主页：ChenPi 🐻推荐专栏1: 《Linux C应用编程（概念类）_ChenPi的博客-CSDN博客》✨✨✨ 🔥 推荐专栏2: 《C_ChenPi的博客-CSDN博客》✨✨✨ 🛸推荐专栏3: 《链表_C…

阅读更多...

蓝桥杯物联网竞赛_STM32L071_8_ADC扩展模块

蓝桥杯物联网竞赛_STM32L071_8_ADC扩展模块

原理图： 扩展模块原理图： RP1和RP2分别对应着AIN1和AIN2，扭动它们，其对应滑动变阻器阻值也会变化实验板接口原理图： 对应实验板接口PB1和PB0 即AN1对应PB1, AN2对应PB0 CubMx配置： ADC通道IN8和IN9才对…

阅读更多...

Python：核心知识点整理大全11-笔记

Python：核心知识点整理大全11-笔记

目录编辑 6.2.4 修改字典中的值 6.2.5 删除键—值对注意删除的键—值对永远消失了。 6.2.6 由类似对象组成的字典 6.3 遍历字典 6.3.1 遍历所有的键—值对 6.3.2 遍历字典中的所有键往期快速传送门👆（在文章最后）： 6.…

阅读更多...

Git的安装以及SSH配置

Git的安装以及SSH配置

前言近期工作需要，所以版本管理工具要用到Git，某些操作需要ssh进行操作，在某次操作中遇到：git bash报错：Permission denied, please try again。经排查是ssh没有配置我的key，所以就借着这篇文章整理了一下…

阅读更多...

最新文章

推荐文章