深度!通过近两万个开源项目,看ChatGPT这把火是怎么烧起来?

ChatGPT毫无疑问是当红炸子鸡,它用一种无法阻挡的魅力,彻底带红了 GPT (Generative Pre-Trained Transformer : 生成式预训练模型,基于Transformer 实现)  ,LLM (Large Language Model, 大语言模型) 和 AIGC (Artificial Intelligence Generative Content, 人工智能生成内容) 这几个概念。

透过现象看本质,你可能和我一样好奇,这把火到底是怎么烧起来?它目前又有哪些主要的关注方向?未来可能还会怎么发展呢?

如果我去问ChatGPT,可能会得到如下的回复。

ef8c50eb3c467d8b641af83578f8bcba.png

但作为一个还没有完全丧失理智的人类,我愿意做一次最后的挣扎,尝试自己通过数据来剖析一下,而我目前想到的数据源是 Github。

如果你在Github上面搜索 chatgpt 这个关键字,你会发现目前又接近 19K(一万九千个)个项目,喔嚯,这可真不少呢?

72bf3da746bf56938b27e206d40ae65a.png

如果包括那些fork的项目,数量则更惊人,达到了将近77K(七万七千)个项目,而且这还只是那些公开(public)的项目,根据经验,如果算上私有(private)项目,则数量级还可以翻几倍。

4362d1c6f2d96a3fbb7a63bdf6ec1187.png

那么,这些项目到底是怎么被创建起来的,他们在不同的维度所表现出来一些信息和规律大致是怎样的呢?

首先,我们来看一下整体的统计数据。

4ffb3cd955233a3f7603c946f73fc048.png

也就是说,17094个作者,一共创建了19412个项目,获得star数约53万,fork数约8万,watch数约53万(似乎跟star是一样,因为一旦star就自动watch了)。

接下来,看一下不同的日期创建项目的规律。

179e88938424fe41bb58e6d4e05bfcf5.png

可以看出,真正开始热起来是从2022年12月左右,因为直到2022年11月30日,单日创建项目的数量也不过是2, 而截止到2022年12月的所有项目,也不过区区 171个,不足总数的 1%。

4df61bd141124df55815b556193f05e7.png

从2022年12月1日到现在100多天,平均每天有185个新项目创建出来,请注意,这不包含fork的项目。

59670e644ae2915ffe8ab8dd95297c20.png

单日创建项目最多出现在 2023年3月2日,达到了 497个。

03296d0773d3168922022a9f2afd3d8e.png

而单日创建项目数量超过100个的天数达到79天,占总比约为 75%。下面列出了Top 10的记录。

6ff6574225223f37c11944c848cd0bbc.png

我们都知道OpenAI公司是在2015年才成立的,而ChatGPT真正开始做,估计最快也是2019年。但 2015年前居然有两个项目跟ChatGPT相关,这不仅让人诧异。细看之后,其中一个项目可能是最近才改的名字,而另外一个,其实跟 ChatGPT无关,但他自己强行加上了 chatgpt 的tag。这可能也算是一种其他的SEO手法吧,属于噪音的部分。做数据分析,或者使用ChatGPT这些人工智能,都需要有一种理性期待,就是甄别数据本身的真伪。 

e08d518bef7a70fdedc3c03df4d884aa.png

如果从时间轴中看一天中哪些时间段创建的项目更多,你可以得到下面的规律。

c4d4343b821111df964b7dac165bfbcb.png

那么到底什么项目是最火的?下面是top 10的项目。

77274b3d44bbae436e6a523b4da967cc.png

我们可以发现, prompt engineering真的是最热门的,这是符合预期的,因为大语言模型的当下,人类能做的事情已经不多了,学会如何做prompt似乎是当务之急。

如果按照平均获赞的速度来看,排名如下。微软的 visual-chatgpt 排到了第一名,另外我们看到一些很有意思的新项目。(这种排名的方法,可以让我们发现哪些突然新出现热起来的方向)。

7b9e3544937514cf5ab4151f8714771f.png

在过去的28内活跃的项目,如果按照作者及其创建过的chatgpt项目数量和获赞来排名,下面是一个top 20的名单。

0a5d684880f88820538c1d0e133d1414.png

我特别关心一个问题,在这一波浪潮中,中国的开发者占到的比重有多大。根据这个top 20的用户信息,我们可以看到至少,除去地理位置未知的5个作者,中国的账号是7个,占到将近 50%的比例(7/15)。壮哉,我的国。

敬请关注,我还会更加全面地分析所有作者的信息。后续发布。

c94e2354e383edb950c19e1cfb5d0e5c.png

本文最后,我大致地看一下从语言的角度,目前的排名情况。

fa2d5627251f450b37ffd83b25f5ddf0.png

还有就是从license角度,目前的排名情况如下。

3a7d06eb065f179309e143193edf10c5.png

后续我还将继续发布各方面的深度研究,以及对重点项目进行分析。敬请关注。未来我会用ChatGPT来自动写这个报告,数据集会公开。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58910.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“采访”ChatGPT看看它对我们GreatSQL社区有什么看法

什么是ChatGPT? ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务,因此有望成为提高办公、学…

CNN与图像识别

将我自己在github pages上的文章转载到这里。 卷积神经网络与图像识别背景 LeNet概述ImageNet大规模图像识别挑战赛卷积与图像处理 卷积的定义图像卷积的物理意义LeNet详解手写数字识别过程可视化神经网络中的“神经元”和“权重”在哪里? 卷积神经网络与图像识别…

用CPU 0.2秒轻松识别十万类,超强图像识别系统PP-ShiTu重磅发布

说到图像识别,有些人可能会一头雾水,其实图像识别早已经成熟地应用在了各行各业。比如,正在进行中的双十一全民剁手节,相信很多小伙伴们都在某宝上解锁过以图搜图购物;越来越先进的自动驾驶道路街景识别;工…

微软语音识别

广告关闭 2017年12月,云社区对外发布,从最开始的技术博客到现在拥有多个社区产品。未来,我们一起乘风破浪,创造无限可能。 【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在switchboard语音识别…

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破 微软亚洲研究院 2015年2月11日 本文翻译自:Microsoft Researchers Algorithm Sets ImageNet Challenge Milestone 一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努…

opencv 图像识别

opencv的目标是使计算机可以快速准确地从数字图像中提取和分析特征。它使用了许多新的算法和技术,例如改进的模板匹配、基于统计的特征分析以及深度学习等。opencv支持多种平台,包括 Windows、 MacOS、 Linux和 Android,开发者可以使用 OpenC…

人工智能-图像识别

图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单…

深度学习与图像识别 图像检测

主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容 1、深度学习的优势 (1)从统计,计算的角度看,DL特别适合处理大数据 a、用较为复杂的模型降低模型偏差 b、用大数据提升统计估计的准确度 c、用可扩展的…

图像识别

图像识别主要用到了两个第三方的iOS框架:OpenCV和TesseractOCR,OpenCV用来做图像处理,定位到身份证号码的区域,TesseractOCR则是对定位到的区域内的内容进行识别。 OpenCV中的一些简单的处理图像的方法:灰度处理、二…

tesseract -图像识别

20230306 下载链接:https://digi.bib.uni-mannheim.de/tesseract/ 如下选择最新的版本,这里我选择tesseract-ocr-w64-setup-5.3.0.20221222.exe 配置tesseract的环境变量 在用户变量path中,添加安装路径如:D:\Program Files\Tesse…

机器图像识别常用算法,图像对比识别技术

图像识别算法都有哪些 图像识别算法:1人脸识别类(Eigenface,Fisherface算法特别多),人脸检测类(j-v算法,mtcnn)2车牌识别类,车型识别类(cnn)3字符识别&#…

最新开源的图像识别算法来了!

Datawhale开源 方向:图像识别开源项目 人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的API、SDK,但这些往往面临着定制化场景泛化效果不…

图像识别最好的算法,图片相似度识别算法

现在人脸识别最有效的算法是什么? 最好的人脸识别系统在理想情况下比人类识别的表现要好的多。但是一旦环境情况变糟,系统的表现就差强人意了。而计算机科学家们当然是非常想要开发出一种算法,在各种情况下都能够表现优异。 现在&#xff0…

图像识别技术OpenCV | C++版本

基础入门 图像与信号 图像 图像是人对视觉感知的物质再现。图像可以由光学设备获取,也可以人为创作。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。因而,有些情况下”图像“一词实际上是指数字图像。图像相关的话…

主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini 出品 | 北京图特摩斯科技有限公司 (www.thutmose.cn) 也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。 这里是 Tesseract(LSTM)、CTPNCRN…

吐槽 Twitter 后,马斯克用 30 亿美元入股 Twitter,成为最大股东

作者 | 苏宓 出品 | CSDN(ID:CSDNnews) 曾一年登上 74 次热搜、曾考虑辞职做全职“网红”,掌握流量密码的硅谷“钢铁侠”埃隆马斯克算是把互联网玩得明明白白。 这不,这两天在国内外热榜、科技网站的头版头条再现马斯克…

chatgpt赋能python:Python怎样使用断言?

Python怎样使用断言? 在Python中,断言是一种在程序执行中自动检查程序是否具有给定条件的方法。在程序的开发和调试过程中,通过正确使用断言,可以增强代码的可靠性并提升编程效率。 Python中的断言语法 Python中的断言语法非常…

chatgpt赋能python:如何撤销Python代码的错误

如何撤销Python代码的错误 Python是一种优秀的编程语言,但每个程序员都会面临代码错误的问题。在Python中,难免会出现语法错误、逻辑错误或运行时错误。因此,本文将介绍一些常见的问题,并提供一些解决方法。 1. 语法错误 语法错…

chatgpt赋能python:Python查错技巧:快速定位和解决代码错误

Python查错技巧:快速定位和解决代码错误 作为一名10年Python编程经验的工程师,我深知在Python编程过程中,查错是一个必须掌握的技能。无论你是初学者还是资深工程师,在Python编程过程中,都会遇到各种各样的问题&#…

chatgpt赋能python:Python编写错误怎么改?

Python编写错误怎么改? 为什么需要改错误? 在Python编程中,错误是不可避免的。它们可能会使你的程序崩溃或者在运行时出现奇怪的行为。虽然有时候错误是你打的故意的代码,但是大多数情况下它们是意外的、不必要的,并…