2024年度最佳大型语言模型(LLMs)汇总

大型语言模型(LLMs)是人工智能文本处理的主要类型,也现在最流行的人工智能应用形态。ChatGPT是迄今为止最著名的使用LLM的工具,它由OpenAI的GPT模型的特别调整版本提供动力。但还有许多其他聊天机器人和文本生成器,包括从Google Bard和Anthropic的Claude到Writesonic和Jasper,它们都是建立在LLMs之上的。

自2010年代末以来,众多的LLM一直在研究实验室中酝酿,如果不是ChatGPT的出现,它们可能还会继续待在实验室里孤芳自赏,但在ChatGPT发布并展示出色实力后,它们也冲出实验室,进入了现实世界。 有些 LLM 已经开发了多年,有些则迅速发展起来以赶上最新的炒作周期,还有更多的是开源研究工具。

2024年最佳LLMs

目前大概有几十个主要的LLMs,还有数百个由于某种原因而具有争议的,将它们全部列出几乎是不可能的,而且无论如何,由于LLMs的发展速度很快,它可能会在几天内过时。

对于“最佳”这个词,我们不妨持保留态度:我已经试图通过提供一个最重要、最有趣和最流行的 LLM(和 LMM)列表来缩小范围,而不一定是那些在基准测试中表现优异的(尽管其中大多数是这样)。 我还主要关注您可以使用的 LLM,而不是那些超级有趣的研究论文的主题,因为我们喜欢在这里保持实用性。

在开始之前还有最后一件事:很多人工智能应用都没有列出它们所依赖的LLM。有些我们可以猜测,或者从他们的营销材料中可以清楚地看出,但对于大多数应用,我们只是不知道。这就是为什么你会在下面的表格中看到“未披露”——这只是意味着我们不知道任何使用LLM的主要应用,尽管可能有一些应用使用了它。

LLM

开发者

热门应用

参数数量

访问方式

GPT

OpenAI

Microsoft, Duolingo, Stripe, Zapier, Dropbox, ChatGPT

175 billion+

API

Gemini

Google

Some queries on Bard 

Nano: 1.8 & 3.25 billion; others unknown

API

PaLM 2

Google

Google Bard, Docs, Gmail, and other Google apps

340 billion

API

Llama 2

Meta

未披露

7, 13, and 70 billion

Open source

Vicuna

LMSYS Org

Chatbot Arena

7, 13, and 33 billion

Open source

Claude 2

Anthropic

Slack, Notion, Zoom

Unknown

API

Stable Beluga

Stability AI

未披露

7, 13, and 70 billion

Open source

StableLM

Stability

未披露

7, 13, and 70 billion

Open source

Coral

Cohere

HyperWrite, Jasper, Notion, LongShot

未知

API

Falcon

Technology Innovation Institute

未披露

1.3, 7.5, 40, and 180 billion

Open source

MPT

Mosaic

未披露

7 and 30 billion

Open source

Mixtral 8x7B

Mistral AI

未披露

46.7 billion

Open source

XGen-7B

SalesforceSalesforce

未披露

7 billion

Open source

Grok

xAI

Grok Chatbot

未知

聊天机器人


什么是LLM?

LLM,或大型语言模型,是一种通用的人工智能文本生成器,是所有人工智能聊天机器人和人工智能写作生成器的后台系统。

LLMs具有超级的自动完成能力。除去花哨的界面和其他变通方法,他们所做的更本任务是接受一个提示,并使用一串貌似合理的后续文本生成一个答案。建立在LLMs之上的聊天机器人不会寻找关键词,以便他们可以用固定答案回答,相反,他们会尽最大努力理解被问到的问题,并适当地回答。

这就是LLM真正厉害的原因:相同的模型(有或没有一点额外的培训)可以用来回答客户的询问,撰写营销材料,总结会议记录,以及做很多其他的事情。

LLMs是如何工作的?

早期的LLM,比如GPT-1,在生成几句话后就会崩溃,开始生成无意义的句子,但如今的LLM,比如GPT-4,可以生成数千个有意义的单词。

为了达到这个目的,LLMs在巨大的语料库上进行了训练。不同的LLM之间的细节略有不同,这取决于开发人员在充分获得他们正在使用的材料的权利方面有多仔细,但作为一般规则,你可以假设他们在相当于整个公共互联网和每本已出版的主要书籍上进行了训练。这就是为什么LLMs可以生成在如此广泛的主题上听起来如此权威的文本。

从这些训练数据中,LLM能够使用高维向量来模拟不同单词(或者实际上是单词的一部分,称为标记)之间的关系。这是所有事情变得非常复杂和数学化的地方,但基本原理是每个单独的标记都有一个唯一的ID,相似的概念被分组在一起。然后,这被用来生成一个神经网络,一种基于人脑工作方式的多层算法,这是每个LLM的核心。

神经网络有一个输入层,一个输出层和多个隐藏层,每个隐藏层都有多个节点。正是这些节点计算了输入之后应该出现什么单词,不同的节点有不同的权重。例如,如果输入字符串包含单词“Apple”,神经网络将不得不决定接下来应该出现“Mac”或“iPad”之类的单词,或者“pie”或“crumble”之类的单词,或者完全是其他的单词。当我们谈论LLM有多少参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。

当然,在开放的互联网上训练的人工智能模型几乎没有方向,听起来就像噩梦一样。它可能也不会非常有用,所以在这一点上,LLMs进行了进一步的培训和微调,以引导它们生成安全和有用的响应。其中一个主要的工作方式是通过调整不同节点的权重,尽管还有其他方面。

Infographic showing how natural language processing works

所有这些都是说,虽然LLMs是黑盒子,但它们内部发生的事情并不神奇。一旦你对它们的工作方式有了一点了解,就很容易理解为什么它们如此擅长回答某些类型的问题。这也很容易理解为什么它们倾向于编造(或产生幻觉)随机的事情。

LLMs可以用于什么?

LLM 之所以强大,主要是因为它们能够被推广到许多不同的情境和用途。相同的核心 LLM(有时稍微调整一下)可以用于完成许多不同的任务。虽然它们所做的一切都是基于生成文本,但它们被提示执行任务的具体方式会改变它们所具有的特性。

以下是LLMs通常用于的一些任务:

  • 通用聊天机器人(如ChatGPT和Google Bard)
  • 根据您的业务文档和数据进行培训的客户服务聊天机器人
  • 将文本从一种语言翻译成另一种语言
  • 将文本转换为计算机代码或将一种语言转换为另一种语言。
  • 生成社交媒体帖子、博客文章和其他营销文案
  • 情绪分析
  • 调节内容
  • 校对和编辑写作
  • 数据分析

还有成百上千的其他事情,我们还只是处在当前人工智能革命的早期。

但也有许多LLMs做不到的事情,但其他类AI模型可以做到。

  • 解释图片
  • 生成图像
  • 在不同格式之间转换文件
  • 在网上搜索
  • 执行数学和其他逻辑操作

当然,有些LLM和聊天机器人可以做这些事情,但在大多数情况下,会有另一个AI服务介入协助,当一个模型处理几种不同类型的输入时,它实际上不再被认为是一个大型模型,而是成为一个叫做多模态大型模型(large multimodal model)的东西(尽管在某种程度上,它只是语义)。

有了这些背景知识,让我们转向 LLM 本身。

2024年最佳LLMs

GPT

OpenAI Playground with a modified system prompt.

  • 开发人员:OpenAI
  • 参数:超过1750亿
  • 访问:API

OpenAI的生成式预训练Transformer(GPT)模型开启了最新的人工智能炒作周期。目前有两个主要模型:GPT-3.5-turbo和GPT-4。GPT是一个带有API的通用LLM,它被各种各样的公司使用,包括微软、Duolingo、Stripe、Descript、Dropbox和Zapier,为无数不同的工具提供动力。不过,ChatGPT可能是其能力最受欢迎的演示。

你也可以将Zapier连接到GPT或ChatGPT,这样你就可以直接从技术栈中的其他应用程序中使用GPT。这里有更多关于如何自动化ChatGPT的信息,或者你可以从这些预制工作流之一开始。

Gemini
  • 开发人员:谷歌
  • 参数:Nano有18亿和32.5亿版本,其他未知
  • 访问:API

谷歌Gemini是谷歌的人工智能模型家族。三个模型-Gemini Nano,Gemini Pro和Gemini Ultra-旨在不同设备上运行,从智能手机到专用服务器。虽然能够生成像LLM一样的文本,但Gemini模型也能够处理图像、音频、视频、代码和其他类型的信息。

Gemini Pro现在为谷歌聊天机器人Bard的一些查询提供动力,并通过谷歌AI Studio或Vertex AI向开发人员提供。Gemini Nano和Ultra将于2024年推出。

PaLM 2

Bard, the best ChatGPT alternative for connecting to Google apps

  • 开发人员:谷歌
  • 参数:3400亿
  • 访问:API

PaLM 2是谷歌的LLM,专为自然语言任务设计,支持Google Bard上的大多数查询,以及谷歌在Docs和Gmail等应用程序中的许多其他AI功能。

Llama 2

Using Llama 2 with Llama Chat

  • Meta 开发人员:元
  • 参数:70亿、130亿和700亿
  • 访问:开源

Llama 2是Meta(Facebook和Instagram的母公司)的一个开源LLM系列,它是最流行和最强大的开源LLM之一,你可以从Github上下载源代码,因为它对研究和商业用途是免费的,许多其他的LLM都以Llama 2为基础。

Vicuna
  • 开发人员:LMSYS Org
  • -参数:70亿、130亿和330亿
  • -访问:开源

Vicuna是一个基于Meta的Llama LLM构建的开源聊天机器人,它被广泛用于人工智能研究,并作为Chatbot Arena的一部分,Chatbot Arena是由LMSYS运营的聊天机器人基准。

Claude 2

Claude, the best AI chatbot with a long conversation history

  • 开发人员:Anthropic 
  • 参数:未知
  • 访问:API

Claude 2可以说是GPT最重要的竞争对手之一。它旨在为企业客户提供有用、诚实、无害和关键的安全使用。因此,Slack、Notion和Zoom等公司都与Anthropic合作。

与所有其他专有LLM一样, Claude 2只能作为API提供,尽管它可以根据您的数据进行进一步培训,并根据您的需要进行微调。您还可以将Claude连接到Zapier,以便从所有其他应用程序中自动执行Claude 。以下是一些预制的工作流,以帮助您开始。

Stable Beluga and StableLM
  • 开发人员:Stability AI
  • 参数:70亿、130亿和700亿
  • 访问:开源

Stability AI是Stable Diffusion背后的团队,它是最好的AI图像生成器之一,他们还发布了几个基于Llama的开源LLM,包括Stable Beluga和StableLM,尽管它们远不及图像生成器受欢迎。

Coral
  • 开发人员:Cohere
  • 参数:未知
  • 访问:API

与Claude 2一样,Cohere的Coral LLM是为企业用户设计的。它同样提供了一个API,并允许组织在其自己的数据上训练模型的版本,以便能够准确地回答客户的查询。

Falcon
  • Developer: Technology Innovation Institute开发商:技术创新研究所
  • 参数:13亿、75亿、400亿和1800亿
  • 访问:开源

Falcon是一个开源的LLM家族,在各种AI基准测试中表现良好。它拥有高达1800亿个参数的模型,并在某些任务中优于PaLM 2、Llama 2和GPT-3.5。它在允许的Apache 2.0许可下发布,因此适合商业和研究用途。

MPT
  • 开发人员:
  • 参数:70亿、300亿
  • 访问:开源

Mosaic的MPT-7B和MPT-30B LLM是两个更强大、更受欢迎、更商业化的LLM。有趣的是,它们不是建立在Meta的Llama模型之上,与许多其他开源模型不同。MPT-30B的性能优于原始的GPT-3,并以Apache 2.0许可证发布,就像Falcon一样。有几个不同的版本可供选择,对聊天等进行微调,最有趣的是,一个7B版本的微调用于生成长篇小说。

Mixtral 8x7B
  • 开发人员:Mistral
  • 参数:467亿
  • 访问:开源

Mistral的Mixtral 8x7B使用一系列子系统来有效地超越更大的模型.尽管有显著更少的参数(因此能够运行得更快或在更弱的硬件上),它能够超越Llama-70B并匹配或击败GPT-3.5.它也是在Apache 2.0许可下发布的.

XGen-7B
  • 开发商人员:Salesforce
  • 参数:70亿
  • 访问:开源

Salesforce的XGen-7B并不是一个特别强大或流行的开源模型,它的性能与其他拥有70亿个参数的开源模型差不多。但我仍然认为它值得包括在内,因为它突出了有多少大型科技公司拥有人工智能和机器学习部门,可以开发和推出自己的LLM。

Grok
  • 开发人员:xAI
  • 参数:未知
  • 访问:聊天机器人

Grok,一个根据X(前身为Twitter)的数据训练的聊天机器人,并不真正能凭借自身的优点在这个列表上占据一席之地,因为它还没有被广泛使用,也不是特别好。尽管如此,我在这里列出它是因为它是由埃隆·马斯克(Elon Musk)创办的人工智能公司xAI开发的。虽然它可能不会在人工智能领域掀起波澜,但它仍然得到了大量的媒体报道,所以它的存在值得知道。

为什么会有这么多的LLMs?

直到一两年前,LLM还局限于研究实验室和人工智能会议的技术演示。现在,它们为无数的应用程序和聊天机器人提供动力,并且有数百种不同的模型可供您自己运行(如果您有计算机技能)。我们是如何走到这一步的?

有几个因素在起作用。其中一些主要的因素是:

  • 通过GPT-3和ChatGPT,OpenAI证明了人工智能研究已经达到了可以用来构建实用工具的地步,因此许多其他公司也开始这样做。
  • LLM需要大量的计算能力来训练,但基于现有的算力能力,通常可以在几周或几个月内完成。
  • 有很多开源模型可以重新训练或适应新模型,而无需开发一个全新的模型。
  • 人工智能公司投入了大量资金,因此对于任何拥有技能和知识的人来说,都有很大的激励来开发任何类型的LLM来这样做。

未来LLMs的期望是什么

我认为在不久的将来,我们将看到更多的LLM,特别是来自大型科技公司。亚马逊、IBM、英特尔和NVIDIA都在开发、测试或提供给客户使用的LLM。它们不像我上面列出的模型那么热门,普通人也不太可能直接使用它们,但我认为,期待大型企业开始广泛部署它们是合理的。

我还认为,我们将看到更多高效的LLM,专门用于智能手机和其他轻量级设备。谷歌已经在Gemini Nano上暗示了这一点,它在Google Pixel Pro 8上运行了一些功能。Mistral的Mixtral 8x7B等开发表明,一些技术使小型LLM能够与大型LLM有效竞争。

另一个即将到来的大事是大型多模态模型(large multimodal models or LMMs 即 LMMs)。这些模型将文本生成与其他模态相结合,如图像和音频,因此您可以询问聊天机器人在图像中发生了什么,或者让它用音频回答。GPT-4 Vision(GPT-4V)和谷歌的Gemini模型是第一个可能被广泛部署的LMM中的两个,但我们肯定会看到更多。

三年前,我绝对不认为我们会有像ChatGPT这样强大的人工智能,也许几年后,我们会有通用人工智能(AGI)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/279369.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Basic RNN

文章目录 回顾RNNRNN CellRNNCell的使用RNN的使用 RNN例子使用RNN Cell实现使用RNN实现 嵌入层 Embedding独热向量的缺点Embedding LSTMGRU(门控循环单元)练习 回顾 DNN(全连接):和CNN相比,拥有巨大的参数量,CNN权重共…

MySQL与金蝶云星空对接集成SELECT语句连通销售订单新增(销售订单集成测试)

MySQL与金蝶云星空对接集成SELECT语句连通销售订单新增(销售订单集成测试) ​​ ​​ 数据源系统:MySQL MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方…

【mybatis】objectwrapper解读

简介 在 MyBatis 中,ObjectWrapper 是一个关键的接口,用于详细封装了对象的属性信息。ObjectWrapper 主要用于内部操作,它抽象了对象的属性操作,使得 MyBatis 能够统一处理原生类型、Bean 对象以及 Map 集合等。 类图展示 主要功…

架构扩展性

架构扩展性:应用扩展 数据扩展 组织扩展 流程扩展 核心方法论–扩展立方体: x轴:无脑克隆 y轴:功能分割z轴:客户分割扩展立方体在应用扩展的应用: x轴:横向克隆 对于无状态的应用,多…

苹果意将Gemini引入iPhone;英伟达发布新AI GPU;Grok正式开源

苹果正在谈判将 Gemini 引入 iPhone Mark Gurman 报道,苹果正在谈判将 Google 的生成式 AI 大模型 Gemini 引入 iPhone。 知情人士透露,两家公司正在积极谈判,让苹果获得 Gemini 授权,为今年 iPhone 软件的一些新功能提供动力。苹…

2024年Jira全面解析:从 Jira 的概念到优缺点、最新政策

Jira是澳大利亚的Atlassian公司开发的一款项目管理软件,名字来源于日文中“哥斯拉”的称呼“Gojira”。Jira不仅可以追踪缺陷和问题,还能管理项目。很多企业还将JIRA用于一些特殊的场景,比如作为仓库自动化工具、管理文档流程、优化费用等等。…

Python之Web开发中级教程----ubuntu安装MySQL

Python之Web开发中级教程----ubuntu安装MySQL 进入/opt目录 cd /opt 更新软件源 sudo apt-get upgrade sudo apt-get update 3、安装Mysql server sudo apt-get install mysql-server 4、启动Mysql service mysql start 5、确认Mysql的状态 service mysql status 6、安全设…

了解和编译安装mysql数据库

一. 数据库的基本概念 1.1 数据 ① 描述事物的符号记录 称为数据(Data)。包括数字、文字、图形、图像、声音、档案记录等 ② 数据是以“记录”的形式按照统一的格式进行存储的,而不是杂乱无章的。 相同格式和类型的数据统一存放在一起&…

Nginx发布之后可以使用IP访问,不能使用localhost访问, Nginx发布之后可以使用localhost访问,不能使用IP访问,

如标题所说 Nginx发布之后可以使用IP访问,不能使用localhost访问, Nginx发布之后可以使用localhost访问,不能使用IP访问, 修改配置文件也没有用 清除浏览器缓存数据

轻松解锁微博视频:基于Perl的下载解决方案

引言 随着微博成为中国最受欢迎的社交平台之一,其内容已经变得丰富多彩,特别是视频内容吸引了大量用户的关注。然而,尽管用户对微博上的视频内容感兴趣,但却面临着无法直接下载这些视频的难题。本文旨在介绍一个基于Perl的解决方…

【Linux(1)】Linux的一些基本指令(补充上一篇)

思维导图 学习内容 通过上面的学习目标,我们可以列出要学习的内容: linux的一些指令:cd mkdir cp touch which rm cat alias 一些基本的概念:指令的概念,用户家目录是什么...... 一、Linux的一些指令 1.1 重新认识…

vue3封装对话框el-dialog组件

实现逻辑: 1、引入对话框组件; 2、组件使用; 3、点新增和编辑的时候,通过ref调用对话框暴漏出来的方法,并传值; 4、关闭对话框时,封装方法,重置对话框的表单和重置校验; …

.htaccess全站设置SSL,wordpress全站设置SSL,网站重定向的次数过多”错误最佳解决方法教程

.htaccess全站设置SSL,wordpress全站设置SSL,网站重定向的次数过多”错误最佳解决方法教程 网上找了很多教程网无效**.htacces**设置,访问后台出现重定向次数过多,导致无法访问 找了好久,测试用AI机器人无法解决,参考…

SCI一区 | Matlab实现GWO-TCN-BiGRU-Attention灰狼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现GWO-TCN-BiGRU-Attention灰狼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现GWO-TCN-BiGRU-Attention灰狼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

【RabbitMQ | 第七篇】RabbitMQ实现JSON、Map格式数据的发送与接收

文章目录 7.RabbitMQ实现JSON、Map格式数据的发送与接收7.1消息发送端7.1.1引入依赖7.1.2yml配置7.1.3RabbitMQConfig配置类——(非常重要)(1)创建交换器方法(2)创建队列方法(3)绑定…

自动化部署利器:Jenkins+Gitlab助力Springboot项目快速上线,实现持续集成与持续交付!

Jenkins 能干什么 来自官网 官网 Jenkins怎么用【Linux版】 下载 war包 本机为Java8 选择Jenkins版本为2.289.1 注意: 如果是Java8 尽量和我的Jenkins版本保持一致哈!后面可能会遇到各种坑。 把下载好的war放到Linux服务器的某一个目录下 启动war …

实现:mysql-5.7.42 到 mysql-8.2.0 的升级(二进制方式)

实现:mysql-5.7.42 到 mysql-8.2.0 的升级(二进制方式) 1、操作环境1、查看当前数据库版本2、操作系统版本3、查看 Linux 系统上的 glibc(GNU C 库)版本(**这里很重要,要下载对应的内核mysql版本…

抖音视频爬虫提取软件|视频批量采集工具

抖音视频爬虫软件 想要快速并批量地下载抖音视频吗?现在,我们推出了一款基于C#开发的抖音视频爬虫工具,满足您的需求,让您轻松实现关键词搜索、q1977470120批量抓取和选择性下载视频的操作。 功能特点: 关键词搜索抓…

CMake笔记之通用模板以及将官方库作为third_party完整地包含在工程项目中使用

CMake笔记之通用模板以及将官方库作为third_party完整地包含在工程项目中使用 —— 杭州 2024-03-20 凌晨1:06 code review! 文章目录 CMake笔记之通用模板以及将官方库作为third_party完整地包含在工程项目中使用1.通用CMakeLists.txt模板2.GPT4给出的改进建议3.git clone或a…

excel 表中有图片并在筛选特定行时,只显示该行的图片

建议:选中excel 表中某张图片,CtrlA,选中所有图片。再右键,在菜单中选设置对象格式 在属性里按下图设置, 生效之后,筛选某个产品的时候,就不会显示其他的不符合筛选条件的产品的图片了。