Elasticsearch:什么是大语言模型 (LLMs)?

假设你想参加流行的游戏节目 Jeopardy(这是一个美国电视游戏节目,参赛者将获得答案并必须猜测问题)。 要参加演出,你需要了解任何事情的一切。 所以你决定在接下来的三年里每天都花时间阅读互联网上的所有内容。 你很快就会意识到这比最初看起来更难,并且需要投入巨大的时间。 你还意识到互联网上有大量的信息。 其中一些是事实,一些是观点,而大多数则介于两者之间。 Jeopardy 是基于事实的,因此将大部分时间花在两者之间并不明智。

你决定采用不同的方法来进行 Jeopardy 训练。 你不必尝试了解任何事物的一切,而是专注于如何预测句子中的下一个单词。 如果有人说 “Have a nice…”,你的训练就会告诉你下一个词可能是 “day”。 这是一种完全不同的 Jeopardy 训练方式,但可能是你每日双倍的优势!

所以你专注于英语。 你想阅读所有已写的句子,以(希望)发现模式。 然后,当有人向你提出想法时,你可以使用这些模式来预测下一个单词。 使用这种新方法需要训练什么样的数据? 你要如何记住所有的模式?

这是大型语言模型(Large Language Model - LLM)可以解决的挑战。 它们很大,因为它们接受过大量数据的训练(如互联网上的所有公共内容)。 它们是一种语言模型,因为它们可以使用大量的训练数据来理解如何用给定语言(例如英语、西班牙语或法语)完成句子。 由于互联网上的信息涵盖了如此广泛的观点、方言、想法等,因此模型非常擅长从所提出的问题中推断出模式。

大型语言模型是人工智能 (AI) 的一种形式。 他们接受过大量数据的训练,可以像人类一样智能地完成想法。 换句话说,它们是人工智能的。

大型语言模型如何工作?

当人们开始创 LLM 时,首先要回答的问题是,该模型的目标是什么,以及你可以收集多少有关该目标的数据? 像 GPT 这样的 LLM 有一个相当广泛的目标 —— 完成任何想法。 模型的目标可能更加集中,例如对大量文档建立索引以使它们可搜索。 大型语言模型之所以 “大”,是因为它们的预期目标通常是一个非常大的想法,并且了解该目标所需的数据是巨大的。 事实上,对于 GPT 来说,要完成任何思维目标,可能不存在足够数量的数据来真正训练它。

几乎每个 LLM 都有一些细微差别。 要么是训练数据的差异,要么是训练方式的差异,要么是学习路径的优化,要么是如何完成想法的差异。 比较 Google 的 Bard 模型和 OpenAI 的 GPT 模型。 当你与其中任何一个聊天时,感觉都是一样的。 你分享一个想法或提出一个问题,模型就会用与对话相关的内容进行回应。 但在幕后,情况却大不相同。

如果你与 LLM 的第一次互动是使用 ChatGPT 这样的网站,那么你可能会倾向于认为 LLM 是为了回答你的问题而设计的。 事实上,人工智能模型根本不回答问题,而是完成思想。 用 “It’s a lovely day.” 来提示 (prompt) 模特。 与 “Is it a lovely day?” 会得到不同的回应。 不是因为其中的一个是问题,另一个是陈述。 为了完成一个想法,模型试图找到(统计上)最合适的下一组单词。 然后是下一组单词,依此类推。 该响应称为 “完成 (complete)”,因为模型试图弄清楚接下来会发生什么。 对我们来说,这确实感觉像是一个问题和答案。

机器学习模型和 LLM 有什么区别?

许多机器学习模型和 LLM 之间的一个显着区别是:后者基于神经网络。 顾名思义,神经网络模拟人类神经元的工作方式。 这是一个试图模拟人类功能的计算模型。 正如你可以想象的那样,这可能会变得非常混乱。 为了表达 LLM 的复杂程度,你可以参考数十亿的参数数量。 非常复杂。 较小的机器学习模型的需求通常不需要使用神经网络。 这使得它们的复杂性更容易处理,但也限制了它们的计算能力。

LLM 是如何训练的?

LLM(或者实际上任何机器学习系统)并不是立即聪明的。 就像人类一样,他们必须接受有关特定主题的教育(或培训)。 训练模型与你我学习某个主题的方式非常相似。

假设我们想了解甜甜圈食谱。 典型成分是什么? 制作面团有哪些变体? 甜甜圈上可以放什么配料(几乎任何东西!)? 什么食谱不做甜甜圈?

要了解所有这些,你需要从你知道值得信赖的来源收集一堆食谱。 然后你就去读书。 很多。 随着时间的推移,你会在所有食谱中看到模式。 就像大多数人使用面粉一样。 不使用面粉的通常被认为是无麸质的。 这称为训练数据。

甜甜圈通常上面撒有糖粉之类的甜食。 你可以使用这些常见模式来阅读其他食谱并了解它是否适​​用于甜甜圈。 你还会注意到,甜甜圈是圆形的,中间有一个洞。 食谱可能需要与甜甜圈类似的成分,但也可能用于制作煎饼。 你需要找到一致的模式来解决这个问题。

培训 LLM 与此非常相似。 食谱示例越多,模型就越能判断给定的食谱是否用于制作甜甜圈。 你需要大量食谱,以便你的模型能够非常擅长识别甜甜圈食谱。

LLM 有何用途?

训练一个模型来确定一个食谱是否适合甜甜圈是有帮助的,但还有很多不足之处。 训练模型并不是一件容易的事,因此你希望包含尽可能多的功能。 在这种情况下,我们可能希望模型知道正在制作哪种甜甜圈。

当你为模型提供所有这些甜甜圈食谱时,你可以在每个食谱中包含甜甜圈的类型。 这称为数据标记。 使用这种方法意味着模型不仅可以确定食谱是否要制作甜甜圈,而且还可以回答正在制作哪种甜甜圈! 现在有人可以问你的模型 “这个食谱可以制作巧克力甜甜圈吗?” 你的模型接受了带有类型标签的甜甜圈食谱的训练,因此它应该能够提供非常准确的答案。

LLM 有多种形式和规模。 然而,由于它们非常复杂并且需要大量数据进行训练,因此它们的设计目标很广泛。 想象一下,创建一个模型,以世界上任何歌曲的 5 秒时间来识别其艺术家。 这不是一件容易的事,需要了解每首歌曲的知识。

假设你想要创建一个模型来识别给定歌曲是否在特定专辑中。 LLM 在这方面做得不好,因为你不需要用世界上所有的歌曲来训练它。 你所需要了解的只是该专辑中的几首歌曲。 这些数据不足以提供准确的响应。 世界上有很多歌曲听起来与专辑中的歌曲有点相似。

LLMs 旨在完成非常抽象的想法,几乎没有背景。 比如 “为什么鸡要过马路?” 当给出清晰的示例和所需内容的描述时,它们还旨在提供精确准确的答案。 为了擅长这两种用途,需要大量的数据进行学习。

LLM 示例

截至本文档发布之日,这里是一些公开的 LLM 示例。 我们试图提供一些有关每个模型的目标以及如何开始使用它们的背景信息。

所有这些模型都是自然语言处理 (NLP) 模型,这意味着它们经过训练可以处理人类说话的方式(字母、单词、句子等)。

OpenAI GPT-3(生成式预训练 Transformer 3)

该 LLM 由 OpenAI 于 2020 年发布。 它被归类为具有约 1750 亿个参数的生成式大型语言模型。 OpenAI 使用几个不同的数据集在整个互联网上训练 GPT,其中最大的是 Common Crawl。

GPT 的目标是提供连续的想法。 这个想法可以是完整的,比如  “这是美好的一天”,也可以是一个问题,比如 “鸡为什么过马路?”。 GPT 从左到右读取文本并尝试预测接下来的几个单词。

BERT(来自 Transformers 的双向编码器表示)

Google 在 2018 年发布了这个 LLM。它基于 Transformer 架构。 BERT 采用与 GPT 不同的方法,它从左侧和右侧读取文本,然后预测接下来的几个单词。 这使模型可以更好地理解单词的上下文。

T5(文本到文本传输转换器)

T5 模型由 Google Research 在 2019 年发表的一篇论文中介绍,旨在以统一的方式处理所有 NLP 任务。 它通过将这些任务转换为文本到文本的问题来实现这一点。 输入和输出都被视为文本字符串。 这扩展了模型的能力,包括文本分类、翻译、摘要、问答等。

CTRL( Conditonal Transformer Language Model - 条件转换器语言模型)

该模型由 Salesforce Research 在 2019 年发表的一篇研究论文中创建。该模型旨在生成以特定指令或控制代码为条件的文本,从而可以对语言生成过程进行细粒度控制。 它使用控制代码来调节语言模型的输出。 这些代码在文本生成过程中充当模型的指令。 控制代码指导模型生成特定样式、流派或具有特定属性的文本。 这使得可以根据用户指定的约束对语言生成过程进行微调定制。

威震天-图灵 (MT-NLG)

该模型是微软的 DeepSpeed 深度学习优化库和 NVIDIA 的 Megatron-LM 大型变压器模型的结合。 在发布时,它声称拥有 “世界上最大的基于 Transformer 的语言模型” 称号,拥有 5300 亿个参数(明显多于 GPT-3)。 其庞大的参数规模使得该模型在零次、一次和几次提示方面表现得非常好。 它在现代 LLM 的规模和质量方面树立了新的标杆。

如何使用 LLM 开始生成人工智能

一旦你为生成式人工智能项目设定了目标,你就可以选择最适合需求的 LLM。 LLM 很可能提供与其交互的 API(即:提交提示并接收响应)。 你需要提示在项目目标和 LLM 的特征之间取得平衡。 该平衡将包括 LLM 不知道的其他信息。 了解有关 prompt engineering 的更多信息。

通常,你使用向量数据库将用户的输入与预制文本进行匹配,以创建完美的提示 (prompt)。 这将确保 LLM 的反应是可预测的和足够稳定的,以包含在你更大的努力中。 最简单的流程是:

  • 接受用户查询
  • 在最新的向量化数据中查找更多上下文
  • 将附加数据于你预先制作的文本相结合
  • 向 LLM 提交最终 promt
  • 使用 LLM 回复回复用户

虽然这听起来可能很复杂,但 Elasticsearch 可以通过完全集成的解决方案为你处理大部分工作,该解决方案提供上下文数据所需的所有部分。 从基于数据管道构建的神经系统到嵌入,一直到核心存储以及易于使用的云平台中的检索、访问和处理。 立即免费试用 Elastic Cloud。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/160827.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于 Invalid bound statement (not found): 错误的解决

关于 Invalid bound statement not found: 错误的解决 前言错误原因解决方法1. 检查SQL映射文件2. 检查MyBatis配置3. 检查SQL语句4. 检查命名约定5. 清除缓存6. 启用日志记录 重点注意 结语 我是将军我一直都在,。! 前言 当开发Java Spring Boot应用程…

挚文集团:股票回购速度、收入指引均不及预期,令投资者失望

来源:猛兽财经 作者:猛兽财经 挚文集团未来将不再公布MAU数据 今年6月初,挚文集团(MOMO)在公布2023年第一季度业绩时透露,“陌陌应用的月活跃用户(MAU)”已经从去年3月的1.109亿下降到了今年3月的1.065亿,同比下降了-…

2023,简历石沉大海?软件测试岗位真的已经饱和了....

各大互联网公司的接连裁员,政策限制的行业接连消失,让今年的求职雪上加霜,想躺平却没有资本,还有人说软件测试岗位饱和了,对此很多求职者深信不疑,因为投出去的简历回复的越来越少了。 另一面企业招人真的…

执行事务合伙人和法人区别是什么

1. 定义不同: 执行事务合伙人指负责经营和管理合伙企业的人,对外代表合伙企业进行业务活动,对内负责合伙企业的日常管理。 法人则是企业的法定代表人,代表企业参与民事活动,是企业的行政领导,对企业经济活动…

MAT查找类(岔路口)-技巧

文章目录 前言一、现状二、使用步骤1.导出 hprof2.用MAT打开3.细节操作找大对象的线程名称查看线程的详情查找类的GC Roots柳暗花明检验真理 总结 前言 又是java 内存溢出 OOM JAVA MAT 分析工具大大的好。 高效查找问题根源,才是硬道理。 一、现状 mat 打开hprof…

CVE-2017-7529 Nginx越界读取内存漏洞

漏洞概述 当使用Nginx标准模块时,攻击者可以通过发送包含恶意构造range域的header请求,来获取响应中的缓存文件头部信息。在某些配置中,缓存文件头可能包含后端服务器的IP地址或其它敏感信息,从而导致信息泄露。 影响版本 Ngin…

vue3后台管理框架之技术栈

vue3全家桶技术 基础构建: vue3vite4TypeScript 代码格式 : eslintprettystylelint git生命周期钩子: husky css预处理器: sass ui库: element-plus 模拟数据: mock 网络请求: axios 路由: vue…

Three.js图案溶解shader

上图提供两种方式溶解显示 上面一排是根据现实的图案红色通道也就是r值进行溶解 下面一排提供额外的溶解纹理 可以通过简单更改呈现多种溶解图案 代码仓库 gitee b站账号:https://space.bilibili.com/374230437 interface IMapPath {map: string;dissolve?: string…

基于antd实现动态修改节点的Tree组件

前言 之前遇到一个需求,可对于任意节点添加或删除子节点。首先技术栈是基于reactant design,ant提供了Tree组件,但都是根据固定的数据渲染出树结构,如果需要新增或删除节点,官网并未提供。 实现过程 新增节点 首先…

910数据结构(2013年真题)

算法设计题 问题1 已知元素数据类型为整数的顺序表SL(a1,a2,…,am,b1,b2,…,bn),试设计算法将SL中元素的两部分互换为(b1,b2,…,bn,a1,a2,…,am)。要求:不能使用额外的数组空间。 (1&#xff…

使用 Python 和蒙特卡罗计算未来股价走势以及历史波动率和隐含波动率

一、简介 预测金融市场是定量精度和全球经济细微差别的复杂融合。在这一探索中,蒙特卡罗模拟脱颖而出,成为首要的统计工具,指导我们对未来股票价格的理解。 这种方法以摩纳哥著名的蒙特卡洛赌场命名,并不依靠运气,而是植根于严格的概率模型。想象一下在受控环境中精心策划…

前端开发工具有哪些?17款前端工程师必备工具推荐!

软件开发是一个高度专业化的职业分工,根据所使用的编程语言的不同,会细分出多种岗位:前端开发、后端开发、客户端开发、iOS开发、Android开发、数据库开发等等,具体到每一个岗位,工作中常用的工具软件也存在着差别。 …

0基础学习VR全景平台篇 第108篇:全景图细节处理(下,航拍)

上课!全体起立~ 大家好,欢迎观看蛙色官方系列全景摄影课程! (调色前图库) (原图-大图) 一、导入文件 单击右下角导入按钮,选择航拍图片所在文件夹,选择图片&#xff0…

【前端】Js

目 录 一.前置知识第一个程序JavaScript 的书写形式注释输入输出 二.语法概览变量的使用理解 动态类型基本数据类型 三.运算符算术运算符赋值运算符 & 复合赋值运算符自增自减运算符比较运算符逻辑运算符位运算移位运算 四.条件语句if 语句三元表达式switch 五.循环语句whi…

基于php 进行每半小时钉钉预警

前言 业务场景:监控当前业务当出现并发情况时技术人员可以可以及时处理 使用技术栈: laravelredis 半小时触发一次报警信息实现思路 1、xshell脚本 具体参数就不详细解释了,想要详细了解可以自行百度 curl -H "Content-Type:appl…

论文阅读/写作扫盲

第一节:期刊科普 JCR分区和中科院分区是用于对期刊进行分类和评估的两种常见方法。它们的存在是为了帮助学术界和研究人员更好地了解期刊的学术质量、影响力和地位。 JCR分区(Journal Citation Reports):JCR分区是由Clarivate Ana…

有哪些值得推荐的优秀 HTMLCSS 网站前端设计的网络资源(博客、论坛)?

前言 推荐几个有意思的CSS学习的网站和github上的学习类型的项目~ 网站推荐 1、CODEPEN 代码与所展示的页面相互对应,你可以在上面找到其他人已经写好的demo,参考 代码效果 网址:https://codepen.io 2、Coding Fantasy 通过游戏的形式来提…

多媒体应用设计师 第7章 多媒体数字压缩编码技术基础

1.多媒体数据压缩技术理论基础及压缩编码方法分类 必要性:大数据量的图像信息会给存储器的存储容量,通信线路的带宽,以及计算机的处理速度增加极大压力。如果没有多媒体编码压缩技术的发展,大容量图像,视频信息的存储和传输就难以…

自助查询小助手

嘿亲爱的老师们!还在为成绩发布而烦恼吗?别担心,今天我们来聊聊如何利用免费的老师发布工具,让你轻松解决这一烦恼! 成绩查询页面是什么?在很多学校里,成绩查询页面通常是一个网站或应用程序&am…

list.set交换数据需要(or不需要)添加其他中间变量,两个例子告诉你

说明:set()方法是来修改指定位置的元素。 两个参数,第一个参数是要修改的元素的索引,第二个参数是要设置的新值。 案例一:当链表中传入的是字符串时: public static void main(String[] args) {List list new Linke…