大型语言模型(LLM)的优势、劣势和风险

alt 最近关于大型语言模型的奇迹()已经说了很多LLMs。这些荣誉大多是当之无愧的。让 ChatGPT 描述广义相对论,你会得到一个非常好(且准确)的答案。然而,归根结底,ChatGPT 仍然是一个盲目执行其指令集的计算机程序(和所有其他LLMs程序一样)。它对广义相对论的理解并不比你最喜欢的宠物好。不幸的是,我们使用“类似人类”的词来描述工程师用来创建它们的技术——例如,“机器学习”和“训练”。这是误导性的,因为一个人LLM没有像人类那样的思想。

这里有一定的讽刺意味——一个不思考的聊天机器人怎么能正确地总结有史以来最聪明的人的发现?为了理解 LLMs的这种矛盾性质,让我们从优势、劣势和危险的角度进一步探索它们,看看我们如何利用数据和像 MinIO 这样的存储解决方案来利用前者并缓解其他两个。这些是每个工程师在为组织进行培训、测试和部署LLMs时都应该牢记的技术。

优势

其LLMs优势在于,他们经过训练,可以理解用于创建单词的训练集中单词的概率分布。如果训练集足够大(即维基百科文章的语料库或GitHub上的公共代码),那么模型将具有词汇表和相应的概率分布,这将使它们的结果看起来好像它们对输出的文本具有真实世界的理解。让我们更详细地研究另一个例子——这次来自哲学。问 ChatGPT 一个问题,“'cogito, ergo sum' 是什么意思,是谁写的?”,你会得到类似于下面文字的内容。

“Cogito, ergo sum”是一个拉丁哲学命题,在英语中翻译为“我思故我在”。这句话与法国哲学家、数学家和科学家勒内·笛卡尔(René Descartes)有关。笛卡尔在1637年出版的著作《论方法》中表达了这一观点。这句话反映了笛卡尔试图建立一个不容置疑的基本真理——一个人作为一个有思想的存在者的确定性。

LLMs使用概率分布产生这样的结果。它的工作原理是这样的,他们首先查看问题中的文本,并确定“Cogito”这个词最有可能成为答案的第一个单词。从那里,他们查看问题和答案的第一个单词,以确定最有可能成为下一个单词的单词。这种情况一直持续到一个特殊的“答案结束”字符被确定为具有最高概率。

这种基于数十亿个概率生成自然语言响应的能力并不可怕,相反,它应该被利用来创造商业价值。当您使用现代技术时,结果会变得更好。例如,使用检索增强生成 (RAG) 和微调等技术,您可以了解LLM您的特定业务。实现这些类似人类的结果将需要数据,而您的基础设施将需要强大的数据存储解决方案。

这些下一个代币预测功能不仅可用于为您的聊天机器人或营销文案生成出色的文本,而且还可用于在您的应用程序中实现自动决策。给定包含问题陈述和可调用的 API(“函数”)信息的巧妙构造的提示,对语言的理解将使其能够生成一个答案,LLM解释应该调用什么“函数”。例如,在对话式天气应用程序上,用户可能会问:“如果我今晚要去芬威球场,我需要一件雨衣吗?通过一些巧妙的提示,可以从LLM查询(马萨诸塞州波士顿)中提取位置数据,并可以确定如何制定对 Weather.com Precipitation API的请求。

在很长一段时间里,构建软件最困难的部分是自然语言和语法系统(如API调用)之间的接口。现在,具有讽刺意味的是,这可能是最简单的部分之一。与文本生成类似,LLM函数调用行为的质量和可靠性可以通过使用微调和强化学习与人类反馈 (RLHF) 来辅助。

现在我们了解了什么是LLMs擅长的,为什么,让我们来研究一下什么LLMs不能做。

弱点

LLMs不能思考、理解或推理。这是 的根本限制LLMs。语言模型缺乏对用户问题进行推理的能力。它们是概率机器,可以对用户的问题产生非常好的猜测。无论猜测有多好,它仍然是一个猜测,无论产生这些猜测什么,最终都会产生一些不真实的东西。在生成式人工智能中,这被称为“幻觉”。

如果训练得当,幻觉可以保持在最低限度。微调和 RAG 也大大减少了幻觉。底线 - 要正确训练模型,对其进行微调并为其提供相关上下文 (RAG),需要数据和基础设施来大规模存储它并以高性能的方式提供它。

让我们再看一个方面LLMs,我将其归类为危险,因为它会影响我们测试它们的能力。

危险

最流行的用途LLMs是生成式 AI。生成式 AI 不会产生可以与已知结果进行比较的特定答案。这与其他 AI 用例形成鲜明对比,后者做出的特定预测可以轻松测试。测试模型的图像检测、分类和回归非常简单。但是,如何以公正、忠实于事实和可扩展的方式测试LLMs用于生成式 AI 的用途?如果您自己不是专家,您如何确定生成的复杂答案LLMs是正确的?即使您是专家,人工审阅者也不能参与 CI/CD 管道中发生的自动化测试。

业内有一些基准可以提供帮助。GLUE(General Language Understanding Evaluation,通用语言理解评估)用于评估和衡量 LLMs.它由一组任务组成,用于评估模型处理人类语言的能力。SuperGLUE 是 GLUE 基准测试的扩展,它引入了更具挑战性的语言任务。这些任务涉及共指解析、问答和更复杂的语言现象。

虽然上面的基准很有帮助,但解决方案的很大一部分应该是你自己的数据收集。请考虑记录所有问题和答案,并根据自定义结果创建自己的测试。这还需要一个能够扩展和执行的数据基础设施。

你有它。的优点、缺点和危险LLMs。如果您想利用第一个问题并缓解其他两个问题,那么您将需要数据和可以处理大量数据的存储解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/255312.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用UMAP降维可视化RAG嵌入

大型语言模型(LLMs)如 GPT-4 已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs 的推理过程也缺乏透明度,使用户难以理解达成结论…

【Linux】make和Makefile

目录 make和Makefile make和Makefile 我们使用vim编辑器的时候,在一个文件里写完代码要进行编译,要自己输入编译的指令。有没有一种可以进行自动化编译的方法——makefile文件,它可以指定具体的编译操作,写好makefile文件&#x…

新零售的升维体验,摸索华为云GaussDB如何实现数据赋能

新零售商业模式 商业模式通常是由客户价值、企业资源和能力、盈利方式三个方面构成。其最主要的用途是为实现客户价值最大化。 商业模式通过把能使企业运行的内外各要素整合起来,从而形成一个完整的、高效率的、具有独特核心竞争力的运行系统,并通过最…

【el-tree 文字过长处理方案】

文字过长处理方案 一、示例代码二、关键代码三、效果图 一、示例代码 <divstyle"height: 600px;overflow: auto"class"text item"><el-treeref"tree":data"treeData":props"defaultProps"class"filter-tree&…

fast.ai 深度学习笔记(四)

深度学习 2&#xff1a;第 2 部分第 8 课 原文&#xff1a;medium.com/hiromi_suenaga/deep-learning-2-part-2-lesson-8-5ae195c49493 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 来自 fast.ai 课程的个人笔记。随着我继续复习课程以“真正”理解它&#xff0c;这…

6.0 Zookeeper session 基本原理详解教程

客户端与服务端之间的连接是基于 TCP 长连接&#xff0c;client 端连接 server 端默认的 2181 端口&#xff0c;也就 是 session 会话。 从第一次连接建立开始&#xff0c;客户端开始会话的生命周期&#xff0c;客户端向服务端的ping包请求&#xff0c;每个会话都可以设置一个…

数据分析基础之《pandas(6)—高级处理》

一、缺失值处理 1、如何处理nan 两种思路&#xff1a; &#xff08;1&#xff09;如果样本量很大&#xff0c;可以删除含有缺失值的样本 &#xff08;2&#xff09;如果要珍惜每一个样本&#xff0c;可以替换/插补&#xff08;计算平均值或中位数&#xff09; 2、判断数据是否…

爬虫练习——动态网页的爬取(股票和百度翻译)

动态网页也是字面意思&#xff1a;实时更新的那种 还有就是你在股票这个网站上&#xff0c;翻页。他的地址是不变的 是动态的加载&#xff0c;真正我不太清楚&#xff0c;只知道他是不变的。如果用静态网页的方法就不可行了。 静态网页的翻页&#xff0c;是网址是有规律的。 …

【正在更新】从零开始认识语音识别:DNN-HMM混合系统语音识别(ASR)原理

摘要 | Abstract TO-BE-FILLED 1.前言 | Introduction 近期想深入了解语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型&#xff0c;但是尽管网络上有许多关于DNN-HMM的介绍&#xff0c;如李宏毅教授的《深度学习人类语言处理》[1]&#xff0c;…

office 2021安装教程(官方自动批量激活,无付费)

全程不需要第三方软件&#xff0c;所有用到的工具都是微软官方的&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 基于KMS的 GVLK&#xff1a;https://learn.microsoft.com/zh-cn/deployoffice/vlactivation/gvlks 首先我们需要去下载 office 软件部署工具&a…

二、数据结构

链表 单链表 https://www.acwing.com/problem/content/828/ #include<iostream> using namespace std; const int N 1e5 10; //head:头节点的指向 e[i]:当前节点i的值 ne[i]:当前节点i的next指针 idx:当前存储的点 int head, e[N], ne[N], idx;//初始化 void i…

01动力云客之环境准备+前端Vite搭建VUE项目入门+引入Element PLUS

1. 技术选型 前端&#xff1a;Html、CSS、JavaScript、Vue、Axios、Element Plus 后端&#xff1a;Spring Boot、Spring Security、MyBatis、MySQL、Redis 相关组件&#xff1a;HiKariCP&#xff08;Spring Boot默认数据库连接池&#xff09;、Spring-Data-Redis&#xff08;S…

【多模态大模型】视觉大模型SAM:如何使模型能够处理任意图像的分割任务?

SAM&#xff1a;如何使模型能够处理任意图像的分割任务&#xff1f; 核心思想起始问题: 如何使模型能够处理任意图像的分割任务&#xff1f;5why分析5so分析 总结子问题1: 如何编码输入图像以适应分割任务&#xff1f;子问题2: 如何处理各种形式的分割提示&#xff1f;子问题3:…

43.1k star, 免费开源的 markdown 编辑器

简介 项目名&#xff1a; MarkText-- 简单而优雅的开源 Markdown 编辑器 Github 开源地址&#xff1a; https://github.com/marktext/marktext 官网&#xff1a; https://www.marktext.cc/ 支持平台&#xff1a; Linux, macOS 以及 Windows。 操作界面&#xff1a; 在操作界…

vueRouter中Hash模式和History模式有什么区别

VueRouter是Vue.js官方推荐的前端路由库&#xff0c;它提供了一种方便的方式来构建单页应用&#xff08;SPA&#xff09;。在使用VueRouter时&#xff0c;我们可以选择不同的路由模式&#xff0c;其中最常见的是Hash模式和History模式。本文将深入探讨这两种模式的区别&#xf…

资产管理系统技术架构设计与实现

资产管理系统在现代金融领域扮演着至关重要的角色。它不仅帮助机构有效管理和优化资产配置&#xff0c;还提供了风险控制、绩效评估等功能。本文将探讨资产管理系统的技术架构设计与实现&#xff0c;以帮助读者深入了解该系统&#xff0c;并为其开发和部署提供参考。 1. 概述资…

【算法与数据结构】496、503、LeetCode下一个更大元素I II

文章目录 一、496、下一个更大元素 I二、503、下一个更大元素II三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、496、下一个更大元素 I 思路分析&#xff1a;本题思路和【算法与数据结构】739、LeetCode每日温度类似…

spring boot和spring cloud项目中配置文件application和bootstrap中的值与对应的配置类绑定处理

在前面的文章基础上 https://blog.csdn.net/zlpzlpzyd/article/details/136065211 加载完文件转换为 Environment 中对应的值之后&#xff0c;接下来需要将对应的值与对应的配置类进行绑定&#xff0c;方便对应的组件取值处理接下来的操作。 对应的配置值与配置类绑定通过 Con…

排序算法---堆排序

原创不易&#xff0c;转载请注明出处。欢迎点赞收藏~ 堆排序&#xff08;Heap Sort&#xff09;是一种基于二叉堆数据结构的排序算法。它将待排序的元素构建成一个最大堆&#xff08;或最小堆&#xff09;&#xff0c;然后逐步将堆顶元素与堆的最后一个元素交换位置&#xff0c…

AI助力农作物自动采摘,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建作番茄采摘场景下番茄成熟度检测识别计数分析系统

去年十一那会无意间刷到一个视频展示的就是德国机械收割机非常高效自动化地24小时不间断地在超广阔的土地上采摘各种作物&#xff0c;专家设计出来了很多用于采摘不同农作物的大型机械&#xff0c;看着非常震撼&#xff0c;但是我们国内农业的发展还是相对比较滞后的&#xff0…