GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 挑战控制工程的新领域

介绍

论文地址:https://arxiv.org/abs/2404.03647

近年来,GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 等大规模语言模型(LLM)迅速发展,展示了它们解决复杂问题的能力。LLM 的这些发展在多个领域都有潜在的应用前景。

最显著的应用之一是控制工程。控制工程是一个涉及数学理论和设计的领域,有可能利用 LLM 的高级推理能力。然而,人们对 LLM 解决控制问题的能力还不完全了解。

因此,本研究旨在确定最先进的 LLM 在多大程度上可以解决大学级别的控制问题。作者开发了一个涵盖基础和应用控制工程的基准数据集 ControlBench,并全面评估了 GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra 这三个模型的性能。

这一举措有望凸显 LLM 在控制工程领域的潜力和局限性,并为人工智能与控制工程的未来融合提供重要见解。

相关研究

开发 ControlBench 数据集

作者构建了一个 ControlBench 数据集,涵盖了大学级别的控制问题。该数据集涵盖控制工程的多个领域,包括稳定性、瞬态响应、方框图、控制系统设计、波特图和奈奎斯特图。该数据集还包括需要可视化信息的问题,旨在全面评估 LLM 的分析能力。

ControlBench 数据收集自教科书和在线资料,并以 LaTeX 格式整理。每个问题还提供了详细的答案和解释,可用于评估 LLM 的性能。

评估 LLM 解决控制问题的能力

上图显示了 GPT-4 和 Claude 3 Opus 的错误类型和百分比;定义了七种错误模式,并对其百分比进行了比较。

首先,可以看出 GPT-4 的主要挑战在于其 “有限的推理能力”。换句话说,从逻辑上解释控制问题并推导出正确的解决方案被认为是 GPT-4 的弱点。

另一方面,Claude 3 Opus 面临的最大挑战是 “计算错误”。它似乎很容易在数学处理方面出错,如公式的转换和数字计算的准确性。

然而,两者之间的比较表明,Claude 3 Opus 因 "推理能力有限 "而出现的错误较少。这说明,在对控制理论的理解和推理能力方面,Claude 3 Opus 更胜一筹。

因此,利用图 1 对每种 LLM 的优势和挑战进行定量比较和分析,可以清楚地表明 LLM 解决控制问题能力的特点。这一分析结果是将 LLM 应用于控制工程的重要发现。

关于 ControlBench-C 的建议

使用 ControlBench 进行的详细评估很有意义,但对于非控制工程专家来说,难度偏高。因此,作者提出了一个更简单的版本,即 ControlBench-C。

ControlBench-C 以单选题取代了 100 道 ControlBench 题目。通过这种形式,无需控制工程方面的专业知识,就能快速自动地评估 LLM 的反应。

ControlBench-C 要求用户输入 LLM 选项的答案及其推理,并计算正确答案百分比(ACC)和自我修正后的正确答案百分比(ACC-s)。通过这种方法,非控制专家可以了解 LLM 解决控制问题的基本能力。

ControlBench-C 的定位是 ControlBench 的补充:ControlBench 提供详细的见解,而 ControlBench-C 的特点是能够进行简单的自动评估。预计在未来的研究中,两者将分别使用。

结论

本文开创性地研究了大规模语言模型(LLM)在控制工程中的适用性。作者开发了一个名为 ControlBench 的基准数据集,并用三种 LLM(GPT-4、Claude 3 Opus 和 Gemini 1.0 Ultra)对其进行了评估。

结果表明,Claude 3 Opus 在解决控制问题方面表现最佳。另一方面,也证实了 LLMs 仍存在一些问题,如处理需要视觉信息的问题和计算错误的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/408103.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Adobe After Effects的插件--------CC Ball Action

CC Ball Action是粒子效果器,其将2D图层变为一个个由3D小球构成的图层。它是AE内置的3D插件。 使用条件 使用该插件的图层需是2D图层。 我们以一张图片素材为例: 给图片图层添加CC Ball Action效果控件,然后新建一个摄像机(利用摄像机旋转、平移、推拉工具,方便在各个角…

探究Python中的函数与模块

一、引言 随着程序的复杂度增加,代码的组织与重用性就显得尤为重要。为了编写更加结构化、易于维护的代码,函数和模块的使用是必不可少的。 函数是Python中最基本的代码组织形式,通过将代码封装成函数,我们可以实现代码的重用、…

C++不同数据类型连接成一个字符串

在C中数据连接的方式使用号进行连接。 1.都是字符型时直接使用连接几个字符串; 2.不是字符类型时,要用to_string函数转换后再连接。

【C语言】浮点型数据在内存中的储存

浮点型数据在内存中的储存 文章目录 浮点型数据在内存中的储存引例概念提出浮点型数据储存规定对于有效数字M的特别规定对于指数E的特别规定指数E的储存指数E的读取 利用规则解释原因 在之前学习过整形数据在内存中的储存后,浮点型数据在内存中的储存又会怎样呢&…

android 实现简易音乐播放器

音乐App 源代码 : 简易音乐APP源代码 1、简介 一个简易的音乐APP,主要练习对四大组件的应用。感兴趣的可以看看。 播放界面如下: 歌曲列表界面如下: 项目结构如下: 接下来将对代码做详细介绍: 2、Musi…

Leetcode876. 链表的中间结点(双指针)

题目描述 给你单链表的头结点 head ,请你找出并返回链表的中间结点。 如果有两个中间结点,则返回第二个中间结点。 示例: 示例 1: 输入:head [1,2,3,4,5] 输出:[3,4,5] 解释:链表只有一个中…

【蓝桥杯冲刺省一,省一看这些就够了-C++版本】蓝桥杯C++STL及相关练习题

蓝桥杯历年省赛真题 点击链接免费加入题单 STL map及其函数 map<key,value> 提供一对一的数据处理能力&#xff0c;由于这个特性&#xff0c;它完成有可能在我们处理一对一数据的时候&#xff0c;在编程上提供快速通道。map 中的第一个值称为关键字(key)&#xff0c;…

python 多进程 多线程 程序

这个纯粹为了增加理解&#xff0c;将很多比较好的资料进行归纳总结。 1、理论汇总 并发和并行 image.png 多进程和多线程 同步和异步 同步&#xff1a;所谓同步&#xff0c;就是在发出一个功能调用时&#xff0c;在没有得到结果之前&#xff0c;该调用就不会返回。 异步…

C语言刷题日记(附详解)(2)

一、有理数加法 输入格式&#xff1a; 输入在一行中按照a1/b1 a2/b2的格式给出两个分数形式的有理数&#xff0c;其中分子和分母全是整形范围内的正整数。 输出格式&#xff1a; 在一行中按照a/b的格式输出两个有理数的和。注意必须是该有理数的最简分数形式&#xff0c;若…

​14:00面试,14:06就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到5月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%…

Linux系统下的容器安全:深入解析与最佳实践

在云计算和微服务架构的推动下&#xff0c;容器技术因其高效、可移植和灵活的特点&#xff0c;已经成为现代软件开发和部署的首选方案。然而&#xff0c;容器的广泛应用也带来了新的安全挑战&#xff0c;尤其是在Linux系统下&#xff0c;容器安全的实现和维护变得尤为重要。本文…

如何使用python脚本爬取微信公众号文章?

1、什么是爬虫&#xff1f; 在座的各位可能经常听到一个词&#xff0c;叫“爬虫”&#xff0c;这是一种能够悄无声息地将网站数据下载至本地设备的程序。利用爬虫&#xff0c;您无需亲自访问特定网站&#xff0c;逐个点击并手动下载所需数据。相反&#xff0c;爬虫能够全自动地…

STM32——PWM波形输出

一、IC和OC 可以看到&#xff1a;定时器除了基本的定时中断功能&#xff0c;输入捕获、输出比较均是STM32定时器的功能 输入捕获IC&#xff08;Input Capture&#xff09; 输入捕获是一种用于测量外部信号脉冲宽度或频率的技术。它通过定时器模块捕获外部信号的特定事件&…

2024年AI编程新手必备工具,快速提升技能!

在当今这个技术日新月异的时代&#xff0c;AI编程已成为一个越来越重要的领域&#xff0c;吸引着众多新手和希望提升自己的中级开发者进入。 对于这些渴望在AI领域快速成长的人来说&#xff0c;选择合适的编程工具是至关重要的。 接下来&#xff0c;我们将深入探讨几款市场上…

Aria2安装和使用-Mac版

起因是需要网盘下载&#xff0c;无奈限速很烦&#xff0c;查找很多方案后&#xff0c;最终决定使用Aria2 Tampermonkey。 其中Aria2是一款开源轻量的下载软件&#xff0c;简单来说就是可以通过URL直接下载。 Tampermonkey则是一款插件&#xff0c;我这里是.crx结尾的谷歌插件…

抢单源码修正版,带教程,自动抓取订单,十几种语言可自动切换

亚马逊抢单源码自动抓取订单任务邀请英文,西班牙语可自动切换语言亲测修正版。带完整开源的前后台。 西班牙,英文&#xff0c;巴西&#xff0c;中文&#xff0c;德国&#xff0c;拉法兰西&#xff0c;荷兰&#xff0c;缅甸&#xff0c;Sverige&#xff0c;日本&#xff0c;Trk…

专利权和版权有什么区别?

专利权和版权有什么区别&#xff1f;

SD差点挂掉,后备军们兴奋入场,AI生图应用正在爆发?

前后不到一个月&#xff0c;两个开源生图模型相继上线。 首先是由称得上 SD 原班人马的黑森林实验室推出的 FLUX.1。黑森林实验室由 Stable Diffusion 的核心开发者 Robin Rombach 领衔创立&#xff0c;团队成员基本上都是 Stable Diffusion 3 的作者&#xff0c;其中三名元老…

内存管理篇-04伙伴系统

本小节有几个重要的知识点&#xff1a; 伙伴系统的思想伙伴系统的实现伙伴系统分配器&#xff1a;内存块的申请、释放过程伙伴算法和阶数 1.伙伴系统的思想 针对某个某个zone分区&#xff0c;&#xff08;1&#xff09;把物理地址相连的空闲页连接起来合成一个物理块&#xf…

数据结构——冒泡、选择、插入和希尔排序

目录 引言 冒泡排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 选择排序 1.算法思想 2.算法步骤 3.代码实现 (1)优化前 (2)优化后 4.复杂度分析 插入排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 希尔排序 1.算法思想 2.算法步骤 3.代码实…