WORFBENCH:一个创新的评估基准,目的是全面测试大型语言模型在生成复杂工作流 方面的性能。

2024-10-10,由浙江大学和阿里巴巴集团联合创建的WORFBENCH,一个用于评估大型语言模型(LLMs)生成工作流能力的基准测试。它包含了一系列的测试和评估协议,用于量化和分析LLMs在处理复杂任务时分解问题和规划执行步骤的能力。WORFBENCH 通过模拟多种应用场景和复杂的图结构工作流,为研究人员提供了一个统一的框架来评估和比较不同LLMs的性能。

一、研究背景:

随着大型语言模型在处理复杂任务方面能力的显著提升,将复杂问题分解为可执行的工作流成为了实现实际部署的关键步骤。然而,现有的工作流评估框架要么只关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等限制。

目前遇到困难和挑战:

1、现有的评估基准大多只关注功能调用任务,忽视了更复杂的工作流结构,如并行性。

2、LLMs在生成工作流时容易受到幻觉和歧义的影响,导致评估缺乏系统性。

3、当前的工作流评估过于依赖GPT-3.5/4,而这些模型本身在复杂任务规划中的表现并不理想。

数据集地址:WORFBENCH|大型语言模型数据集|工作流生成数据集

二、让我们来一起看一下WORFBENCH

WORFBENCH是一个统一的工作流生成基准,包含多方面的应用场景和复杂的图结构工作流,目的全面提升LLMs的工作流生成能力。涵盖了问题解决、功能调用、具身规划和开放性规划等四种复杂的应用场景,包含了18k训练样本、2146个测试样本和723个用于评估泛化能力的保留任务。

整个构建过程包括任务的收集、节点链的构建、工作流图的生成以及严格的质量控制和数据过滤。通过GPT-4生成节点链和工作流图,并通过拓扑排序算法和人工评估来确保数据集的质量。

WORFBENCH提供了一套系统化的评估协议WORFEVAL,使用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。此外,还支持对不同规模的LLMs进行评估,并可以分析工作流如何增强端到端模型的性能。

基准测试 :

通过在WORFBENCH上的综合评估,研究人员发现即使是GPT-4这样的模型,在图结构化工作流的预测能力上也远远达不到实际要求,性能差距约为15%。此外,通过训练开源模型并评估其在保留任务上的泛化能力,进一步证明了WORFBENCH的有效性和实用性。

概述框架WORFBENCH:第1 扇区是基准构建,我们首先合成节点链,然后是工 作流图。第二部分是我们的数据过滤过程(§。第3部分描述了WORFEVAL中的算法,以评 估LLM代理的预测工作流。第四部分是我们WORFBENCH的详细数据点。请注意,图中的每个 节点都由其颜色唯一标识。

我们使用相同的精心设计指令和两个示例来评估所有模型。我们根据模型是否开源以及它们的规模对模型进行分类。每个类别中的最佳结果用粗体标出,第二好的结果用下划线标出。

三、让我们一起展望 WORFBENCH的应用:

想象一下,你是一个智能家居系统的AI大脑。

你的任务是帮助主人准备一个晚餐。主人家今天回来很多小朋友,所以这个重任就落在了你的肩上。

首先,你得检查一下家里的食材库存。你控制着家里的智能冰箱,查看了里面的蔬菜和肉类,发现冰箱里有新鲜的番茄和牛肉,但是缺少了一些香料和饮料。于是,你生成了一个购物清单,并通过智能家居系统发送给了主人。

主人回来后,根据你的清单采购了所需的物品。现在,你得开始规划晚餐的菜单和烹饪流程了。你决定做一道经典的番茄牛肉意面。你根据冰箱里的食材和主人新买的香料,制定了一个详细的烹饪计划。

烹饪开始了,你首先指导主人把牛肉切成薄片,然后用橄榄油、大蒜和香料腌制。同时,你还控制着智能烤箱预热到合适的温度。牛肉腌制好后,你指导主人将其放入烤箱中烤制。

在牛肉烤制的同时,你也没闲着,开始准备意面和番茄 sauce。你指导主人把意面放入锅中煮熟,同时用智能搅拌机打碎番茄,制作出新鲜的番茄酱。你还控制着智能定时器,确保意面不会煮过头。

最后,当一切准备就绪,你指导主人将烤好的牛肉和热腾腾的番茄酱与意面混合,撒上一些新鲜的芝士,一道美味的番茄牛肉意面就完成了。

在这个过程中,你不仅要处理厨房里的各种智能设备,还要根据实际情况灵活调整计划。比如,当发现烤箱预热不够快时,你得决定是否先准备酱料,或者调整烤箱的温度。这就像是在玩一个实时策略游戏,你得随时做出决策,确保一切都能按时完成。

最后,一盘盘香气扑鼻、味道鲜美、色泽诱人的意面被小吃货们一扫而光。嚷嚷着下次还要来做客。

一个大型语言模型在动态环境中执行动作的能力,它需要理解任务、规划步骤、控制设备,并且能够根据实际情况灵活调整计划。这种能力对于智能家居系统来说是非常有价值的,它可以让家庭生活更加便捷和高效。

来吧,让我们走进:多摄像头视图推荐数据集|模型泛化数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/457181.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧停车场导航系统架构及反向寻车系统解决方案

一、系统概述: 随着当前室内定位导航技术在大型公共场所如政务中心、商业综合体、车站中的应用越来越多,人们对智慧停车场的需求也日益凸显出来,并且智慧停车场对大型公共场所智慧化的整体建设起到重要作用。如何更有效提高停车效率&#xf…

如何加密电脑磁盘?电脑本地磁盘加密方法介绍

随着信息技术的不断发展,电脑磁盘加密已经成为保护个人隐私和数据安全的重要手段。本文将介绍几种常见的电脑本地磁盘加密方法,帮助用户保护自己的数据安全。 文件夹只读加密专家 文件夹只读加密专家不仅可以加密电脑中的文件夹,还可以加密保…

Android 13 SystemUI 隐藏下拉快捷面板部分模块(wifi,bt,nfc等)入口

frameworks/base/packages/SystemUI/src/com/android/systemui/qs/tileimpl/QSFactoryImpl.java createTileInternal(tileSpec)方法注释想隐藏的模块即可。

【C++进阶篇】——STL的简介

【C进阶篇】——STL的简介 1.什么是STL STL(standard template libaray-标准模板库):是C标准库的重要组成部分,不仅是一个可复用的组件库,而且是一个包罗数据结构与算法的软件框架。 2.STL的版本 原始版本 Alexander Stepanov、Meng Lee 在…

redis集群配置

一、Redis集群的三种方式 Redis集群提供了三种分布式方案:主从模式:一个主节点和一个或多个从节点,主节点负责写操作,从节点负责读操作,实现读写分离,分担主节点的压力。哨兵模式:哨兵系统用于监…

【每日一题】LeetCode - 盛最多水的容器

给定一个长度为 n 的整数数组 height。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i])。要求找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 输入示例: height [1,8,6,2,5,4,8,3,7]输出: 4…

Python依赖库的几种离线安装方法

Python依赖库的几种安装方法 python经常需要安装一些依赖库,但是有时候环境可以连通python源,有时不能连通需要离线安装(安装单个库包或者整个库环境),使用pip的如下方法可以相对简单解决问题。 一、如何copy一个pyt…

Linux 端口占用 kill被占用的端口 杀掉端口

1、yum install lsof 2、输入netstat -tln,查看系统当前所有被占用端口 3、根据端口查询进程,输入lsof -i :9555,切记不要忘了添加冒号 4、 既然知道进程号了,那杀死当前进程就简单多了,直接 kill -9 PID 回车

如何通过企业架构蓝图引导企业实现数字化转型:构建与实施的全方位指南

在当今迅速变化的商业环境中,企业进行数字化转型已成为提升竞争力、优化运营的必要手段。企业架构蓝图(EA Blueprint)作为指导企业数字化转型的战略工具,不仅提供了系统化的设计和规划路径,还帮助企业在技术与业务目标…

【读书笔记·VLSI电路设计方法解密】问题26:什么是漏电流问题

功耗现已成为半导体行业面临的主要技术难题。在当前基于CMOS的VLSI电路中,有两种主要的功耗来源:动态功耗和静态功耗。动态功耗来源于晶体管的切换以及芯片上数百万逻辑门输出端的电容反复充电和放电,是芯片为产生有效输出所消耗的能量。静态功耗则指即使在晶体管关闭时也会…

法治在沃刷积分-刷文章浏览数

最近有一个任务,需要通过浏览文章来获取积分,一个个手点文章太麻烦,专业的事情还得专业的来。 法1:模拟发包 抓包发现,是通过接口来使积分增长,那直接模拟发包即可。 至于info_id的获取,可以通…

2024年全球 MoonBit 编程创新赛-零基础早鸟教程-使用wasm4八小时开发井子棋小游戏

前言 本篇文章主要分享 “2024年全球 MoonBit 编程创新赛 游戏赛道”参赛过程中九宫棋游戏的开发技巧和心得。以此抛砖引玉。首先介绍下 MoonBit。 月兔语言 MoonBit 是一个用于云计算和边缘计算的 WebAssembly 端到端的编程语言工具链。 您可以访问 https://try.moonbitlang.…

文本预处理操作简述

自然语言处理 (NLP) 是数据科学的一个分支,主要处理文本数据。除了数值数据外,文本数据也广泛可用,用于分析和解决业务问题。然而,在使用数据进行分析或预测之前,处理数据非常重要。 我们执行文本预处理来准备用于模型…

mysql的卸载与安装

一、mysql的卸载 1、用管理员模式的打开cmd,我的服务名是mysql。 net stop 【你的服务名】 sc delete 【你的服务名】 2、将下图中有包含‘bin’目录,‘data’目录等等的这个总目录删掉 如图我的目录是:mysql-5.7.28-winx64 3、删除mysql的隐…

代码随想录算法训练营Day39 | 卡玛网-46.携带研究材料、416. 分割等和子集

目录 卡玛网-46.携带研究材料 416. 分割等和子集 卡玛网-46.携带研究材料 题目 卡玛网46. 携带研究材料(第六期模拟笔试) 题目描述: 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成…

day3:管道,解压缩,vim

一,管道(|) 引入 当我们要将本次命令结果作为下次命令参数时就可以用到,极大的简化了操作。 比如:head -5 文件| tail -1:表示显示第五行这就是管道的魅力 概述 管道符:| 作用&#xff1a…

【论文阅读】ESRGAN+

学习资料 论文题目:进一步改进增强型超分辨率生成对抗网络(ESRGAN : FURTHER IMPROVING ENHANCED SUPER-RESOLUTION GENERATIVE ADVERSARIAL NETWORK)论文地址:2001.08073代码:ncarraz/ESRGANplus: ICASSP …

Android中的epoll机制

深入理解Android中的epoll机制 在Android系统中,epoll广泛用于高效管理网络和文件的I/O操作。它通过减少CPU资源消耗和避免频繁的内核态-用户态切换,实现了在多连接、多任务环境中的高性能。epoll的特性使其非常适合Android系统中网络服务器、Socket通信…

Android 15自定义设置导航栏与状态栏,EdgeToEdge适配

背景:android api 35,activity设置EdgeToEdge.enable((ComponentActivity) this)前提下 一、设置导航栏与状态栏颜色 设置的状态栏颜色,只需要设置fitsSystemWindows跟setOnApplyWindowInsetsListener xml设置: 代码:…

比例数据可视化(Python实现板块层级图绘制)——Instacart Market Basket Analysis

【实验名称】 实验一:绘制板块层级图 【实验目的】 1. 掌握数据文件读取 2. 掌握数据处理的方法 3. 实现板块层级图的绘制 【数据介绍】Instacart Market Basket Analysis 1. 数据说明 数据共有300 0000orders, 20 0000users, …