OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

ChatGPT 开发商 OpenAI 构建人工智能的方法本周遭到了前员工的抨击,他们指责该公司利用可能有害的技术冒不必要的风险。今天,OpenAI 发布了一篇新的研究论文,目的显然是为了表明它在通过提高模型的可解释性来应对人工智能风险方面的认真态度。

在这里插入图片描述
在论文中,该公司的研究人员提出了一种窥探为 ChatGPT 提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念–包括那些可能导致人工智能系统行为失常的概念。

虽然这项研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近解散的"超对齐"团队完成,该团队致力于研究技术的长期风险。

前小组的共同负责人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票解雇了首席执行官山姆-奥特曼(Sam Altman),引发了几天的混乱,最终奥特曼重返领导岗位。

ChatGPT 由一个名为 GPT 的大型语言模型系列提供支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力,但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用,使得逆向分析 ChatGPT 这样的系统为何会得出特定的反应极具挑战性。

这项工作背后的研究人员在一篇随附的博文中写道:“与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为,包括 ChatGPT 在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐藏信息或以有害的方式行事,以实现它们的目标。”

OpenAI 的这篇新论文概述了一种技术,该技术借助额外的机器学习模型,识别代表机器学习系统内部特定概念的模式,从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络,从而提高效率。

OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的概念,包括亵渎和色情内容。了解一个模型是如何表现某些概念的,这将有助于减少与不受欢迎的行为相关的概念,使人工智能系统保持正常运行。它还可以调整人工智能系统,使其偏向于某些主题或想法。

尽管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为,该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时,只需让人工只能机器人解释其推理过程,就能获得深刻的见解。

东北大学从事人工智能可解释性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:"这是令人兴奋的进展。“作为一个领域,我们需要学习如何更好地理解和审视这些大型模型。”

鲍说,OpenAI 团队的主要创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技术还需要改进,以使其更加可靠。要利用这些方法创造出完全可以理解的解释,还有很多工作要做。"

鲍是美国政府资助的一项名为"国家深度推理结构"(National Deep Inference Fabric)的工作的一部分,这项工作将向学术研究人员提供云计算资源,以便他们也能探索特别强大的人工智能模型。他说:“我们需要想办法让科学家即使不在这些大公司工作,也能从事这项工作。”

OpenAI 的研究人员在论文中承认,要改进他们的方法还需要进一步的工作,但他们也表示,希望这种方法能带来控制人工智能模型的实用方法。他们写道:“我们希望有一天,可解释性能为我们提供推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为提供强有力的保证,大大增加我们对它们的信任。”

阅读论文全文:

https://cdn.openai.com/papers/sparse-autoencoders.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343891.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机组成原理(一)

冯诺依曼机器的特征: 指令和数据以同等的地位存储在存储器当中指令和数据都是二进制指令和数据都是保存在存储器当中的 存储字 每个存储单元中的数据,称为存储字 存储字长 存储单元能够存储的二进制数据的长度 在一个8位系统中,字长是…

【C++进阶】深入STL之list:模拟实现深入理解List与迭代器

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:初步了解 list 🌹🌹期待您的关注 🌹🌹 ❀STL之list 📒1. list…

计算机的存储规则

计算机中的数据只有三类:Text 文本,Image 图片,Sound 声音。 文本包括数字、字母和汉字等。 视频是图片和声音的组合。 在计算机中,任何数据都是以二进制的形式来存储的。 数字的存储:转换为二进制进行存储。 字符…

[线程与网络] 网络编程与通信原理(六):深入理解应用层http与https协议(网络编程与通信原理完结)

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏:🍕 Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 🧀Java …

【Java面试】九、微服务篇-SpringCloud(上)

文章目录 1、SpringCloud五大组件2、服务注册和发现2.1 Eurake2.2 Eurake和Nacos的区别 3、Ribbon负载均衡3.1 策略3.2 自定义负载均衡策略 4、服务雪崩与熔断降级4.1 服务雪崩4.2 服务降级4.3 服务熔断 5、服务限流5.1 Nginx限流5.2 网关限流 6、微服务监控7、面试 1、SpringC…

qq号码采集软件

寅甲QQ号码采集软件, 一款采集QQ号、QQ邮件地址,采集QQ群成员、QQ好友的软件。可以按关键词采集,如可以按地区、年龄、血型、生日、职业等采集。采集速度非常快且操作很简单。

【TIPs】 Visual Stadio 2019 中本地误使用“git的重置 - 删除更改 -- hard”后,如何恢复?

环境: VS 2019Windows10本地版本管理(非远程) 前言: git 在Visual Stadio 2019中集成了git的版本管理,在本地用来做版本管理,本来比较好用。 不过有一次,由于拿最初始的版本的时候&#xf…

C++教程(003):运算符

3 运算符 作用:用于执行代码的运算 我们主要讲解以下运算符: 运算符类型作用算术运算符用于处理四则运算赋值运算符用于将表达式的值赋给变量比较运算符用于表达式的比较,并返回一个真值或假值逻辑运算符用于根据表达式的值返回真值或假值 …

swaggerHole:针对swaggerHub的公共API安全扫描工具

关于swaggerHole swaggerHole是一款针对swaggerHub的API安全扫描工具,该工具基于纯Python 3开发,可以帮助广大研究人员检索swaggerHub上公共API的相关敏感信息,整个任务过程均以自动化形式实现,且具备多线程特性和管道模式。 工具…

TCP攻击是怎么实现的,如何防御?

TCP(Transmission Control Protocol)是互联网协议族中的重要组成部分,用于在不可靠的网络上提供可靠的数据传输服务。然而,TCP协议的一些特性也使其成为攻击者的目标,尤其是DDoS(Distributed Denial of Ser…

解决方案:昇腾aarch64服务器安装CUDA+GCC+CMake,编译安装Pytorch,华为昇腾HPC服务器深度学习环境安装全流程

目录 一、安装CUDA和cudnn1.1、下载CUDA驱动1.2、安装CUDA驱动1.3、配置环境变量1.4、安装cudnn1.5、安装magma-cuda 二、安装gcc编译器三、安装CMake四、安装NCCL五、编译安装Pytorch5.1、前提准备5.2、下载pytorch源码5.3、配置环境变量5.4、Pytorch编译安装5.5、测试Pytorch…

mysql中 redo日志(下)

大家好。上篇文章我们介绍了什么是redo日志以及redo日志的写入过程。建议没看过上篇文章的同学先看一下《mysql那些事儿》之 redo日志(上),今天我们继续来说一说redo日志。 一、redo日志文件 1. redo日志刷盘时机 我们知道mtr运行过程中产…

这才是计科之 Onix XV6 源码分析(3、Unix-like系统的进程调度模块)

这才是计科之 Onix & XV6 源码分析(3、Unix-like系统的进程调度模块) 前言 前面已经分析了XV6的启动流程以及内存管理,接下来,我们探究进程调度的实现。与其说进程调度,我觉得可以顺应内存的虚拟化的叫法&#x…

禁用layui树形表格的多选框checkbox

1. 背景 在使用树形表格渲染数据时,需要对数据进行批量操作。相对于选中数据后,再做错误提示。直接把数据的多选框禁用掉更加直观。 2. 实现 DisabledTableCheckBox: () > {// 获取所有行 var tableElem $(".layui-table-fixed-l");var …

ALSA 用例配置

ALSA 用例配置。参考 ALSA 用例配置 来了解更详细信息。 ALSA 用例配置 用例配置文件使用 配置文件 语法来定义静态配置树。该树在运行时根据配置树中的条件和动态变量进行评估(修改)。使用 用例接口 API 解析结果并将其导出到应用程序。 配置目录和主…

【Git】如何不管本地文件,强制git pull

要在 Git 中强制执行 git pull 操作,忽略本地文件的更改,可以按照以下步骤操作: 保存当前工作状态:如果你有未提交的更改,可以使用 git stash 将这些更改存储起来。 git stash强制拉取最新代码:使用 git re…

java第二十一课 —— 快捷键,包,访问修饰符

IDEA 快捷键 删除行:Ctrl Y复制行:Ctrl D补全代码:Alt /添加取消注释:Ctrl /导入该行需要的类:Alt Enter快速格式化代码:Ctrl Shift L快速运行程序:Ctrl Shift F10生成构造器&#xf…

鸿蒙OS初识

学习官网:https://www.harmonyos.com/cn/develop 准备 注册,安装软件(node:12, DevEco Studio): https://developer.harmonyos.com/cn/docs/documentation/doc-guides/software_install-0000001053582415#ZH-CN_TOP…

【Rust】——面向对象设计模式的实现

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大二学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL&#xff0…

算法题--华为od机试考试(围棋的气、用连续自然数之和来表达整数、亲子游戏)

目录 围棋的气 题目描述 输入描述 示例1 输入 输出 解析 答案 用连续自然数之和来表达整数 题目描述 输入描述 输出描述 示例1 输入 输出 说明 示例2 输入 输出 解析 答案 亲子游戏 题目描述 输入描述 输出描述 示例1 输入 输出 说明 示例2 输入…