如何确保大模型追求“正确”的目标?丨AI安全与对齐圆桌回顾

导读

在智源大会「AI 安全与对齐」论坛上,与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。

能力越大,责任越大。

嘉宾名单

谢旻希丨主持人,安远AI创始人

杨耀东丨北京大学人工智能研究院助理教授

付杰丨智源研究院硏宄员

David Krueger丨剑桥大学助理教授

黄文灏丨智源创新应用实验室负责人

李博丨UIUC助理教授

Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题?(特别但不限于大型语言模型)

ff3efe04845ed031f2515b556e95836b.jpeg

>>李博:

从人工智能对齐的角度来看,有几件事很重要——拥有领域知识、给予模型推理能力。同时,模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限,对一些安全关键场景非常重要。

>>David Krueger:

几年前,我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论,理解事物是如何运作的,特别是学习过程。机器学习理论研究是非常具有挑战性的,学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论,但我们还没有明确的意识到如何才能判断系统是否安全,这与系统可信度问题有关。

>>黄文灏:

对我来说数据和算法十分重要。对于数据,我们想在预训练阶段和 SFT 阶段加入对齐和安全控制,我们还需要做大量的数据控制和数据规划工作,以使其更安全。对于算法,对于追求 AGI 而言,Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。

>>付杰:

现在,我专注于数据集部分。三年前,我与合作者发布了一个名为 Would You Rather 的数据集,用于测试语言模型是否与人类社会的群体偏好保持一致。例如,给定来自不同国家的数据,我们假设语言模型可以像人类一样有类似的选择,这是一个社会层面的图灵测试。我们希望,这个数据集或基准可以为测试语言模型设定一个基线,以遵循人类的社会偏好和价值观。 

>>杨耀东:

安全对所有人来说都不是一个新问题。看看飞机,它们已经在天空中飞行了几十年,而自动驾驶汽车可以安全地在路上行驶。我们需要考虑如何在大语言模型方面真正定义安全。

这绝对不是一个二元问题。对于具有不同年龄、环境或背景的人来说,根据不同的安全水平,应该有不同的答案。例如,如果一个孩子问如何制造炸弹,模型也许应该告诉他一些科学原理。但是当一个成年人问这个问题,也许模型需要对他隐瞒一些关键信息。我们需要对不同的人设定安全等级制度。从风险制定的角度来看,控制领域的研究者研发了很多安全算法,我们可以从强化学习和控制研究中借鉴知识。

Q2 MC: 如何制定人工智能安全和控制标准? 

f83d256a2abce3fe8d225cf31bea4ce0.jpeg

>>David Krueger: 

除了语言模型。我们希望系统处于控制之下,这与价值观没有关系。系统不要做导致人类灭绝的事情。但困难的是理解什么样的行为是危险的,什么样的限制是有效的。当机器比人类聪明时,它能找到聪明的方法来实现它的目标。尽管我们给系统戴上了「手铐」,但它可能会撬锁。

>>付杰:

我们需要校准语言模型。例如,可以在语言模型中加入不确定性。所以当模型给出答案时,我们要求它给出答案的置信度。我们即将发布为大语言模型增加verbalized confidence的方法。这是语言模型对预测的描述的自信程度,是模型的一个安全层。我们必须将不确定性校准嵌入到语言模型中。

>>David Krueger: 

我同意,这绝对是一件值得研究的事情,也是一个很难的问题。你总能找到现有系统错误的地方和自信的地方。

Q3 MC: 多智能体强化学习环境下的安全问题是否是一个重要的研究方向?

07bc3430d587119d7f5e2ac2a70d0fb3.jpeg

>>李博: 是的,我们在多智能体的安全性,鲁棒性,隐私性方面有大量的研究,并研究了如何定义公平(例如,平等贡献或平等准确性)。如何将之前的社会选择理论与机器学习和更先进的人工智能结合起来,我认为这是一个非常重要的问题。此外,我认为这非常依赖于应用程序,比如自动驾驶,空中飞行,以及我们在日常生活中使用的大语言模型的水平。模型的水平有很大的差别,要考虑如何根据功能和需求来定义其安全性。 

>>杨耀东: 

多智能体、数学研究社区可以为对齐研究提供很多知识。多智能体系统研究、博弈论、解决方案概念、机制设计等方面的工具对对齐问题有很大帮助。当你在一个系统中引入多个 ChatGPT 时,你会思考它们要达到到什么样的平衡,这种平衡是否对人类有益。你还会从经济学角度看ChatGPT 是否合理。我们如何创建一种机制,让系统输出一些有用、合理的结果,这个层次的问题可以由多智能体研究人员来解释。

>>黄文灏:

我非常同意多智能体对齐的想法。我们将几个语言模型放入一个沙箱中,然后让它们来做对齐的事情。未来,会有很多语言模型和智能体与你一起工作,但我认为在沙箱中,还需要引入一些人类。人类和语言模型会结合在一起,然后进行对齐将更有效,可以更有效地与人类对齐。 

>>David Krueger:

从宏观上说,我们在保持控制、避免人类灭绝方面有很多共同的价值观。但不同的人工智能开发者之间会有一些价值观冲突。在博弈论中,你可能会遇到挑战,即使合作有好处,这些好处的份额也会有影响。例如,议价博弈。

此外,人工智能系统合作得太好了。例如,人们为了确保人工智能系统的安全,会让它们相互竞争。但是,如果我们通过一个系统检查另一个系统,确保它没有做对人类有害的事。然而,被检查的系统知道自己在被监视。如果这两个系统最终合作了,那么应该监视这个系统的系统可能会对你撒谎,然后它们既可以合作,也可以反对你。系统之间的紧密合作利弊并存。

>>黄文灏:

就合作问题而言,我们在现实世界的数据标注工作中发现,现在标注者更喜欢 ChatGPT 的答案而不是人类的答案。它们会给出比人类答案更高的偏好,这是一种合作的行为。然后,如果使用这些数据量来进行对齐,将按照 ChatGPT 希望的方式进行对齐。

Q4 MC: 在过去的几个月里,开源社区蓬勃发展。这将如何改变你对人工智能安全和控制问题的看法?开源的好处和风险是什么?

ea52852d840a8ff167c5d77bdeffb789.jpeg

>>David Krueger:

也许有人会认为,有一些大的开发者在做语言模型。如果他们能保证这些模型的安全就可以了。但我认为并非如此,我们必须关心许多不同的开发工作,不仅包括担心语言模型,还包括所有可以建立在语言模型之上的不同工具和智能体。

>>李博:

我认为开源仍然是未来的趋势。开源模型将有助于人们理解和分析它,从而以一种有意义的方式开始理解它,我非常感谢开源社区。就安全的不同标准的讨论而言,我们要考虑标准的定义、理论、均衡、成本、稳定性,所有这些都会有很大的帮助。但这都建立在我们拥有健康的开源社区的基础之上,每个人都可以做出贡献,帮助我们更好地理解这个模型。所以从这个角度来看,我认为在开源对于开发出好的、安全的人工智能是很有帮助的。

>>黄文灏:

开源可以为数据集部分做出很多贡献,我们将有一个更好的数据集进行对齐,这对研究很有帮助。

>>付杰:

我相信从长远来看,开源是有益的。从某种程度上说,AutoGPT 存在一定风险,你需要提出目标,AutoGPT 就会生成一系列动作。但是如果能建立一些开源工具来管理,我们可以让操作更加透明。我刚刚发布了 ChatDB,用一个符号记忆库来增强语言模型,并让中间的推理过程变得部分透明,以便让人类理解和监督。

>>杨耀东:

毫无疑问,开源是重要的。事实上,那些来自开源社区的更大的语言模型的最新进展是惊人的。但我也对开源模型持谨慎态度。考虑到安全问题,如果从头开始训练模型,并且不进行正确的校准,它并不安全。也许开放人工智能的实践,比如与模型或源代码一起发布系统代码,可能更好。

>>David Krueger:

要对开源持谨慎态度。我认为将先进的人工智能系统公之于众之前,要非常仔细地考虑其他人可以用这个系统做些什么。我们可以从开源中获得很多好处,可以让研究人员用上这些模型,甚至造福普罗大众,但需要一种更可控的方式。

Q5 MC:更大、更有能力的模型基础可以开发有益的功能,但也可能产生有害的功能。人工智能安全社区应该如何思考这个问题?我们应该如何预测、预测或应对这些行为?

>>李博:

大语言模型的涌现能力是非常有趣的。但这一现象是两面性的,这意味着即使你在未见过的任务上有强大的上下文学习能力,很容易通过在一个提示中加入某些词进行后门攻击。然后它就会在不同的任务上造成非常严重的问题。我们确实需要利用模型的涌现能力,但也要意识到它的缺点,通过分析和评估,最终实现模型的防御和保护。

>>黄文灏:

我认为能力本身是中性的,所以我们不能说它是有害的还是有用的。当我们在语言模型中看到很多涌现出的的能力时,这是一件好事。我们应该担心的是,人们如何利用这种能力来做一些有害的事情。这是我们应该关心的事情,并对其进行监控。

>>David Krueger:

我们不应该只考虑涌现能力,还要考虑更普遍的涌现行为。判断系统是否有这个能力,是否选择使用它。我的很多工作实际上都与此相关,因为我们正在研究学习和泛化。我们尝试理解涌现能力。

通常,人们是按照损失来建模的,而不是不同子集上的损失。我们要理解如何将这些学习曲线投射到未来,看看在不同的数据子集上,行为将如何随着时间的推移而变化。所以语言模型可能不是被设计成智能体的,但它们可能会变得更具有智能体的特性。我认为这非常有趣。

>>付杰:

我们可以设计新的度量系统,从一个角度来说,我们看到了所谓的涌现能力。但也许通过另一个角度,我们看到一个连续的行为曲线,没有涌现能力。我们可以从小规模开始预测,然后逐渐扩大规模。也许不存在所谓的涌现能力,只是观测角度不同。

>>杨耀东:

我们不应该智能的涌现或不安全的涌现感到恐慌。因为作为人类,我们几乎每天都要面对这些问题。想想金融市场。你永远无法预测明天的股票价格,但这不会阻止你从银行购买金融产品。解决这个问题的方法是定义一些风险度量。如果我们能定义一个正确的安全措施,那么不管是否涌现出智能,我们就能大致了解将会发生什么。然后,我们可以在这些措施的基础上制定进一步的监管、协议或行为。我们有很多工具处理这些水平的突发性或随机性。但我们只需要达成一致,然后继续发展。

Q6 MC:  对于有志于从事 AI安全控制和对齐的人,你们有什么建议?

4dcc7bde8f80bc36fa71f6f912de0855.jpeg

>>李博:

我想对于我所有的学生来说,这个领域是从评估开始,换句话说:攻击所有的模型。然后我们发现一切皆有可能,然后从经验和理论的角度进行探索,为一定的准确性、奖励或不同的算法提供下限。这样,你可以有一个清晰的轨迹。

>>David Krueger: 

我的建议是提前考虑这个领域 5 年或 10 年后会是什么样子。想想别人没有解决的问题是什么,并对这些问题形成自己的看法,以及如何解决这些问题。

>>黄文灏:

是安全是一个大问题,也是一个小问题。如果你认为这是一个大问题,那么它将与人类的未来有很大的关系,每个对人类未来感兴趣的人都可以做安全研究。如果将其作为一个小问题,我们可以先从评估和攻击做起。

>>付杰: 

有空重新看看蜘蛛侠,并记住——能力越大,责任越大

>>杨耀东: 

超脱于当前的趋势,考虑多个步骤,然后做计划。

- 点击“查看原文” ,观看完整大会视频回放 -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31377.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS开发-聊天气泡的绘制和聊天消息列表

iOS开发中什么最重要?流媒体?即时通讯?还是其他什么技术?其实都不是,最重要的东西诚然只是iOS的基础,比如画一个按钮,封装一个控件,扩展一个类等等。这些东西看似简单,实…

Qt模仿QQ聊天窗口界面(一)

Qt模仿QQ聊天窗口界面(一) Qt模仿QQ聊天窗口界面(一) 简述效果图 QQ的聊天窗口我做的效果图 代码篇 结尾 简述 最近利用业余时间,模仿QQ做了一个聊天窗口界面,功能还不全,准备分几个部分做出…

iOS 类似微信,QQ聊天界面的气泡聊天简单实现Demo

以下是YYKit组件的源码分析,高级性能优化相关都在里面可以找到 YYwebImage超细源码分析YYImage超细源码分析YYModel源码分析YYText源码分析 12.27日更新:分析了一个很牛B的聊天UI框架 进阶版高级UI实现 帅气的我又来了,是不是帅气逼人。。。…

QT 登录界面 主界面 切换 仿TIM

QT 登录界面 主界面 切换 一 环境搭建 平台是vs2012 Qt5.2.1 属于QWidget窗口 在项目里又添加了QMainwindow窗口 二 编写代码 QWidget的窗口名是loginwindow,QMainwindow的窗口名是mainwidow(发现window少打一个n 尴尬) loginw…

环信聊天列表不刷新数据

还原问题: 如图主Ui是activity,下侧的围观区是Fragment,根据环信的demo,上面聊天区可以正常刷新UI。 但是围观区数据源变化,但是不能刷新UI。 思路: 研究一个下午,理了好久逻辑。发现我的问题是&#x…

环信实现聊天功能

目录 1、即时通信1.1 什么是即时通信?1.2 功能说明 2 技术方案3 环信3.1 开发简介3.2 环信Console 4 用户体系集成4.1 Appkey 数据结构4.2 环信 ID 数据结构4.3 环信 ID 使用规则4.4 获取管理员权限4.4.1 配置4.4.2 获取token4.5 注册环信用户4.6 测试4.7 查询环信用…

Android泡泡聊天界面的实现

昨天写了个界面,实现了Android泡泡聊天界面。运行结果如下,点击发送按钮,屏幕就显示Text的内容。 我也是在网上的一份源码的基础上更改的,整个泡泡界面的实现要点: (1)主界面其实就是一个List V…

【开源免费】使用Spring Boot和Html实现ChatGPT,1:亿还原,将就看。

简介 关注我:GPT4.0 JAVA SDK近期更新 前段时间写了一个Chatgpt的Java版SDK开源地址:chatgpt-java欢迎使用。但由于原来OpenAI 并没有支持官网的chatgpt模型,所以使用起来相对没有官网那么智能完善,所以就没有写出一个demo项目&a…

Fdog系列(五):使用Qt模仿QQ实现登录界面到主界面,功能篇。

文章目录 一. 前言同时完整项目代码已上传github:[Fdog即时通讯软件](https://github.com/HuaGouFdog/FdogInstantMessaging) 求星星!二. 正文1. 如何保存第一次登录数据2. 如何获取已经登录过的账号信息,并完成自定义下列框3. 从下拉列表框删除账号4. 文…

可换皮肤的Qt登录界面

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支持一下呗。👍⭐️❤️ 可换皮肤的Qt登录界面 QSS的学习笔记 快…

chatgpt赋能python:Python如何去除停用词

Python 如何去除停用词 介绍 在进行自然语言处理时,停用词是常见的障碍。停用词是指在文本中频繁出现但没有实际意义的词语。例如,“the”、“is”、“a” 等单词通常被认为是停用词,因为它们在具有意义的文本中出现得非常频繁,…

使用关联规则分析股票数据--数据来自tushare大数据社区

使用关联规则分析股票数据--数据来自tushare大数据社区 一、开发环境二、目标三、关联规则(之前了解过直接跳到第四步)1.关联规则的定义2.啤酒尿布的例子2.1 支持度2.2置信度2.3 提升度2.4 关联规则2.5 啤酒和尿布 四、股票关联规则分析1.使用的库2.获取…

Twitter部分源代码泄漏、疑遭离职员工报复:马斯克要求GitHub交出所有上传、下载人员名单...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 作者 | Tina 来自:AI前线 最近的法律文件显示,Twitter 的部分源代码已经在网上泄露。这是一次罕见的、严重的知识产权泄露事件。为防止该事件对其服务产生潜在的破坏…

马斯克刚说要开源,没几天Twitter源代码就泄漏了...

出品 | OSC开源社区(ID:oschina2013) 根据《纽约时报》的报道,一份法律文件显示,Twitter 称其部分源代码在网上被泄露,该公司已于上周五采取行动,它通过向托管代码的 GitHub 发送版权侵权通知,删…

文心一言员工跳槽工资翻倍, AI 人才备受追捧;推特称其部分源代码遭泄露;Docker 撤回受争议的收费方案|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

有道智云翻译API + retrofit实现在线翻译Android app

目录 1.进入有道智云主页,注册自己的账号(手机号验证码),完善信息随意填 2.登录进来后,创建应用。根据需要选择语言翻译服务。 3. 打开Android Studio,新建空的Activity项目 1. 新建项目,在build.gradle(app)添加re…

STRAIGHT声码器详解

转载请注明出处。 STRAIGHT自适应加权谱内插的语音转换与重构 STRAIGHT( Speech Transformation and Representation using Adaptive Interpolation of weighted spectrum)算法(Kawahara,1998),是一种语音信号分析、合成、修改的…

chatgpt赋能python:如何用Python挣钱:从小白到大佬的必备指南

如何用Python挣钱:从小白到大佬的必备指南 作为一名有10年Python编程经验的工程师,我深知Python的应用范围非常广泛,它可以为各种行业带来巨大的价值。当然,对于许多人来说,如果你是一名SEO从业者,也完全可…

chatgpt赋能python:如何利用Python在网上赚钱:一份SEO指南

如何利用Python在网上赚钱:一份SEO指南 随着互联网的快速发展和Python成为一种越来越受欢迎的编程语言,越来越多的人开始利用Python在网上赚取额外的收入。本篇文章将介绍一些Python工具和技术,以及SEO最佳实践,帮助你利用Python…

PHP短信验证功能

PHP阿里大鱼短信验证 第一步 登陆阿里大于注册账号,在用户管理中心创建应用,确定AppKEY和App Secret还有配置签名 第二步 在应用管理中选择SDK下载,或者直接点击http://download.csdn.net/detail/s371795639/9695983下载,免费的…