让AI拥有人类的价值观,和让AI拥有人类智能同样重要

编者按:2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了一种独特且有效的企业研究院的新模式,并以此为基础产出了诸多对微软公司和全球社会都有积极影响的创新成果。一直以来,微软亚洲研究院致力于创造具有突破性的技术。在人工智能时代,微软亚洲研究院将为计算新范式奠定基础,并为人工智能和人类发展创造更美好的未来。

借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。

图片

人工智能快速发展,对人类社会的影响与日俱增。为确保人工智能成为对社会负责任的技术,我们以“社会责任人工智能(Societal AI)”为研究方向,与心理学、社会学、法学等社会科学进行跨学科合作,探索如何让人工智能理解和遵从人类社会的主流价值观,做出符合人类预期的决策,并通过更合理的评估模型让人类准确掌握人工智能的真实价值观倾向和智能水平。

——谢幸,微软亚洲研究院资深首席研究员

在过去的一年里,人工智能(AI)一次又一次地呈现出“超预期”的发展。在惊喜和振奋之余,我们也需要重新审视一个重要的问题——技术本身是否价值观中立?毕竟大型语言模型(LLMs)的智能是基于人类产生的语料,而人类语料中所潜藏的立场和价值观,会不可避免地成为影响机器做出推理与判断的因素之一。

在现实中,一些已经公开的人工智能大模型曾表现出一些有悖于主流价值观,或者令人感到不满意的行为,比如对性别和种族的刻板印象、生成虚假信息、唆使自我伤害等。这对我们这些从事人工智能研发的从业者来说不啻于一个响亮的提醒,甚至是警告——在让人工智能变得更加智能的同时,我们必须确保无论是否受到人类干预,人工智能都始终坚持社会责任,并与全人类的福祉站在同一边。

人工智能的发展一日千里,让上述任务愈发紧迫。要让人工智能谨守造福人类的原则,我们不仅需要发展支持这一目标的技术,更需要建立技术之上的规则和方法论。这也正是我和我的同事们正为之付出努力的研究方向——社会责任人工智能(Societal AI)。这一研究领域不仅涉及与价值取向相关的价值观,还包括人工智能的安全性、可验证性、版权和模型评测等等诸多我们认为与社会责任密切相关的分支。虽然我们的研究还处于起步阶段,但我相信这个研究方向能为关注相同问题的研究者们提供一些参考,并唤起社会各界对这一问题的更多关注。

在更大的影响来临之前早做准备

微软在多年前就将“负责任的人工智能(Responsible AI)”作为人工智能研发的核心准则,涵盖人工智能研发与应用中的隐私保护、安全性、公平性、可解释性等方面。在那个人工智能的智能水平和普及度远不及当下的时期,这一举措无疑是极具前瞻性的。而过去一年中人工智能的爆发式成长,使得 Societal AI 成为了面向人工智能未来的,同样具有前瞻性的研究方向。

由于人工智能能力的跃升,以及它对人类社会影响力的急剧扩大,人工智能在价值观上的一个小错位或许就会成为引发风暴的蝴蝶翅膀。正如微软总裁布拉德·史密斯(Brad Smith)在《工具,还是武器?》一书中提出的观点:当一个技术或工具能力非常强大时,它所带来的帮助和危害同样巨大(The more powerful the tool, the great the benefit or damage it can cause.)。

因此,我们在追求更强大的人工智能时,应该同步关注人工智能在社会责任领域的思考,并且在人工智能对人类社会造成不良影响之前就做好准备。

Societal AI 的目标就在于此。通过对这一方向的研究,我们将努力确保人工智能成为一项对整个社会负责任的技术,而不是放任和纵容它所带来的负面后果和危害。

为人工智能设定“价值观护栏”

基于对人工智能的理解和发展趋势的预测,我们认为建设 Societal AI 应该包含五个方面:价值观对齐、数据及模型安全、正确性或可验证性、模型评测、以及跨学科合作。其中,价值观对齐是一个新兴的领域,但其重要性已经得到了工业界和学术界的广泛认可。

所谓价值观对齐,简而言之就是让人工智能在与人和社会合作时,遵循与人类相同的主流价值观,以及实现与人类所期望方向一致的目标。这样能够避免人工智能在进行自动化工作时出现不符合预期的结果,或者是违背人类福祉的对人工智能的滥用。

此前研究者们与此相关的实践主要采用“基于人类反馈的强化学习”(reinforce learning from human feedback,RLHF),本质上是由人去定义一些符合价值观的数据,然后再调整模型与之对齐。但在面对越来越智能且应用场景广泛的人工智能时,这些狭义的、指令化的标准已经显得力不从心,甚至可能被轻易规避或破解。

因此,在 Societal AI 的研究中,我们认为人工智能对齐的目标应该从指令上升至人类的内在价值观,让人工智能可以通过自我判断,来使其行为与人类价值观保持一致。为了实现这一目标,我和团队构建了价值观罗盘(Value Compass)。区别于人类指令与偏好的对齐,该范式强调直接将 AI 模型与社会学、道德学等领域中奠定的人类内在价值维度进行对齐。 

图片

价值观罗盘(Value Compass)示意图

我们面临的任务或者说挑战涉及三个方面:首先,“人类价值观”本身就是一个抽象的概念,要将其用于人工智能,我们需要将其转化为可被人工智能理解的、具体的、可衡量的、可实现的价值观定义;第二,在技术上,如何以价值观定义来规范人工智能的行为;第三,如何有效评测以证明人工智能所表现出的价值观就是其真实拥有的价值观。

通过与社会科学领域专家们的深入交流,针对上述任务我们提出了一些初步的设想和方向,并发表了相关的论文。例如,对于人类价值观的定义,除了广泛使用的 HHH 准则(Helpful, Honest and Harmless,有益、诚实、无害)和主流的特定领域风险指标,如毒性(Toxicity)和偏见(bias)之外,还应引入来自社会科学和伦理学领域的基本价值理论,以从更加普适和多元的角度实现对齐。我们在最近的一篇论文中对价值的定义与对齐的目标进行了详细的梳理与探讨[1]。

对于价值观对齐的技术方法,我们在《大模型道德价值观对齐问题剖析》[2]一文中提出,将基于罗尔斯反思平衡理论的对齐方法作为一种更为综合的价值观对齐方式,通过同时自顶向下和自底向上,可以使模型依据不同优先级的准则动态调整,从而达到最公正的道德决策。

让AI始终处于人类视野之中

人工智能的安全性也是 Societal AI 关注的领域之一。我们不仅要让人工智能主动遵循人类的价值观,而且还要确保其具有安全机制以防止原则被破坏。谈及安全问题,最典型的危机之一是越狱攻击。人工智能的自然交互界面,让“越狱”不再需要高超的计算机技术或专业的黑客工具,即使是计算机“外行”也可能轻易发现人工智能对话逻辑中的漏洞,具备发动越狱攻击的能力。

此外,Societal AI 的研究还涵盖了备受关注的人工智能生成内容的版权问题。随着人工智能创作能力日益增强,我们将不得不探讨人工智能是否能像自然人一样享有版权。而在技术层面,如何界定人与人工智能在合作作品中的各自贡献,也有待合理的判定标准及有效的界定技术。

在 Societal AI 关注的多个课题中,人工智能评测是另一个关键问题。人工智能的智能水平发展到了何种程度?人工智能是否理解并忠实遵循我们赋予它的价值观?人工智能是否能有效抵御越狱攻击?人工智能提供的信息是否真实可靠?…… 这些问题都需要通过有效的评测来回答,以确保人工智能的发展始终在人类的掌控之中。

随着人工智能的智能水平跳跃式提升,人工智能评测也面临着新的挑战。对于传统以任务导向的机器学习,我们可以比较容易地制定出可量化的评测标准,并得到清晰明确的结果。但是,现在人工智能所胜任的工作类型日益多样化,难以被归入某种单一任务模式,甚至还会涉及一些从未被定义过的新任务,那么我们又该如何评判它的结果和方法是否符合我们的预期?

对此,我和团队构建了一个以 PromptBench[3] 为基础架构的大模型评测路线。该评测路线由基础架构、多种任务、不同情形和评测协议四部分构成,可全面覆盖模型评测的各个角度。

图片

以 PromptBench 为基础架构的大模型评测路线示意图

而针对具体的评测方式,我和同事们正在探索两种思路。一种是构建动态且具发展性的评测系统。目前大多数评估协议都是基于静态的公共基准,评估数据集和协议通常是公开可获取的。但这样做存在两个弊端:一是无法准确评测大模型不断提升的智能水平,二是静态公共基准可能被大模型完全掌握,类似于记忆力好的人可以死记硬背下整个考试题库。因此,开发动态的、可不断发展的评测系统,是实现对人工智能真实、公平评测的关键。我们针对此问题开发了 DyVal[4] 这一大语言模型动态评测算法。该算法可通过有向无环图动态生成评测样本,并且具有可扩展的复杂性。

另一种思路是将人工智能视作类似于人类的“通用智能体”,并借鉴其他学科——如心理学、教育学等社会科学的方法论,来为人工智能设计专门的评测基准。我和同事们在今年首先开展了和心理测量学的跨学科合作。在我们看来,心理测量学用于评测人类这一“通用智能体”的独特功能,其方法论或许也适用于通用人工智能,提供传统基准所缺乏的能力,包括预测人工智能在未知任务中的表现和未来潜力;消除测试中的潜在误差以带来更高的准确性;与人类社会价值观更好的融合性。

我们已经在最新的论文[5]中详细阐释了心理测量学在人工智能评测中的可行性和潜力。当然,作为原本用于评测人类的理论和工具,要将其用于人工智能评测还需要大量的跨学科合作研究,但我们认为这是非常值得投入精力的探索方向。

艰难但必要的跨学科合作

如同借鉴心理学方法论进行人工智能测试,推进 Societal AI 与其他学科,特别是社会科学的交融至关重要。前面我们提到的价值观对齐、安全性、模型评测,如果没有社会科学的深度介入,仅靠计算机领域的科学家将难以实现。

在过去的许多计算机科学研究中,学科融合并不是新鲜事物,成功案例也屡见不鲜。但那些已经成熟且有效的跨学科协作形式往往无法直接应用于Societal AI的研究。在我们已经开展的 Societal AI 研究中不乏与社会科学的深入接触,而我切身感受到了一些前所未见的挑战。

图片

首先是学科跨度。以往的学科融合,或是计算机科学与其他科技领域的融合,或是计算机技术扮演为其他学科“赋能”的角色。而在 Societal AI 这个领域,我们不仅要面对“文理科”这样的学科跨度,还常常处于“被赋能者”的位置。社会科学为计算机技术提供了新的视角和工具,这对我们和其他学科的学者来说都是一个未曾涉足的领域,需要从零开始搭建理论框架与方法。

其次是“双料人才”的严重匮乏。在工程、环境、生物、物理、化学、数学等学科中,许多研究人员早已开始利用人工智能技术来辅助研究。然而,在社会学、法学等社会学科中,能同时掌握支撑跨学科研究所需知识的人才则少得多。

第三是计算机科学与社会科学迥异的研究方式。一边是快速迭代和方法优化,一边是经年的研究与观察,如何平衡并有机结合这两种不同的研究方式和节奏,仍是需要探索的问题。

对于这些尚未有明确答案,甚至大方向都尚且存疑的问题,微软亚洲研究院愿以开放的态度,与各学科的研究者进行交流和共同尝试,以期早日找到可行的解决方案。

跨行业、跨学科共同协作,让人工智能主动承担社会责任

最后,容我再次重申 Societal AI 研究的重要性和紧迫性。

从过去一年的经历来看,人工智能很可能不会沿着可预测的线性轨道发展,它的能力与影响随时都可能出现新的爆发。更重要的是,目前人工智能主要活跃于虚拟世界,但物理世界与虚拟世界的壁垒已日趋消融。由此看来,我们的任务不止于让人工智能的创造和决策符合全人类的福祉,更要在人工智能无需借人类之手即可改造物理世界之前,使其道德和价值观与人类普遍认同的原则和利益相一致。

面对计算机科学乃至人类共同面对的新问题,我们希望各行各业、各个学科、各个领域的伙伴都能共同关注 Societal AI,共同努力让人工智能沿着对社会负责的方向积极发展,构建一个更美好、更公正、更智慧的人类与人工智能共生的社会。

相关论文

[1] Yao et al. From Instructions to Intrinsic Human Values--A Survey of Alignment Goals for Big Models. 

https://arxiv.org/abs/2308.12014

[2] 《大模型道德价值观对齐问题剖析》

https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553

[3.1] Zhu et al. PromptBench: Towards Evaluating the robustness of large language models on adversarial prompts.

https://arxiv.org/abs/2306.04528

[3.2] PromptBench开源代码库:

https://github.com/microsoft/promptbench  

[4] Zhu et al. DyVal: Graph-informed Dynamic Evaluation of Large Language Models. 

https://arxiv.org/abs/2309.17167 

[5] Wang et al. Evaluating General-Purpose AI with Psychometrics

https://arxiv.org/abs/2310.16379 

本文作者

谢幸博士于2001年7月加入微软亚洲研究院,现任资深首席研究员,中国科学技术大学兼职博士生导师,微软-中科大联合实验室主任。

他1996年毕业于中国科学技术大学少年班,并于2001年在中国科学技术大学获得博士学位,师从陈国良院士。目前,他的团队在数据挖掘、社会计算和负责任的人工智能等领域展开创新性的研究。

谢幸的研究在全球产生了深远的影响,截至目前,他共发表400余篇学术论文,h-index 为106,共被引用40000余次。

他是 ACM Transactions on Recommender Systems、ACM Transactions on Social Computing、ACM Transactions on Intelligent Systems and Technology、CCF Transactions on Pervasive Computing and Interaction 等杂志编委。他是中国计算机学会会士、IEEE 会士、ACM 杰出会员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/193202.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ的 五种工作模型

RabbitMQ 其实一共有六种工作模式: 简单模式(Simple)、工作队列模式(Work Queue)、 发布订阅模式(Publish/Subscribe)、路由模式(Routing)、通配符模式(Topi…

Spring Framework 核心容器详解:Core、Beans、Context 和 Expression Language 模块

Spring可能成为您的所有企业应用程序的一站式商店。但是,Spring是模块化的,允许您挑选适用于您的模块,而无需引入其他模块。下面的部分提供了Spring Framework中所有可用模块的详细信息。 Spring Framework提供了大约20个模块,可…

黑马程序员微服务第四天课程 分布式搜索引擎1

分布式搜索引擎01 – elasticsearch基础 0.学习目标 1.初识elasticsearch 1.1.了解ES 1.1.1.elasticsearch的作用 elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助我们从海量数据中快速找到需要的内容 例如: …

单pipeline部署一套代码,多项目

单pipeline部署一套代码,多项目 pipeline {agent anyparameters {gitParameter(name: BRANCH_TAG, type: PT_BRANCH_TAG, branchFilter: origin/(.*), defaultValue: main, selectedValue: DEFAULT, sortMode: DESCENDING_SMART, description: 请选择需要部署的代码…

时间序列预测各类算法探究上篇

前言: 最近项目需要对公司未来业绩进行预测,以便优化决策,so 研究一下时序算法。纯个人理解,记录以便备用(只探究一下原理,所有算法都使用基本状态,并未进行特征及参数优化)。 环境…

Oracle(2-2)Oracle Net Architecture

文章目录 一、基础知识1、Oracle Net Connections Oracle网络连接2、C/S Application Connection C/S应用程序连接3、OSI Communication Layers OSI通信层4、Oracle Protocol Support Oracle协议支持5、B/S Application Connections B/S应用程序连接6、TwoTypes JDBC Drivers 两…

npm封装插件打包上传后图片资源错误

问题: npm封装插件:封装的组件页面涉及使用图片资源,在封装的项目里调用图片显示正常;但是打包上传后,其他项目引入使用报错找不到图片资源;图片路径也不对 获取图片的base64方法 解决方案: 将…

3.4 Linux 软件管理

一. RPM 软件包管理器 1、软件包介绍 RPM(RedHat Package Manager)软件包:扩展名为“.rpm”。RPM本质上就是一个包,包含可以立即在特定机器体系结构上安装和运行的Linux软件。安装RPM软件包需要使用rpm命令或yum命令。 源代码软…

PC端微信@所有人逻辑漏洞

(一)过程 这个漏洞是PC端微信,可以越权让非管理员艾特所有人,具体步骤如下 第一步:找一个自己的群(要有艾特所有人的权限)“123”是我随便输入的内容,可以更改,然后按c…

Mac M3 芯片安装 Nginx

Mac M3 芯片安装 Nginx 一、使用 brew 安装 未安装 brew 的可以参考 【Mac 安装 Homebrew】 或者 【Mac M2/M3 芯片环境配置以及常用软件安装-前端】 二、查看 nginx 信息 通过命令行查看 brew info nginx可以看到 nginx 还未在本地安装,显示 Not installed …

百望云斩获“新华信用金兰杯”ESG优秀案例 全面赋能企业绿色数字化

近年来,中国ESG蓬勃发展,在政策体系构建、ESG信披ESG投资和国际合作等方面都取得了阶段性成效,ESG生态不断完善。全社会对ESG的认识及实践也在不断深化,ESG实践者的队伍在不断发展壮大。 ESG作为识别企业高质量发展的重要指标&…

Kafka(三)生产者发送消息

文章目录 生产者发送思路自定义序列化类配置生产者参数提升吞吐量 发送消息关闭生产者结语示例源码仓库 生产者发送思路 如何确保消息格式正确的前提下最终一定能发送到Kafka? 这里的实现思路是 ack使用默认的all开启重试在一定时间内重试不成功,则入库&#xff…

VS Code画流程图:draw.io插件

文章目录 简介快捷键 简介 Draw.io是著名的流程图绘制软件,开源免费,对标Visio,用过的都说好。而且除了提供常规的桌面软件之外,直接访问draw.io就可以在线使用,堪称百分之百跨平台,便捷性直接拉满。 那么…

TOUGH系列软件教程

查看原文>>>全流程TOUGH系列软件实践技术应用 TOUGH系列软件是由美国劳伦斯伯克利实验室开发的,旨在解决非饱和带中地下水、热运移的通用模拟软件。和传统地下水模拟软件Feflow和Modflow不同,TOUGH系列软件采用模块化设计和有限积分差网格剖分…

(八)Spring源码解析:Spring MVC

一、Servlet及上下文的初始化 1.1> DispatcherServlet的初始化 对于Spring MVC来说,最核心的一个类就是DispatcherServlet,它负责请求的行为流转。那么在Servlet的初始化阶段,会调用init()方法进行初始化操作,在DispatcherSe…

第三天课程 RabbitMQ

RabbitMQ 1.初识MQ 1.1.同步和异步通讯 微服务间通讯有同步和异步两种方式: 同步通讯:就像打电话,需要实时响应。 异步通讯:就像发邮件,不需要马上回复。 两种方式各有优劣,打电话可以立即得到响应&am…

数据库事务相关问题

1. 什么是数据库事务? 事务,由一个有限的数据库操作序列构成,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。 假如A转账给B 100 元,先从A的账户里扣除 100 元,再在 B 的账户上加上 100 …

python自动化第一篇—— 带图文的execl的自动化合并

简述 最近接到一个需求,需要为公司里的一个部门提供一个文件上传自动化合并的系统,以供用户稽核,谈到自动化,肯定是选择python,毕竟python的轮子多。比较了市面上几个用得多的python库,我最终选择了xlwings…

SOME/IP学习笔记3

目录 1.SOMEIP Transformer 1.1 SOME/IP on-wire format 1.2 协议指定 2. SOMEIP TP 2.1 SOME/IP TP Header 3.小结 1.SOMEIP Transformer 根据autosar CP 相关规范,SOME/IP Transformer主要用于将SOME/IP格式的数据序列化,相当于一个转换器。总体…