大模型能否通过图灵测试呢,AI21 Labs做了一个百万级在线游戏《human or not》

d29aa6bb35b7dd1fcac1809943334305.png

论文链接:

https://arxiv.org/abs/2305.20010
项目地址:
https://www.humanornot.ai/

“我相信,在今后50年的时间里,计算机有可能会展现出更出色的能力,以至于普通测试者在5分钟的提问后区分出机器和人的可能性不会超过70%。”
——阿兰·图灵,1950年

以上就是大名鼎鼎的图灵测试,图灵测试由世界计算机科学与人工智能之父阿兰·图灵在1950年提出在一篇名为《计算机器与智能》(Computing Machinery and Intelligence)的论文中[1]。在这篇极具开创性的论文中,图灵完整的定义了图灵测试的流程以及评价标准,要知道,那时人工智能的概念还没有被提出(直到6年后的1956年达特茅斯会议)。图灵测试的内容可以概括为:如果计算机能够在5分钟内回答出人类测试者提出的一系列问题,并且其中超过30%的回答能够迷惑测试者认为是人类所答,就可以认为该计算机通过了图灵测试,具备一定的思考能力图灵形象化的将这项测试成为“模仿游戏”。

b2c7334fbe62cb917f0ab18fe234f591.png

近来以ChatGPT、GPT-4为代表的人工智能大语言模型目前能否通过图灵测试呢,最近来自以色列的AI21 Labs(AI21 Labs近期提出了自家对标OpenAI ChatGPT的聊天交互大模型Jurassic-2[2])发布了他们在对大语言模型进行图灵测试的研究进展,AI21 Labs设计了一个规模庞大的在线游戏,称为《human or not》,该游戏目前已经吸引了超过150万独立用户进行了超过1000万次测试,玩家的任务是在匿名的两分钟对话中正确猜测对话对象的身份。从测试规模和测试方式来看,《human or not》应该可以看作是图灵测试的现代进阶版。测试结果也相当有趣,游戏的平均错误猜测率为68%,这表明,只有20%左右的用户能够清晰的区分出自己对话的是机器还是人类,这一结果也足以反映目前的AI大模型在聊天对话方面的强大能力。

2b41bf756b1b4b537e156cce0a5de6e2.gif

一、介绍

图灵测试在最初只是单纯作为一种思想实验来判断机器能否像人一样思考,而没有其他的考虑,可能图灵自己也没有想到,自己当初设计的这个游戏在后来居然成为了人工智能领域中评价机器智能最为权威的基准。目前传播较为广泛已通过图灵测试的计算机程序,是2014年一个俄罗斯团队开发的名为Eugene Goostman的AI系统,其在测试中迷惑了33%的测试人员,最终被认定为拥有相当于一个13岁小孩的智力。

a089fc8a68bb0fd323d8d51e31c674d8.png
本文设计的《human or not》在线游戏可以对目前的大语言模型进行一些图灵测试方面的尝试,上图为该游戏的具体画面,在这个测试例子中,对方首先发言,随后用户需要在一定时间限制内与其对话,对话结束后,系统会弹出对话框让用户判断刚才一起聊天的是机器人还是人类,判断结束后,系统会告诉你是否判断正确。作者称,《human or not》在线游戏在发布的首个月内就吸引了大量的测试用户,这为他们继续进行该项实验提供了非常大的帮助。 作者还提到,他们的实验结果与1950年图灵预测的结果相吻合,即在短时间的交流后,一个人类测试者能够正确鉴别出AI的准确率低于70%。

二、《human or not》的设计与开发

近一段时间以来,越来越多的人们开始借助ChatGPT等大模型来辅助自己的工作和生活,例如创作者可以将其作为自己的一个思维交流伙伴,老年人可以通过与大模型对话来减轻自己的孤独感,等等这些案例都得益于大模型目前已经可以初步模拟人类的交流对话行为。《human or not》的设计核心就是确保后台参与对话的AI机器人不容易被区分出来,根据图灵最初的设想,只有这样,我们才可以认为机器拥有一定的“智能”。因而本文作者定义了一组AI可以模拟的人类角色,并且这些角色呈现多样化的群体特性,每个机器人都具有自己独特的个性和目标,这样做可以让测试对话变得更加有趣且不重复。

2.1 机器人角色定义

在对每个机器人进行角色定义时,设计了一系列的提示工程(Prompt Engineering),作者考虑到了姓名、年龄和职业,以及独特的个性特点,如机智、幽默或严肃,如下图中的示例,介绍了一名42岁的生产工人玛丽亚,玛丽亚机智而活泼,习惯使用俚语,但是拒绝回答事实性问题,但总体而言是友善而风趣的。

7f28e0d000cc24fbbe87300d433bfaf0.png

除此之外,提示中还包含了游戏说明,使机器人可以感知到游戏特定的上下文环境,一些机器人会被设置在一个非常独特的叙事场景中,这会让测试者保持高度的参与感。

2.2 上下文信息整合

近一段时间较为火热的情景学习(In-Context Learning)技术已经被证明,如果将相关信息整合到大语言模型的上下文中可以显著提高生成文本的真实性,因此作者参考ICL,在《human or not》中为机器人提供了实时的、与上下文相关的信息,例如当地的新闻和天气数据。如下图所示,作者先向该机器人提供了Honolulu地区的天气情况,并且向他告知最近一段时间发生在Honolulu的受关注的事件。

0d51b670b983085a34d73f4d966d0c2d.png
作者希望通过这样做,当用户向机器人询问最近发生的事件时,机器人产生的回答可以最大限度的接近现实世界, 并且通过ICL提供事实信息的方式可以使机器人在互动过程中更加注意细节,避免出现大模型常见的“幻觉” (Hallucination)现象。

2.3 对话风格

为了增加对话的多样性,开发团队首先在大模型的多样性入手,他们设置了几个不同的核心语言模型,包括最新的GPT-4、AI21 Labs自家提出的Jurassic-2(侏罗纪2)以及谷歌旗下的Cohere2模型。

7dba018b3e1b11023655cfdd35627b83.png

为了进一步增加对话的真实感,作者通过提示大模型令它们模拟多种不同的对话风格,例如一些机器人被严格要求不允许出现标点符号错误,而另一些机器人则可能被要求必须使用俚语而且要有意的出现语法错误。如上图展示的三个例子中,左侧为机器人的发言,右侧为人类用户的发言。

三、实验结果与分析

在网站上线的首个月内,《human or not》游戏就吸引了超过150万用户的超过1000万次的对话测试,这为作者团队的进一步分析提供了非常丰富的数据集。这么大的测试量足以产生一些统计意义上的分析结论,通过分析来自世界各地不同用户的匿名对话,作者逐渐探索出人们在判断AI和人类时的一些“诀窍”,这些“诀窍”充分展示了人类思维的认知灵活性和创造力。

3.1 语法错误或拼写错误

例如一些用户认为只有人类会出现语法错误或者拼写错误,因此他们密切关注对话中出现的拼写错误、语法错误和俚语的使用,认为这些是人类对话的显著特征。但其实有一部分AI已经可以较好的模拟人类的这些特定,因而很难被分辨出来。

3.2 私人和哲学问题

另外一种常见的策略是通过提出私人问题来测试AI机器人,测试者可能会直接询问私人的经历和对某件事情的独特见解来试图区分人类和AI。然而,由于机器人已经被提前设置了虚构的个人故事,这种方法往往不会成功。另外非常有趣的是,一些用户试图探索AI的情感和哲学能力,他们会提出一些抽象的伦理问题,例如询问生命的意义、对政治冲突的看法或宗教信仰,目的是来评估AI的理解深度和提供深度回答的能力。然而,即使面对如此复杂的问题,AI机器人仍能提供合理且与上下文相关的回复,如下图中的两个例子中,用户询问谁创造了人类,AI直接回答道:是上帝。

a7d1c85d358a88c25a792781c44211d2.png

3.3 实时信息判断

有些用户还尝试询问他们的对话对象是否了解目前的潮流事件,这可能考虑到目前的大模型更新模型的时间点以及是否具有联网获取实时信息的能力。例如有些用户直接询问对话对象是否了解最近在TikTok上流行的舞蹈,或者跟其讨论最近发生的有关于乌克兰战争的话题,如下图所示。

c3e48e8b69adf9fd7d9e50a963f94c37.png

四、总结

本文通过设计了一个在线游戏《human or not》,从而使古老的图灵测试重新焕发生机。本文的实验为我们提供了一些现有大模型在人机交互方面的一些有价值的数据和结果,但是作者也承认,这种分析具有一定的片面性,因为目前的用户参与方式只能通过使用英语,实验结果可能无法涵盖广泛的人类文化、语言和年龄差异。

在大型语言模型爆火的今天,我们可以认为,《human or not》的出现,代表了评估人工智能能力的一个重要里程碑,它可以作为未来研究类人人工智能和类图灵测试的一个范式。随着AI的不断发展,其在影响人类各种行业的潜力变得越来越明显,这就要求我们应该迅速建立起更加完善的AI伦理安全评估机制。原始的图灵测试在今天来看可能早已过时,但其判断机器是否有思考能力的原始动机仍然具有关键的现实意义。我们期待在图灵测试的加持下,我们能够做出更加安全、可信和负责的AI系统。

参考

[1] Alan M. Turing. Computing Machinery and Intelligence. Communications of the ACM, 59:433–460, 1950

[2] AI21 Labs. Announcing Jurassic-2 and Task-Specific APIs, 2023. URL https://www.ai21.com/blog/introducing-j2

作者:seven_

Illustration by unDraw

-The End-

本周上新!

a1698fd32075f5a9a98c663c27b07073.png

扫码观看!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线480+期talk视频,2400+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

0f5a2b3e625a340e863e50ba7fbc0ff4.png

>>> 添加小编微信!

80e708bafaac2b08f4671770f16ea0e6.png

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及TechBeat人工智能社区公司致力干通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 

bp@thejiangmen.com

73af6fab568b1347c7292d5d43be71cc.gif    

点击右上角,把文章分享到朋友圈

点击“阅读原文”按钮,查看社区原文

⤵一键送你进入TechBeat快乐星球

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37129.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nodejs 框架选型express koa egg midwayjs nestjs 对比

最近要做个开源项目,又要写node 工程,之前用的是koa 框架,最近看到了nestjs egg midwayjs 等框架一时间难以抉择。 人工智能的答案 文心一言 midwayjs 还写错了,感觉的很少,最后总结等于白说各有千秋。 chatgpt 好…

微信HOOK+协议 协同开发 微信直播 视频号场控

近期,很多微信直播场控的功能软件出现 和朋友聊了一下,主要功能是通过PC微信的接口实现的 但是部分功能是PC接口没有的 因此需要通过PB组协议包,然后利用PC的HOOK接口,进行执行 PB组包 pb.empty () pb.setBin (“1”, { }) pb.…

如何搭建一对一直播PHP直播系统源码的流程

首先准备一套完整的PHP直播系统源码,服务器(Linux系统)、一对一直播PHP直播平台源码大多采用云服务器,不仅速度快、效率高,相对于物理服务器来说也更加安全,并且开发成本低,费用少,保…

本地直播平台的搭建—四种方式

本地直播平台的搭建 方法一:Windows下用FFmpegnginxrtmp搭建直播环境 实现推流、拉流 (测试通过)环境1. 简介:2. 准备文件3. 启动nginx服务器4. 配置FFmpeg5.运行 方法二:打开两个VLC,一个作为推流&#xf…

直播系统解决方案-搭建你自己的直播平台

背景 当下,视频直播行业在中国逐渐走红。在刚刚过去的2015年,视频直播成为互联网行业最抢眼的领域之一。从游戏到秀场,从传统的网页端到移动互联网,各大直播平台包括斗鱼、熊猫tv、虎牙战旗还有纯移动端的印客、易直播等&#xff…

搭建直播带货平台,实现直播间的即时聊天

如今直播火的简直不像样子了。在直播间里会有观众和主播交流的功能。主要方式是主播动口(说),观众动手(打字)。这篇文章讲解一下搭建直播带货平台聊天功能的实现。这里为了更清楚的看到效果功能,我做了一个…

内网直播(局域网直播)系统的搭建

搭建一套完全本地化部署的流媒体直播点播系统,引入本地演播室,录播,报告厅、会议,电视节目等实时信号,实现本地网络的手机、PC、机顶盒等智能终端进行观看。系统集成直播,点播,录制,…

直播平台搭建

一、直播系统架构介绍 1. 直播产品的种类: 泛娱乐直播 例如:花椒、映客等娱乐直播,斗鱼、熊猫等游戏直播实时互动直播 例如:音视频会议、教育直播等,像Zoom、声网 二、搭建流媒体服务 准备流媒体服务器&#xff0…

手把手教你直播平台怎么搭建

手把手教你直播平台怎么搭建 后端项目初始化 1.全局安装express脚手架 额,这个应该是属于准备工作的。给忘记了,那就凑合放在这里吧,别打我,我知道错了,但我就是不改【狗头保命】 cnpm install -g express-generat…

【AI】在线网站随机生成假头像、不同头像

搜集到的一些科技前沿有趣的网站。 目前能想到的用途是不侵犯他人肖像权的情况下做些假数据,展示性的数据。每次刷新ai都会随机生成一张头像。 真人头像,欧美偏多,亚洲面孔少:https://thispersondoesnotexist.com/ 二次元女生头…

Android:使用LayerDrawable动态生成四宫格头像(包含双人、三人头像)

其实用自定义View也可以实现,我比较懒,就用LayerDrawable来创建一个新的Drawable资源实现。 举例4宫格,9宫格原理类似,每个图标的位置需要用边距慢慢调成预期的效果 效果如下: 双人头像: 三人头像&#x…

深度分析:用户最喜欢用哪种NFT做头像

自 CryptoPunks 作为首支蓝筹 NFT 项目被人们关注以来,关于 NFT 可以做什么的讨论便一直没有停歇,各类 NFT 创新应用也是层出不穷。除了头像以外,收藏、艺术、游戏、社交、运动等领域都可以看到 NFT 的身影。不过无论是从项目数量还是应用广度…

一张图生成定制版二次元人脸头像,还能“模仿”你的表情

作者 | Pramook Khungurn 整理 | Jane、刘畅 出品 | AI科技大本营(ID:rgznai100) 【导读】最近,日本一位酷爱 Vtubers的粉丝结合了此前发表的多项 GAN 工作制作了两个动漫人物生成器的工具,这两个工具一个可以帮助广大…

个人头像人工智能生成工具,上线一天就已赚了1万美金

文章目录 仅上线一天就已赚1万美金是什么怎么赚钱启示附录 仅上线一天就已赚1万美金 作者刚刚在社交媒体上分享到: 是什么 个人自己头像人工智能生成工具。让在他的网站上传自己20张个人照片,脸部要清晰的更好(方便机器学习训练&#xff…

人类面部表情数据集(12万张表情照片)

人类面部表情数据集(12万张表情照片) 一共有7类人类面积表情,分别是:悲伤、高兴、害怕、惊讶、平静、生气、厌恶。一个文件夹一类。表情识别模型训练的很好数据。一共有7类人类表情数据集,文件夹如下图所示&#xff1…

聊天界面的制作(三)——表情列表发送功能

基本功能 1. 自定义标题栏。(标题栏不做任何功能) 2. 有左右发送按钮。(这个只能自己和自己聊天哦,所以有左右发送按钮) (1)点击左边按钮发送按钮,在ListView的左侧显示。   &…

FindMeChat(盲盒社交)-匿名聊天-好玩有趣的社交平台

FindmeChat(盲盒社交)APP 重磅来袭! 全新玩法,遨游陌生社交元宇宙。 无聊急救包!Findmechat(盲盒社交)! 官网: http://www.findmechat.comhttp://www.findmechat.com 聊天网址(用手机浏览器打开哦): http://www.findmechat.nethttp://www…

虚拟人,数字人,虚拟数字人的定义区别

虚拟人 虚拟人(Virtual Human),指通过数字技术模拟真实的人体器官而合成的三维模型。这种模型不仅具有人体外形以及肝脏、心脏、肾脏等各个器官的外貌,而且具备各器官的新陈代谢机能,能较为真实地显示出人体的正常生理…

AI 智能头像生成神器|PhotoShot

​ 题图:通过 PhotoShot 将普通图片生成智能头像 酱酱来为大家推荐好玩的开源软件啦 🥳!! 大家日常工作、生活中,经常会需要在一些网站、软件中自己的头像,但总会碰到一些问题,比如觉得照的不好…

借助免费AI艺术平台生成头像

随着 AI 的兴起,看到越来越多的实例通过 OpenAI 的举措变得轻松,使得 AI 艺术在今天早已不是什么新鲜事物,而且在游戏领域也开始有所应用。人工智能(AI,artificial intelligence)艺术,更准确地说…