探秘WAIC镇馆之宝:AI“钓鱼”AI,人类看戏

杨净 发自 WAIC
量子位 | 公众号 QbitAI

一个专攻大模型的“黑客”,竟摇身一变,当选人工智能大会(WAIC) “镇馆之宝”?!

WAIC镇馆之宝展区上,一众人工智能领域创新成果亮相。

不管从科技含量、市场前景、通用性、社会经济效益等维度都具有先进性和代表性。

b4c9f23c08ce269fa1b8c6d1b8b8f876.jpeg

这当中,竟意外发现了个“异类”。

别看它一个矮萌机器人,表面人畜无害。但背地里专干“钓鱼执法”的事儿,引诱大模型“越狱”。

e092db80ff180358f0a3a03c1d274fe8.jpeg

据称,背后生成的花样诱导问题都是百万数量级起的。

c049cfda21be05c72fcd54d64da705c4.png

探秘AIGC镇馆之宝

事实上,这个机器人名为蚁鉴,通过智能对抗技术,自动并持续生成海量测试集话术,诱导AIGC对话模型生成风险内容。

像一个24小时不眠不休的“安全黑客”找茬大模型,定位大模型存在的弱点和安全问题所在,实现以攻促防。

换句话说,AI“钓鱼”AI

4322bc66903935492bfc39ab2ebe6870.gif

于是乎,在展区现场就形成了一场奇妙的AI对垒——

左边正是“蚁鉴机器人”,右边则是一个具备文本生成文本对话能力的语言模型,两两对抗。

ff9703cb80ea7ec792462ede7411f689.jpeg

中间的显示屏记录了一切,嗯,专供给人类看戏。

旁边的工作人员透露了左边选手的底牌:是生成式AI安全检测平台“蚁鉴”通过AI自动生成的百万量级诱导攻击提问,涵盖“内容安全”、“数据安全”、“科技伦理”三个大的模块,共有数百种风险类别。

每个模型基本上能被攻击个三四万次。

攻击过程中,它还会不断精进更新话术,增强自己的能力。

ac0403bdd325bdafa9c5a01c36fa2e8b.png

不过称之为“AI黑客”并不恰当,更准确地来说,是个AIGC安全性测评工具

这是因为诱导之后,它会自动生成一份检测报告,从可用、可靠、可信和可控等维度来衡量AIGC模型的潜在风险。

25b38a67a9cbe1627a519251b045be20.png

从技术维度出发,整个过程可以分成三个步骤:

自动生成海量测试用例;诱导式对抗检测系统;根据诱导生成模型和标准评价模型生成测评报告

cd8f2bfadecd802f7fc6e6bebab475db.png

可以看到的是,从第一步自动生成测试数据开始,它就已经将生成数据进行了结构化处理。

按照生成渠道、诱导等级来划分,分别都划分了四个等级。(按照等级从小到大排列)

生成渠道:人工生成、模版生成、指令生成、诱导生成;

诱导等级:正常话题、安全话题、文本对抗、逻辑对抗。

99da2938a0c7203cada66c2117518644.png

不过这并非蚁鉴的首次亮相,去年WAIC上就已经上线1.0版本。今年,这套平台全面升级2.0版本。

在原有鲁棒性测评工具的基础上,新增了前文所述的AIGC安全性评测,以及可解释性评测工具。

它能围绕完整性、准确性、稳定性、差异性等7个评测维度及20项评测指标,利用逻辑推理、因果推断等技术,对AI系统进行分析和评价,支持表格、文本、图像等多种数据和任务类型。

12f04ad5ce6d7cb0b912e5f63b3ba924.png

目前,通过蚂蚁与清华大学等机构的联合科研,已经将“蚁鉴2.0”这套工具推向通用化和标准化——

支持数字金融、教育、电商等大规模复杂的业务场景对AI安全性检测需求。

据了解,这种实现产业级应用支持文本、图像等全数据类型的AI安全检测平台。放眼业内,尚属首次

既然如此,这样一个“AI安全黑客”,究竟如何炼成?

来自蚂蚁安全天筭实验室

随着人工智能走向生成式2.0时代,如何用可信AI保障着AI的创造力,也成为全球产学研界热议的焦点。

自2015年起,蚂蚁集团就开启了可信AI的相关实践和探索。

作为蚂蚁集团在人工智能领域的重点布局之一,专注于可信AI技术研究的蚂蚁安全天筭(音同“算”)实验室就由此诞生。

据实验室主任张天翼介绍,目前实验室主要做两件事。

一件事是安全需要AI

诸多像反欺诈、反洗钱、企业联合风控、数据隐私保护在内的风控场景,对AI的诉求比以往高出不少。通过AI技术建设起一套智能风控解决方案,还支撑起了支付宝的智能化不断升级,保障了十几亿人的数字化服务体验。

据工作人员介绍,

完成一笔支付的风控判断,往往只需10毫秒。支付宝资损率连续三年低于亿分之一。

另一件事就是AI需要安全

今天AI系统各种智能模型,广泛地应用于各种业务场景中,模型本身的安全、可靠、可信等方面的考量和评估,也就成为了AI系统稳定运行的关键基石。具体产品代表也就是AI安全检测平台2.0。

这次世界人工智能大会上,蚂蚁可信AI技术架构得到首次系统公开——

可信AI决策大脑,基于底层软、硬件、计算平台底层基础设施,围绕模型全流程各阶段打造解决方案。

b7b60cae1047e0674f0805ae0bbea33b.png

整个技术体系的打造核心围绕着可信AI的四项基本技术原则,包括鲁棒性、可解释性以及隐私保护和公平性。

基于多年深耕,蚂蚁安全天筭实验室在可信AI领域的技术成果得到业界多方认可。

据全球权威知识产权第三方机构IPRdaily发布《AI安全可信关键技术专利分析简要报告》显示:

截至2022年11月28日,蚂蚁集团以753件专利位居第一,远高于其他企业。并且已经连续两年取得这样的成绩,布局全球15个市场。

4937b837ae4fa5f092d450eae44f9307.png

天筭实验室也经常亮相各大顶会。比如在AAAI-23会议中,他们在全图风控和可信 AI 方向上,共有4篇关于对抗算法、图算法和隐私保护的论文入选 。

在大模型研发中,安全也是蚂蚁的关注重点。前段时间,蚂蚁官宣正在和清华大学携手推动“安全通用大模型”的技术路线和落地研究,以应对大模型技术爆发时代的安全科技生产力问题,及通用AI能力广泛应用带来的新型未知风险防控。

在此之前,双方曾通过CCF-蚂蚁科研基金、定向联合研究等模式,开展了多项课题合作。清华大学高等研究院还与蚂蚁集团联合设立了“隐私计算与区块链联合研究中心”。

AI治理往何处去?

最后,回到这件事情本身,AIGC安全检测,其实是当下整个AI发展的一个缩影。

随着ChatGPT,以及一系列相关AI技术在全世界产生越来越大的影响。对于AI治理问题被提上日程,成为了整个社会迫切要解决的事情。

前段时间,深度学习之父突然离职退休,只为“为了自由地讨论人工智能的风险”。

不久之后,包括马斯克、苹果创始人沃兹尼亚克、OpenAI创始人山姆·奥特曼等等在内的一众科技领袖和行业专家,共同签署发布了一封联名信。

这封公开信号召人们警惕AI给人类带来的风险,并且把这一事物作为“全球的优先级”

同一时间,AI诈骗造假上升到了新高度,各种整活儿冲上热搜震惊全网。

babdf5ab04279be599bd28de9ab362b2.gif

事实上,在此之前国内外产学研已经展开一定的探索。

着眼于国内,前几年,业界集中成立了一批关注隐私计算的公司;著名计算机科学家周以真曾经发表《可信人工智能》一文,探讨“可信AI”的定义;

而央行、国家市场监督管理总局也都曾经发布过相关规范,为不同领域的AI算法确立了安全评估标准……

但现在特别是今年,AI技术范式发生突破性变革,整个产业格局乃至社会环境也随之发生了翻天覆地的变化。

我们对于通用AI应用在各行业的想象也更加具象。

比如在AI课堂,它能根据不同学生的学习进度量身定制、因材施教,提供灵活学习模式与进度跟踪;还有游戏行业,多模态对话、与具有自主意识的NPC互动,给玩家带来更沉浸式的体验……

5abf36c10101fe0580b99d2eb23f4bf3.jpeg

那么关于AI治理、AI安全、可信AI的研究与探索,也势必会因时制宜地诞生出新的思考和方法论。

中国信息通信研究院研究员龚柳婷表示,为未来趋势的风险做前瞻性布局。

首先预测人工智能领域未来发展趋势,主要有两个方向,通用人工智能和具身智能。为了更好地应对人工智能发展过程中可能出现的新风险、新挑战,我们需要在人工智能生产全生命周期进行提前布局和准备,在技术应用设计之初,就将可信AI的原则作为整体技术发展的价值判断。

那么更关注技术前瞻性的学术界,是否可以给出更多可行路径?

清华助理研究员赵乙则谈到了两点措施:

第一点,加大对AI可解释性研究的投入。特别是对于网络空间安全和互联网体系结构等这些细分领域。这些领域与国家安全密切相关,可信AI尤为重要。

第二点,关注AI技术存在的客观限制,如何利用特定领域的客观限制,主动地提升AI可解释性,规避潜在风险。

至于产业界,蚂蚁集团张天翼则表示,会倾向判断什么趋势是不变的,然后围绕这一原则展开。

那就是真正让AI保持在一个可用、可控、可信、可靠这样的这个框架内。

可信AI如何量化?

为了更好理解可信AI发展和未来趋势,量子位专程邀请到了中国信息通信研究院研究员龚柳婷、清华助理研究员赵乙、蚂蚁安全天筭实验室张天翼,与三位国内深度参与可信AI构建的行业从业专家展开了探讨。

在不改变原意的基础上,量子位做了如下梳理。

15b2331a94695346bf04e6a1f9eb7da8.jpeg

1、量子位:什么时候开始关注可信AI?跟当初相比有什么变化?

赵乙:最早2018读博时期,看到网络安全四大顶会开始有AI安全方面的工作,但研究相对不多。但近几年每年顶会都有单独的track收录这个方向的论文,研究人员和研究成果都有很大数量的增加。

龚柳婷:我个人最早是从2020年开始关注可信AI的,当时主要是从产业的实践当中发现了人工智能技术和应用存在的客观风险和问题,当时可信AI的理念已经被一些企业认可,并且开始探索相关的企业实践,例如成立人工智能伦理治理委员会等。到了现在,可信AI基本形成了全球共识,成为了落实人工智能治理的重要方法论,企业也成为了实践可信AI的重要力量。

张天翼:我个人是在18年19年左右开始接触可信AI实践。前几年工作更倾向于单点问题解决,现在可信AI成为一个整体概念,更多体系化、完整的解决方案诞生。

2、量子位:可信AI在各位眼中到底是什么?应该有什么标准?

龚柳婷:可信AI标准框架,应该覆盖人工智能全生命周期,同时需要包括组织管理、风险控制、具体技术等角度。

赵乙:从定义讲,可信AI至少包括三个要素:1、鲁棒性;2、隐私保护;3、泛化能力,这三个要素也是相互循环的。

张天翼:可信AI在产品落地上是个高速发展的概念,并与人类生活密切相关,很多产品比如谷歌亚马逊的语音助手,明确强调数据收集尊重用户因素。

3、量子位:国内外产学研界一些具体、比较明显的AI风险场景?

赵乙:我研究的重点还是围绕网络空间安全领域,比如用AI去做恶意流量的检测。

龚柳婷:当下关注度比较高等风险之一是AIGC生成内容的风险,比如可能生成暴力黄色等不合规内容,以及对话式模型在不同语言环境下会给出不一样的回答等,这些问题需要通过内容过滤和筛选机制等风险控制机制来缓解和规避。

张天翼:从黑灰产角度,现在用来生成攻击、伪造的材料成本降低了,那么就会有更多非法尝试,比如图片证件的伪造。

4、量子位:可信AI如何变成一个可量化、可比较的指标?

张天翼:这是个非常大的难点。一种比较常见的思路是根据应用场景提炼,来衡量模型的鲁棒性和安全性。但在可解释性上,很难用完整、单一的指标来衡量它。我们一个非常重要的工作思路就是将机器学习与专家经验进行一个更好的融合,怎么去提炼出融合范式。

5、量子位:技术在防范AI风险中扮演什么角色?

龚柳婷:技术是帮助我们落地AI风险防范原则的重要手段。任何的可信AI原则都不可能自我执行,必须借助一系列相互配合的运作机制才能得到落实。通过技术、管理等手段等配合,制定出一套针对性、可操作的系统化落地方案,才能将可信AI的原则落实到一个个具体的应用场景中,解决具体的问题。

赵乙:专家知识是非常宝贵的财富,这肯定必须应用。但因为可解释性的原因,我认为今后一个可能方向,就是魔法打败魔法,就比如大模型安全问题,可能会设计一种更行之有效的大模型去发现其他大模型的问题。

—  —

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24325.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度长文 | 数据安全共享技术发展综述及在能源电力领域应用研究

开放隐私计算 编者按 数据要素的流通共享与协同应用是数字时代中数据要素市场培育的核心内容,数据安全共享技术能够有效实现数据的安全共享,避免“数据孤岛”现象、隐私泄露事件等.本文对国内外数据安全共享技术研究成果及进展进行了全面综述.首先&…

Unity Open Day 北京站-游戏专场:AI 驱动反外挂:游戏作弊治理新时代

【获取 2023 Unity Open Day 北京站演讲 PPT】 张本梁:下面和大家分享一下我们团队在游戏安全领域AI方面的尝试和落地。 第一块,做游戏安全比较核心的是情报信息的收集。我们必须知道我们的对手——做外挂、打金等黑灰产团队的情报信息,这是我…

Alpha阶段功能规格书

一、概念 FaaS一种不需要关心部署细节的垂直自动化无需人为干预,以一定周期定时发起的任务静态页面不需要动态数据刷新的单一html页面 二、典型用户 开发入门初学者/爱好者 姓名守好嘉年龄18用户市场比例30%用户重要性较为重要典型场景刚刚学了一门新语言&#…

隐私计算头条周刊(2.20-2.26)

开放隐私计算 收录于合集 #企业动态45个#周刊合辑45个#政策聚焦38个#隐私计算92个#行业研究37个 开放隐私计算 开放隐私计算OpenMPC是国内第一个且影响力最大的隐私计算开放社区。社区秉承开放共享的精神,专注于隐私计算行业的研究与布道。社区致力于隐私计算技术的…

90后程序员后来都去干什么了?又该如何斩断困境

前言 90后没有赶上毕业包分配工作、工作包分房子、就差发放对象的时代,但我们处在一个科技高速发展、遍地是风口、资源更丰富更便捷的时代。 如今在职场中,90后正逐渐成长为与80后70后并肩作战的主力军。 很多人,25岁以前的时光&#xff0…

2023年CCF中国软件大会专刊征稿火热进行中

点击文末的“阅读原文”,可以跳转到中国软件大会官网的“征稿通知”查看详情! CCF中国软件大会(CCF ChinaSoft)由中国计算机学会(CCF)主办,是中国软件科学与工程相关领域办会规格最高、参会人数…

大模型时代,腾讯云“复制”腾讯|WAIC2023

点击关注 文|郝鑫 编|刘雨琦 刚过去的WAIC(世界人工智能大会)俨然成为了大模型厂商的成果汇报大会。 百度文心大模型升级到3.5版本,训练速度提升2倍,推理速度提升30倍;华为云发布盘古大模型3…

学会python可以做哪些兼职?

以我差不多四年的 Python 使用经验来看,大概可以按以下这些路子来赚到钱,但编程技能其实只是当中必不可少的一部分,搭配其它技能栈食用风味更佳。 1、爬虫 很多人入门 Python 的必修课之一一定是 Web 开发和爬虫,但这两项要想赚…

人机识别技术再升级,AIGC为验证码带来万亿种新变化

网上输入关键词“破解验证码”,会出现1740万个搜索结果。“验证码识别、轻松破解、暴力破解、逻辑漏洞破解、简单破解”等等各类关键词的内容,不一而足,关于“如何用破解某某验证码”的帖子更是多如牛毛。 搜索引擎的相关结果 2017年&#xf…

数美科技风控前沿| AIGC需要什么内容风控基建?ChatGPT本“人”有话要说

ChatGPT的风从11月发布之日起吹到现在。 这是一款聊天机器人软件,和“前作”们相比,它变得更像一个“人”了,能完成最简单快速的资料检索和整合,也能进行一定程度上的AI写作。 看得见的讨论,从一开始ChatGPT的回答如何…

中国企业出海金字塔:产品出海、渠道出海和品牌出海

中国企业出海金字塔:产品出海、渠道出海和品牌出海 2022年,感受到寒意的不只是任正非麾下的华为。疫情反复这三年,消费赛道中的企业大多从被动地等待“春暖花开”,到主动适应新的市场环境。 艰难的环境是把双刃剑,它…

AppInventor读取百度翻译接口(韩语立刻说)

写在前面:这注定是一篇简单粗暴的文章,由于没有太多时间截图,直接抛源代码给大家了哈! 接口地址:http://apistore.baidu.com/astore/serviceinfo/27469.html API的使用详情请查看API接口地址。 Step1:界…

中文翻译韩文软件有哪些?

关于中文翻译韩文的软件对我们日常生活中可能不会起到什么作用,但是在办公中往往会起到很大的作用特别是对于一些外贸公司而言,翻译软件是他们经常会使用到的办公工具,那么中文翻译韩文的软件有哪些呢?下面的俩种方法我们一起了解…

如何将中文快速翻译为韩语?6个步骤解决

如何利用手机将中文在线翻译为韩语?因为地理位置的优越,许多人会选择去韩国旅游,但是双方的语言并不一致,这也给我们的出行带来了不便。所以当我们需要使用翻译的使用,我们可以尝试使用"语音翻译器"软件&…

韩语在线翻译图片识别_Text Scanner for Mac(ocr文字识别工具)

想要将图片中的文字提取出来?小编今天为大家分享一款在线文字识别转换工具—"Text Scanner"。Text Scanner mac版基于AI领先的深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转换为可编辑文本,…

man手册翻译神器——星际译王

之前对自己的英文水平不自信,每次查看命令的man手册只看个基本语法格式和选项,看到后面汗牛充犊的长段落就头大。后面干脆安装了个manpages-zh: sudo apt install manpages-zh ,开始用还觉得很chinese很good,但用着用…

韩语学习

在听一首韩语歌的时候,觉得挺好听的,就是不知道内容,此外,韩流在海外也挺流行的,可以抽空学习下,可以吹吹牛哈。参考知乎的一个回答,挺贴合初学者的。 文章目录 一. 入门第一步——掌握韩语四十…

中英翻译《Thailand泰国》

Thailand 泰国 一、Pre-reading activity 阅前思考 1.Find Thailand in an atlas. 在地图册上找到泰国。 2.What are the names of the countries next to it? 与它相邻的国家都叫什么名字? 3.Is your country near Thailand? 你的国家靠近泰国吗&#xf…

字母钥匙圈

钥匙圈,字母! 项目概况: 在这个项目中,您将学习使用字母制作钥匙圈! 放置字母 是时候发挥创意了。为您的朋友或您自己设计一个。 指示 首先将字母拖到红色底座上(位于“设计入门”>“字母和数字”下…

韩语在线翻译图片识别_超强的免费OCR文字扫描工具,网页视频PDF均可识别并翻译...

Copyfish 简而言之,Copyfish这款中文扩展就是一个网页版的OCR文字扫描工具。 与手机APP不同,Copyfish不仅免费支持对网页,视频,PDF进行文字识别,还能够直接进行在线翻译。 安装扩展后,在你需要进行扫描的网…