ChatGPT 存在很大的隐私问题

当 OpenAI 发布时 2020 年 7 月的 GPT-3,它提供了用于训练大型语言模型的数据的一瞥。

根据一篇技术论文,从网络、帖子、书籍等中收集的数百万页被用于创建生成文本系统。

在此数据中收集的是您在网上分享的一些关于您自己的个人信息,这些数据现在让 OpenAI 陷入困境。 

3 月 31 日,意大利数据监管机构 发布了一项临时紧急决定,要求 OpenAI 停止使用其训练数据中包含的数百万意大利人的个人信息。

根据监管机构的说法,OpenAI 没有合法权利在 ChatGPT 中使用人们的个人信息。

作为回应,OpenAI 已阻止意大利人访问其聊天机器人,同时它向正在进一步调查的官员提供答复。 

这是西方监管机构首次针对 ChatGPT 采取的行动,凸显了围绕创建巨大的生成式 AI 模型的隐私紧张,这些模型通常在大量互联网数据上进行训练。

正如艺术家和媒体公司抱怨生成式 AI 开发人员未经许可使用他们的作品一样,数据监管机构现在对人们的个人信息也是如此。

整个欧洲都可能做出类似的决定。在意大利宣布调查后的几天里,法国、 德国和爱尔兰的数据监管机构已联系 Garante,要求提供有关其调查结果的更多信息。

如果商业模式只是在互联网上搜索你能找到的任何东西,那么这里可能会出现一个非常重要的问题,挪威数据保护机构国际负责人称该机构正在监测事态发展。

如果一个模型是建立在可能被非法收集的数据之上的,那么就会引发关于是否任何人都可以合法使用这些工具的问题。

意大利对 OpenAI 的打击也发生在对大型人工智能模型的审查稳步增加之际。

3 月 29 日,技术领导者呼吁暂停 ChatGPT 等系统的开发,担心其未来的影响。意大利的决定凸显了更紧迫的担忧。

从本质上讲,我们看到迄今为止的 AI 开发可能存在巨大的缺陷。

欧洲的 GDPR 规则涵盖了组织收集、存储和使用人们个人数据的方式 ,保护了整个大陆 4 亿多人的数据。

这些个人数据可以是从人名到 IP 地址的任何内容,如果它可以用来识别某人,就可以算作他们的个人信息。

与美国州级隐私规则的拼凑不同,GDPR 的保护适用于人们的信息可在网上免费获得的情况。

简而言之:仅仅因为某人的信息是公开的并不意味着您可以将其抽空并用它做任何您想做的事。

意大利的 Garante 认为 ChatGPT 在 GDPR 下存在四个问题:

OpenAI 没有年龄控制来阻止 13 岁以下的人使用文本生成系统;它可以提供有关人员的不准确信息;人们还没有被告知他们的数据已被收集;也许最重要的是,它的第四个问题是在用于训练 ChatGPT 的海量数据中收集人们的个人信息“没有法律依据”。

在欧盟看来确实很明显这违反了数从广义上讲,公司要根据 GDPR 收集和使用人们的信息,他们必须依赖 六种法律理由之一,从某人的许可到合同要求的信息。

在这种情况下,基本上有两种选择:获得人们的同意,OpenAI 没有这样做或者争辩说它有“合法利益”来使用人们的数据,这“很难”做到。

OpenAI 的隐私政策没有直接提及其在训练数据中使用人们的个人信息的法律原因,但表示它在“开发”其服务时依赖于“合法利益”。

与 GPT-3 不同,OpenAI 没有公布任何进入 ChatGPT 的训练数据的细节,而 GPT-4 被认为要大几倍。

然而,GPT-4 的技术文件包括一个关于隐私的部分,其中说它的训练数据可能包括来自多个来源的“公开可用的个人信息”。

该论文称,OpenAI 采取措施保护人们的隐私,包括“微调”模型以阻止人们询问个人信息,以及“在可行的情况下”从训练数据中删除人们的信息。

如何合法地收集数据用于训练数据集,用于从常规算法到一些非常复杂的人工智能的一切,这是一个现在需要解决的关键问题,因为我们正处于这种技术采用的临界点结束了。

意大利监管机构的行动也正在 对 Replika 聊天机器人采取行动,有可能成为检查 OpenAI 数据实践的众多案例中的第一个。

GDPR 允许在欧洲设有基地的公司指定一个国家来处理其所有投诉。例如,爱尔兰与谷歌、Twitter 和 Meta 打交道。

然而,OpenAI 在欧洲没有基地,这意味着根据 GDPR,每个国家都可以对它提出投诉。 

OpenAI 并不孤单。专家表示,意大利监管机构提出的许多问题可能会触及机器学习和生成人工智能系统所有开发的核心。

欧盟正在制定人工智能法规,但到目前为止,在隐私方面针对机器学习系统的发展采取的行动相对较少。

牛津大学人工智能伦理研究所高级研究员、数据实践作者表示:这项技术的构建模块的基础已经腐烂,我认为这将很难治愈。她指出,许多用于训练机器学习系统的数据集已经存在多年,而且在将它们放在一起时可能很少考虑隐私问题。 

数据最终如何进入 GPT-4 之类的东西,存在这种分层和复杂的供应链,从来没有真正设计或默认的任何类型的数据保护。

2022 年,一个广泛使用的图像数据库的创建者建议对数据集中的人脸图像进行模糊处理,该数据库已帮助训练 AI 模型达十年之久 。 

在欧洲和加利福尼亚,隐私规则允许人们 在信息不准确时要求删除或更正信息。但是,从 AI 系统中删除不准确或某人不想要的内容可能并不简单,尤其是在数据来源不明的情况下。

专业人士都质疑 GDPR 从长远来看是否能够对此采取任何措施,包括维护人们的权利。纽卡斯尔大学的爱德华兹说:对于如何使用这些非常大的语言模型来做到这一点,没有任何线索,他们对此没有规定。

到目前为止,至少有一个相关的例子,当时美国联邦贸易委员会命令以前称为慧俪轻体的公司删除根据其无权使用的数据创建的算法。

但随着审查的加强,此类命令可能会变得更加普遍。

显然,根据技术基础设施,可能很难完全清除用于训练它的所有个人数据的模型,如果模型随后通过非法收集的个人数据进行训练,这将意味着你基本上可能无法使用你的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5793.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

再聊ChatGPT(关于安全,隐私和法律方面的风险)

我在上一篇博文中有谈到ChatGPT 发展可能会经历的一些阶段。ChatGPT的必经阶段:野蛮生长时代-管理层监管与风险提示-号召国产化-规范化常态化。 昨天刚好看到监管部门发文 说明监管部门已经意识到到ChatGPT野蛮生长阶段,其实是存在很多漏洞和问题的。 …

ChatGPT创业潮来了,我既兴奋又焦虑

最近一段时间,ChatGPT从AI领域破圈,成了互联网领域的新风口。创业者和投资人也兴奋起来了。 创业的方向已经很明了。做中国版对标ChatGPT的大模型,是显而易见的一条路。目前百度的“文心一言”已经呼之欲出,原美团联合创始人王慧…

入坑ChatGPT创业!顶级VC认购2.3亿美元,75%股份用于招研发人才

来源:新智元 继「美团大佬自掏5000万美元入坑ChatGPT」之后。 如今,又有新后续了! 王慧文表示下轮融资已有顶级VC认购2.3亿美元,所以广邀各路英雄,放心施展才华,一同打造中国的OpenAI。 「不必为资金忧心」…

牛逼啊,阿里版 ChatGPT 要来了!中文聊天截图曝光,还能画图。。

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 谷歌硬刚ChatGPT消息一出,科技圈全坐不住了。阿里百度网易京东一众公司全宣布要推出类ChatGPT新产品,战况那叫一个激烈。 阿里内测中的达摩院版ChatGPT,也被提前曝光。 竟然连画画技能都具备了&#…

一个参数让ChatGPT的回答更有创意

你是不是发现ChatGPT的回答有时看上去太理性了,像是在写说明文。 怎样让它的回答更有创意,更有活力呢? 在提问时,加上 温度(temperature)这个参数就可以了。这个参数可以控制生成文本的多样性和创造性。较低…

OpenAI 正式发布 ChatGPT API,所有开发者都可集成到自己产品中,加量还打折

公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! ​ 现在,第三方可以通过 API 将对话模型 ChatGPT 和语音转文本模型 Whisper 集成到自己的应用程序和服务中了。 2022 年 11 月,OpenAI 上线 ChatGPT&#xf…

ChatGPT在编程方面的用例:节省时间并提高工作效率

除非您一直住在树林里的小屋里,远离电网,否则您可能听说过ChatGPT。AI 聊天机器人于 2022 年 11 月发布并引起了不小的轰动,这引出了一个问题:这项激动人心的新技术究竟能为您、您的企业和您的行业做什么? ChatGPT 在…

强的离谱!别玩啥 Bing 了!我把 Google 和 ChatGPT4 合二为一!

跟大家说一个好消息,我们的星球【ChatGPT中文社区】已经 700 多人了。这 700 多名球友属于第一波在星球里学习到如何注册 ChaGPT、如何升级 GPT-4,如何进行 AI 绘画等实操。真的印证了那句话:早就是优势! 之前有一个球友问我&…

医疗金融法律大模型:从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh

第一部分 各种医疗类ChatGPT:或中英文数据微调LLaMA、或中文数据微调ChatGLM 1.1 基于LLaMA微调的国内外医疗问答模型 1.1.1 ChatDoctor:通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA Github上有一个基于LLaMA模型的医疗微调模型&am…

集简云上线ChatGPT文档问答,基于文档实现智能问答训练

过去,我们想要让ChatGPT结合自身业务进行针对性回答,只能通过输入大量的prompt提示,或使用官方原生Fine-Tuning模型训练。 然而,过多的prompt提示词一方面提高了使用成本,另一方面,提示词的信息量有限&…

【ChatGPT】ChatGPT 背后的 AI 时代大背景、技术门道和商业应用 (万字长文|建议收藏)

目录 引言 我和聊天机器人的小故事 一、AI 背景 1.1 ChatGPT 的出圈和能力圈

ChatGPT背后的AI背景、技术门道和商业应用(万字长文,建议收藏)

作者:京东科技 李俊兵 各位看官好,我是球神(江湖代号)。 自去年11月30日ChatGPT问世以来,迅速爆火出圈。 起初我依然以为这是和当年Transformer, Bert一样的“热点”模型,但是当一篇篇文章/报告不断推送…

大火后ChatGPT的功能可以开发哪些?

GPT概念大热后,加了一些群,了解了它的功能。 技术和前两年比有了大变化。 一、 它的产生 今年ChatGPT 4横空出世。 有人说1是简单的选择、2是简答、3是循环,3.5开始喂大量数据及模型。 但GPT-4仍然是黑盒模型。目前还未能对GPT-4的内在算…

Whisper与ChatGPT联手,轻松实现音频转录文本

目录 前言 一、Whisper简介 二、Whisper可用的模型和语言 三、开源 Whisper 本地转录 3.1、安装pytube库 3.2、下载音频MP4文件 3.3、安装 Whisper 库 四、在线 Whisper API 转录 4.1、Whisper API 接口调用 4.2、使用Prompt参数优化 4.3、其它参数介绍 4.4、转录过…

1 分钟搞定!ChatGPT + XMind 打造最高效的思维导图

今天专门写篇文章手把手教大家如何使用 ChatGPT 和 XMind,1 分钟自动生成思维导图。 1、首先进入 ChatGPT 的网站,对 ChatGPT 提出你的需求,例如我希望做一个“机器学习如何入门”的思维导图,那么我可以这样说: “请使…

吴恩达-面向开发人员的 ChatGPT 提示工程

探索ChatGPT,协助工作学习创作。公众号「阿杰与AI」回复AI,加入社群,一同探讨,一同成长,比他人更进一步。 我们一起维护一个完全免费开源知识库。 1.AI、OpenAI、MidJourney发展史2.ChatGPT们对今后社会生活的影响3.目…

ChatGPT 不是终点:阿里不出,谁与争锋?

ChatGPT正在变成一场竞赛,中国企业争先恐后抢发“自研”的ChatGPT,争当所谓的赢家。但实际上,ChatGPT并非竞赛的终点,而是起点,只是堪堪拉开了人工智能新时代的一角序幕。这场对于通用人工智能的角逐,实际上…

微信PC端全局代理抓不到数据包的问题

微信PC端全局代理抓不到数据包的问题 1.问题 之前抓取微信公众号、小程序数据包一直使用模拟器、手机配置代理。偶然发现微信PC端超级方便,配置了全局代理,Burp也配置好了,结果只能抓取到微信公众号数据包,抓不到小程序数据包&a…

无需VPN,使用chatGPT帮助你写代码

如果你想要编写高效而有效的代码,ChatGPT将成为你最好的工具!ChatGPT是一种强大的自然语言生成技术,它可以为你提供关于编程的灵感和建议。使用ChatGPT,你只需输入一些简单的自然语言,就可以获得代码的建议和修改。无论…

Mac微信代理服务器

Mac微信一直不能使用代理服务器,所以大多数人在代理服务器上网时经常用网页版的微信,这样会很不方便。下面本人亲测的一种方法可以轻松在代理服务器的情况下登陆微信客户端。 1:下载Proxifier,Proxifier可以为一些不能在代理服务器下使用的软…