导读
如今,拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心ーー而随之而来的关于如何监管人工智能的争论也日益激烈。
在德国北部城市汉堡郊区的一栋房屋前,一个信箱上用铅笔潦草地写着一个单词——“ LAION”。这唯一的记号表明,这栋房子属于一个特殊的人。正是他,在人工智能繁荣时期在数据收集方面做出了巨大的努力,引起了全世界的关注。这个人就是来自德国的高中老师Christoph Schuhmann,LAION(Large-scale AI Open Network,“大规模人工智能开放网络”的简称)正是他热衷的项目。近期,Schuhmann接受了美国彭博社的采访,谈到了他关于开放数据集的观点。智源社区对采访进行了不改变原意的编译。
Christoph Schuhmann
LAION组织者和创始人,在维也纳大学获得计算机科学与物理学学位。 此前曾在维也纳演员工作室学习方法派表演。他是著名开源社区LAION(代表作是赫赫有名的数据集LAION-5B)的组织者,近期开源Open Assistant。
LAION
LAION是一个拥有全球成员的非营利组织,旨在向公众提供大规模的机器学习模型、数据集和相关代码来解放机器学习研究。团队著名研究成果LAION-5B是为AI图像生成发展做出巨大贡献的超大数据集。今年4月,LAION 发布了世界最大 ChatGPT 开源平替——OpenAssistant,它一个基于聊天的开源助手,旨在为开发者提供一个可以轻松与第三方应用程序接口、数据库和互联网进行交互的大型语言模型。通过对Open Assistant的定制和修改,开发者可以更便捷地从各种来源获取所需信息,提高工作效率。
▲ Christoph Schuhmann将作为本次智源大会嘉宾参与邀请报告与线上论坛环节,敬请期待。扫描下方二维码,免费报名2023智源大会。
要点速览
◆ 如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。
◆ 一开始我非常怀疑Emad的动机,但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。
◆ 任何互联网上免费的东西都是公平竞争。
◆ 相比于图像中涉及的偏见问题,我更关心让数据“获得自由”。
◆ 如果我们试图放慢速度并过度监管,最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。
Schuhmann平时的工作是向德国一所高中青少年教授物理和计算机科学,他和一小拨儿志愿者一起建立了世界上最大的免费人工智能训练数据集,如今这些数据集已经被用于文生图的生成器,包括谷歌 Imagen 和Stable Diffusion。
像 LAION 这样的数据集是AI文图生成器的核心,这些生成器依赖于数据集,处理大量用于解构和生成新图像的视觉材料。去年年底,文生图产品首次在公众视野中亮相,迎来了范式转变: 它将科技行业的人工智能军备竞赛推入了超光速的时代,并引发了大量道德和法律问题。
在几个月内,生成式AI公司 Stability AI 和 Midjourney 等纷纷因为盗版问题面临诉讼,批评人士对这些公司采用的数据集中涉及暴力、色情和其他有问题的图像发出了警告,同时这些图像被指引入了几乎不可能减轻的偏见。但这些都不是Schuhmann所关心的,他只是想让数据“获得自由”。
一万美元的捐赠,让数据“获得自由”
Schuhmann现年40岁,不仅是高中教师,还是位受过两年专业训练的演员,他在两年前组织创建了 LAION,创建之初,他正在一个为 AI 爱好者提供服务的 Discord 服务器上闲逛。OpenAI的DALL-E第一个版本发布后,Schuhmann深受启发,同时也担心它会鼓励大型科技公司将更多数据私有化。他的想法是: “我立刻明白,如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。”
作为回应,他和Discord上的其他成员决定创建一个开源数据集来帮助训练文到图的扩散模型,这是一个长达数月的过程,类似于用数百万张闪存卡教一个人学习一门外语。该小组使用加州非营利组织 Common Crawl 收集到的原始 HTML 代码来定位网络上的图片,并将它们与描述性文本关联起来,过程中没有使用任何手工或人工监管。 只花了几周的时间,Schuhmann和他的同事就有了300万个图文对。三个月后,他们发布了4亿个图文对的数据集。这个数字现在已超过50亿,LAION 成为了最大的免费文图数据集。
随着 LAION 声名鹊起,这个团队却继续无偿工作,并在2021年收到了来自机器学习公司“Hugging Face”的一次性捐赠。突然有一天,一位前对冲基金经理Emad Mostaque闯进了他们的Discord 聊天室。Emad主动提出将负担计算资源的费用,不附加任何条件。他想推出自己的开源生成式AI业务,并希望利用 LAION 来训练他的产品。LAION团队最初对这个提议嗤之以鼻,甚至觉得他是个疯子。
前对冲基金经理Emad Mostaque,Stability AI创始人
“一开始我们非常怀疑,”Schuhhmann表示,“但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。” Emad于2022年推出Stability AI时,他使用了 LAION 的数据集来训练Stable Diffusion,并雇佣了该组织的两名研究人员。一年过去了,Stability AI目前正在寻求40亿美元的估值,这主要归功于 LAION 提供的数据。而对Schuhmann来说,他并没有从LAION那里直接获利,而且也对实际利益不感兴趣。“我还继续在高中教书,拒绝了各类公司的工作邀请,因为我希望能保有自己的独立性。”
数据就是新石油,任何互联网上免费的东西都是公平竞争?
像 LAION 数据集中的许多图像和链接已经遍布互联网了,有些甚至已经存在了几十年。人工智能的繁荣揭示了它的真正价值。数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就会越清晰、越精确。
这种实现方式反过来又引发了一系列法律和道德问题,即公众可以获得的材料是否可以用来为数据集提供信息ーー如果答案是肯定的,那么创作者是否应该得到报酬。
为了打造 LAION,创始人从 Pinterest、 Shopify 和亚马逊网络服务(Amazon Web Services)等公司获取视觉数据——这些公司没有评论 LAION 使用其内容是否违反了其服务条款。同时还包括YouTube上的缩略图、 DeviantArt 和 EyeEm 等平台的图片、美国国防部等政府网站的照片,以及《每日邮报》和《太阳报》等新闻网站的内容。
如果你问Schuhmann,他会说,任何互联网上免费的东西都是公平竞争。但是欧盟目前没有人工智能法规,即将出台的人工智能法案将在今年夏初敲定其措辞,该法案并不会针对版权材料是否可以包含在大数据集中做出裁决。相反,立法者正在讨论是否要纳入一项条款,要求人工智能生成器背后的公司披露哪些材料被用在了训练他们产品的数据集中,从而让这些材料的创作者有机会采取保护行动。欧洲议会议员Dragos Tudorache告诉媒体,这项规定背后的基本理念很简单: “作为生成式人工智能的开发者,有义务对算法训练中所使用的受版权保护材料进行记录和透明化。”
4月20日,Christoph Schuhmann在汉堡的一个公园里
这样的监管对Stability AI来说不是问题,但对其他文到图生成器来说可能是个问题ーー“没人知道OpenAI用什么来训练的 DALL-E2,”Schuhhmann引用它作为科技公司如何锁定公共数据的一个例子。这也将颠覆目前数据收集的现状。
虽然 LAION 还没被直接起诉,但它已经在两起诉讼中被点名: 一起指控Stability AI和Midjourney使用艺术家的版权图片来训练模型,另一起指控是Getty Images状告Stability AI,声称1200万图片被 LAION 搜刮去训练Stable Diffusion。
因为 LAION 是开源的,所以不可能知道其他哪些公司或者有多少公司使用了这个数据集。谷歌已经承认,它聘请了 LAION 来帮助训练其 Imagen 和 Parti 的文生图模型。Schuhmann认为,其它大型企业也在悄悄做着同样的事情,只是没有公开而已。
过度监管会带来危险
Schuhmann坐在客厅里,看着儿子玩《我的世界》(Minecraft) ,他把 LAION 比作“信息技术海啸”之上的一艘“小型研究船”,采集下面的样本向世界展示。
“这只是互联网上公开数据的一小部分,”他在谈到 LAION 的数据集时说。“这些数据事实上很容易获取,有来自捐赠者的1万美元预算,我们这群人真的做到了。”
但是,公众可以获得的东西并不总是公众想要的,也不总是允许公众合法看到的。除了诸如猫和消防车的 SFW 照片外,LAION 的数据集还包含数百万张色情、暴力、儿童裸体、种族主义、仇恨符号、受版权保护的艺术品以及从私人公司网站上搜刮来的作品。Schuhmann说,他不知道在 LAION 的数据集中有任何儿童裸体,尽管他承认没有深入研究这些数据。他说,如果得到有关此类内容的通知,他将立即删除指向这些内容的链接。
Schuhmann在开始组装数据集之前咨询了律师,并运行了一个自动化工具来过滤非法内容,但他更感兴趣的不是清理 LAION 的数字资产,而是从这些资产中学习。“我们本可以从公布的数据中过滤掉暴力,”他说,“但我们决定先不这样做,因为这将加快暴力检测软件的开发。”LAION 确实提供了一个删除选项来请求删除照片,但目前数据集已被下载了数千次。
Stability AI方面表示,它是在 LAION 数据集的一个精选子集上训练了Stable Diffusion。该公司在一封电子邮件中写道,试图“给这个模型提供一个比最初版本的 SD 更加多样化和广泛的数据集”,并补充说他们已经试图“使用 LAION 的 NSFW 过滤器删除成人内容” 。
开源AI的拥护者也警告说,在未经管理的数据集上训练AI意味着什么。Hugging Face机器学习和社会团队负责人Yacine Jernite表示,基于受污染数据的生成式AI工具将反映其偏见。“模型会非常直接地反映它所接受的训练。”
这不仅仅是社会的决定。欧洲的监管机构正在起草法规,以引导人工智能的使用,他们正在努力应对这样一个事实: 为当前人工智能繁荣而挖掘的数据,多年来一直是处于一个法律灰色地带,直到现在才受到严格审查。
但是Schuhmann认为,数据集不应该被监控。在他看来,人工智能所遇到最坏的情况是大型科技公司通过让他们的开发的工具符合监管框架,来排挤其他开发人员。 “如果我们试图放慢速度并过度监管,”他警告说,“最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。”
更多内容 尽在智源社区