40岁高中老师开源的数据集LAION,改变了生成式AI的未来丨智源大会嘉宾风采

导读

如今,拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心ーー而随之而来的关于如何监管人工智能的争论也日益激烈。

在德国北部城市汉堡郊区的一栋房屋前,一个信箱上用铅笔潦草地写着一个单词——“ LAION”。这唯一的记号表明,这栋房子属于一个特殊的人。正是他,在人工智能繁荣时期在数据收集方面做出了巨大的努力,引起了全世界的关注。这个人就是来自德国的高中老师Christoph Schuhmann,LAION(Large-scale AI Open Network,“大规模人工智能开放网络”的简称)正是他热衷的项目。近期,Schuhmann接受了美国彭博社的采访,谈到了他关于开放数据集的观点。智源社区对采访进行了不改变原意的编译。

41e796fd76293fb036414788f70098d4.png

Christoph Schuhmann

LAION组织者和创始人,在维也纳大学获得计算机科学与物理学学位。 此前曾在维也纳演员工作室学习方法派表演。他是著名开源社区LAION(代表作是赫赫有名的数据集LAION-5B)的组织者,近期开源Open Assistant。

LAION

LAION是一个拥有全球成员的非营利组织,旨在向公众提供大规模的机器学习模型、数据集和相关代码来解放机器学习研究。团队著名研究成果LAION-5B是为AI图像生成发展做出巨大贡献的超大数据集。今年4月,LAION 发布了世界最大 ChatGPT 开源平替——OpenAssistant,它一个基于聊天的开源助手,旨在为开发者提供一个可以轻松与第三方应用程序接口、数据库和互联网进行交互的大型语言模型。通过对Open Assistant的定制和修改,开发者可以更便捷地从各种来源获取所需信息,提高工作效率。

▲ Christoph Schuhmann将作为本次智源大会嘉宾参与邀请报告与线上论坛环节,敬请期待。扫描下方二维码,免费报名2023智源大会。

bc665c4fb8b153424fcdcc5d5aef6e72.png

要点速览

◆ 如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。

◆ 一开始我非常怀疑Emad的动机,但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。

◆ 任何互联网上免费的东西都是公平竞争。

◆ 相比于图像中涉及的偏见问题,我更关心让数据“获得自由”。

◆ 如果我们试图放慢速度并过度监管,最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。

Schuhmann平时的工作是向德国一所高中青少年教授物理和计算机科学,他和一小拨儿志愿者一起建立了世界上最大的免费人工智能训练数据集,如今这些数据集已经被用于文生图的生成器,包括谷歌 Imagen 和Stable Diffusion。 

像 LAION 这样的数据集是AI文图生成器的核心,这些生成器依赖于数据集,处理大量用于解构和生成新图像的视觉材料。去年年底,文生图产品首次在公众视野中亮相,迎来了范式转变: 它将科技行业的人工智能军备竞赛推入了超光速的时代,并引发了大量道德和法律问题。

在几个月内,生成式AI公司 Stability AI 和 Midjourney 等纷纷因为盗版问题面临诉讼,批评人士对这些公司采用的数据集中涉及暴力、色情和其他有问题的图像发出了警告,同时这些图像被指引入了几乎不可能减轻的偏见。但这些都不是Schuhmann所关心的,他只是想让数据“获得自由”。

一万美元的捐赠,让数据“获得自由”

Schuhmann现年40岁,不仅是高中教师,还是位受过两年专业训练的演员,他在两年前组织创建了 LAION,创建之初,他正在一个为 AI 爱好者提供服务的 Discord 服务器上闲逛。OpenAI的DALL-E第一个版本发布后,Schuhmann深受启发,同时也担心它会鼓励大型科技公司将更多数据私有化。他的想法是: “我立刻明白,如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。”

作为回应,他和Discord上的其他成员决定创建一个开源数据集来帮助训练文到图的扩散模型,这是一个长达数月的过程,类似于用数百万张闪存卡教一个人学习一门外语。该小组使用加州非营利组织 Common Crawl 收集到的原始 HTML 代码来定位网络上的图片,并将它们与描述性文本关联起来,过程中没有使用任何手工或人工监管。 只花了几周的时间,Schuhmann和他的同事就有了300万个图文对。三个月后,他们发布了4亿个图文对的数据集。这个数字现在已超过50亿,LAION 成为了最大的免费文图数据集。

随着 LAION 声名鹊起,这个团队却继续无偿工作,并在2021年收到了来自机器学习公司“Hugging Face”的一次性捐赠。突然有一天,一位前对冲基金经理Emad Mostaque闯进了他们的Discord 聊天室。Emad主动提出将负担计算资源的费用,不附加任何条件。他想推出自己的开源生成式AI业务,并希望利用 LAION 来训练他的产品。LAION团队最初对这个提议嗤之以鼻,甚至觉得他是个疯子。

add17c14de50627984a87e3adae5b3f9.png

前对冲基金经理Emad Mostaque,Stability AI创始人

“一开始我们非常怀疑,”Schuhhmann表示,“但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。” Emad于2022年推出Stability AI时,他使用了 LAION 的数据集来训练Stable Diffusion,并雇佣了该组织的两名研究人员。一年过去了,Stability AI目前正在寻求40亿美元的估值,这主要归功于 LAION 提供的数据。而对Schuhmann来说,他并没有从LAION那里直接获利,而且也对实际利益不感兴趣。“我还继续在高中教书,拒绝了各类公司的工作邀请,因为我希望能保有自己的独立性。”

数据就是新石油,任何互联网上免费的东西都是公平竞争?

像 LAION 数据集中的许多图像和链接已经遍布互联网了,有些甚至已经存在了几十年。人工智能的繁荣揭示了它的真正价值。数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就会越清晰、越精确。

这种实现方式反过来又引发了一系列法律和道德问题,即公众可以获得的材料是否可以用来为数据集提供信息ーー如果答案是肯定的,那么创作者是否应该得到报酬。

为了打造 LAION,创始人从 Pinterest、 Shopify 和亚马逊网络服务(Amazon Web Services)等公司获取视觉数据——这些公司没有评论 LAION 使用其内容是否违反了其服务条款。同时还包括YouTube上的缩略图、 DeviantArt 和 EyeEm 等平台的图片、美国国防部等政府网站的照片,以及《每日邮报》和《太阳报》等新闻网站的内容。

如果你问Schuhmann,他会说,任何互联网上免费的东西都是公平竞争。但是欧盟目前没有人工智能法规,即将出台的人工智能法案将在今年夏初敲定其措辞,该法案并不会针对版权材料是否可以包含在大数据集中做出裁决。相反,立法者正在讨论是否要纳入一项条款,要求人工智能生成器背后的公司披露哪些材料被用在了训练他们产品的数据集中,从而让这些材料的创作者有机会采取保护行动。欧洲议会议员Dragos Tudorache告诉媒体,这项规定背后的基本理念很简单: “作为生成式人工智能的开发者,有义务对算法训练中所使用的受版权保护材料进行记录和透明化。”

a677a5856533220a7ec19623c4e17d24.png4月20日,Christoph Schuhmann在汉堡的一个公园里

这样的监管对Stability AI来说不是问题,但对其他文到图生成器来说可能是个问题ーー“没人知道OpenAI用什么来训练的 DALL-E2,”Schuhhmann引用它作为科技公司如何锁定公共数据的一个例子。这也将颠覆目前数据收集的现状。  

虽然 LAION 还没被直接起诉,但它已经在两起诉讼中被点名: 一起指控Stability AI和Midjourney使用艺术家的版权图片来训练模型,另一起指控是Getty Images状告Stability AI,声称1200万图片被 LAION 搜刮去训练Stable Diffusion。

因为 LAION 是开源的,所以不可能知道其他哪些公司或者有多少公司使用了这个数据集。谷歌已经承认,它聘请了 LAION 来帮助训练其 Imagen 和 Parti 的文生图模型。Schuhmann认为,其它大型企业也在悄悄做着同样的事情,只是没有公开而已。

过度监管会带来危险

Schuhmann坐在客厅里,看着儿子玩《我的世界》(Minecraft) ,他把 LAION 比作“信息技术海啸”之上的一艘“小型研究船”,采集下面的样本向世界展示。

“这只是互联网上公开数据的一小部分,”他在谈到 LAION 的数据集时说。“这些数据事实上很容易获取,有来自捐赠者的1万美元预算,我们这群人真的做到了。”

但是,公众可以获得的东西并不总是公众想要的,也不总是允许公众合法看到的。除了诸如猫和消防车的 SFW 照片外,LAION 的数据集还包含数百万张色情、暴力、儿童裸体、种族主义、仇恨符号、受版权保护的艺术品以及从私人公司网站上搜刮来的作品。Schuhmann说,他不知道在 LAION 的数据集中有任何儿童裸体,尽管他承认没有深入研究这些数据。他说,如果得到有关此类内容的通知,他将立即删除指向这些内容的链接。

Schuhmann在开始组装数据集之前咨询了律师,并运行了一个自动化工具来过滤非法内容,但他更感兴趣的不是清理 LAION 的数字资产,而是从这些资产中学习。“我们本可以从公布的数据中过滤掉暴力,”他说,“但我们决定先不这样做,因为这将加快暴力检测软件的开发。”LAION 确实提供了一个删除选项来请求删除照片,但目前数据集已被下载了数千次。

Stability AI方面表示,它是在 LAION 数据集的一个精选子集上训练了Stable Diffusion。该公司在一封电子邮件中写道,试图“给这个模型提供一个比最初版本的 SD 更加多样化和广泛的数据集”,并补充说他们已经试图“使用 LAION 的 NSFW 过滤器删除成人内容”  。

开源AI的拥护者也警告说,在未经管理的数据集上训练AI意味着什么。Hugging Face机器学习和社会团队负责人Yacine Jernite表示,基于受污染数据的生成式AI工具将反映其偏见。“模型会非常直接地反映它所接受的训练。”

这不仅仅是社会的决定。欧洲的监管机构正在起草法规,以引导人工智能的使用,他们正在努力应对这样一个事实: 为当前人工智能繁荣而挖掘的数据,多年来一直是处于一个法律灰色地带,直到现在才受到严格审查。

但是Schuhmann认为,数据集不应该被监控。在他看来,人工智能所遇到最坏的情况是大型科技公司通过让他们的开发的工具符合监管框架,来排挤其他开发人员。 “如果我们试图放慢速度并过度监管,”他警告说,“最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。”

更多内容 尽在智源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27009.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OPPO造芯的最后18分钟:CEO数次低头哽咽,3000人团队原地解散

编辑:明敏 杨净 量子位 | 公众号 QbitAI “自古多情空余恨,好梦由来最易醒。” 当OPPO芯片设计公司哲库CEO刘君宣布关停业务解散全员后,停顿数秒、深吸一口气,缓缓说出这样一句诗,似乎总结了自己的所有情绪。 3天前&am…

AI 热潮下,Web3 领域有哪些尚未被发现的宝藏?

整理:angelilu,Foresight News 图片来源:由 无界版图AI 工具生成 这两天社群中传播最多的当属与人工智能预训练语言模型 ChatGPT 的聊天截图,你问我答间也真实感受到了 ChatGPT 的进化,不禁感叹人工智能真的智能了&…

OpenAI CEO谈AI画图明星DALL·E 2:技术突破不多,地气接了不少

Alex 发自 凹非寺量子位 | 公众号 QbitAI 今年都快年末了,蹦出来一个ChatGPT,然后光速走红,服务器都被挤爆好几回。 而往前一看,这样的火爆场面,在4月份DALLE 2发布时也出现过。 不同圈子的人纷纷下场搞起了AI创作&…

开源聊天系统-Vocechat,私有化部署,适合个人和中小企使用,亲测有用

VoceChat 简介 VoceChat是一款支持独立部署的个人云社交媒体聊天服务。15MB 的大小可部署在任何的服务器上,部署简单,很少需要维护。前端可以内嵌到自己的网站下,数据完全由用户自己掌握,传输过程加密。VoceChat 适用于团队内部交…

chatgpt赋能python:Python图形:让数据更生动

Python图形:让数据更生动 Python作为一种高级程序语言,不仅能在数据分析、机器学习、人工智能等领域发挥重要作用,还能通过图形展示数据,让人一目了然地了解数据背后的故事。本文将介绍Python图形的基本概念、工具和应用&#xf…

为什么喜剧节目越来越不好笑了?

昨晚随意点开了一档正在播出的喜剧节目,结果没看完就被“劝退”了,实在是不好笑,关键还尴尬!转了一圈评论,发现果然“英雄所见略同”,评论里对节目的吐槽占了相当一部分。想着另外换个评价好的,…

Windows Service 小品

我们通过 Windows 服务可以创建在 Windows 会话中长时间运行的应用程序。服务可以跟随计算机一起启动,并且可以暂停、停止和重启。Windows 服务和 Windows Form 程序最大的不同点是 Windows 服务没有任何用户界面。Windows 服务一般用于后台处理数据,例如…

【嵌入式Linux开发一路清障-连载03】Ubuntu22.04使用Mount加载硬盘或NAS等硬盘

Ubuntu22.04使用Mount加载硬盘或NAS等硬盘 障碍06-学习资料存储在NAS中,如何方便的访问NAS或其它硬盘中的资料呢?摸索访问共享文件夹利用文件系统中尝访问局域网中的共享文件夹(成功)利用smb协议访问局域网中的共享文件夹&#xf…

帝国CMS7.5小品屋在线小品相声视频网站模板修复版

简介: 帝国CMS小品屋在线小品相声视频网站模板,带手机端。修复部分BUG,升级帝国CMS7.5版本。 后台自带部分测试数据,图片附件未入库,建议测试完成后删除。 火车头采集器已失效,已删除。CKPLAY播放器已失效…

小品-三句半-背诵apk

1. 需求 公司年会要求每个部门出一个节目,我们的界面是小品《三句半》,4个人,每人说一句,奈何台词太长了,故写了个背台词的demo.最终年会10个节目中,获得第二名,很开心。 1.1 apk 下载路径 h…

西湖奇缘(小品)

小青(男扮女),白娘子,许仙,路人甲(程序员),法海 背景西湖,断桥,远处是雷峰塔 白娘子在前,小青紧跟其后,从舞台左侧上台。 白娘子望着远处的断桥,面向观众说。…

计算机学院可以表演的小品,中央戏剧学院小品表演真题之单人小品

中央戏剧学院小品表演真题之单人小品 时间:2019-03-19 中央戏剧学院小品表演真题之单人小品 1.综合部分 (1)讲一件使人发笑的事情。(2讲一件自己最难过的事情。(3讲一段不寻常的经历。(4)打电话告诉对方一件极为愉快的事情。(5)打电话告诉对方一件十分悲痛的事情。(…

用计算机对话的小品,爆笑小品剧本台词《作弊记》

小品深入生活,贴近生活,体验生活,从生活中找灵感。要用艺术的眼光去发现题材,挖掘题材。 人物: 学生甲 学生乙 监考教师 (教室门前)(甲乙边走边聊,乙背着书包,甲两手空空,只在上衣贴…

基于chatgpt的全套智能创作saas源码系统,在这里

chatgpt无疑是2023年最热的项目之一,市面上有很多的基于chatgpt的产品,但是用着都感觉噱头大,不顺手。于是我们自己开发了一套基于chatgptmj绘画的系统。 如果你正在寻找一款领先的源码系统来不是搭建来赚钱,那么您看下我们的产品…

匿名的虚拟卡可以用来干什么?

境外虚拟卡(也称为国际虚拟卡)是一种在国际范围内使用的虚拟支付工具。与国内虚拟卡相比,境外虚拟卡通常具有更广泛的支付范围和更强的国际支付能力。虚拟信用卡具有非常多的优点,拿coincc币卡举例,首先是匿名申请&…

【无套路】免费用 GPT4,为啥这些网站的聚合做的这么好?!

相信很多人已经用上了 GPT-3.5,也就是 chat.openai.com 的免费内容,无需充值,用魔法上网后,按照之前的 教程 注册即可(美区代理 谷歌账号)。 一般到这里就停止了,因为要继续探索 GPT 的能力&a…

【奶奶看了都会】云服务器ChatGLM模型fine-tuning微调,让你拥有自己的知识库

1.背景 大家好啊,上次给大家写了ChatGLM-6B的部署使用教程,【奶奶看了都会】云服务器部署开源ChatGLM-6B,让你拥有自己的ChatGPT 但是因为模型比较小的问题,所以日常工作中可能用不上。而且大家更希望的是模型能训练自己的数据&…

沉痛悼念技术大牛左耳朵耗子(陈皓)

前言:今天转发一篇关于耗子叔的博文,个人觉得耗子叔是中文互联网世界的一个标杆,也是IT界重量级的人物,对于他的离去,深感遗憾和可惜。 版权声明:本文为CSDN博主「CSDN资讯」的原创文章,遵循CC …

突发!沉痛悼念技术大牛--左耳朵耗子

出品 | CSDN(ID:CSDNnews) 5 月 15 日早晨,一则意外消息打得我们猝不及防:MegaEase CEO、知名架构师、CSDN 资深博主(https://blog.csdn.net/haoel)陈皓老师(网名:左耳朵…

贝叶斯-这期内容非常重要!

这篇不仅对交易,而且对这个世界的认知有重要意义,有时间请一定把文章看完。 最近人工智能的普及让我昨天刷到中科院物理所发的这篇10w文章:封杀这个公式,ChatGPT智商将为零。看完我发现它对P(B)条件证据的解释欠佳,而…