论道AIGC:如何看待用于内容生成的永动机?| 大咖思辨-38

点击蓝字

c13a58095b1b7cdec00e1e71e460b1e3.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

0215340e43c80ce4338905af924f26db.gif

12月28日,“科技未来看青年”AI TIME 2022 年度嘉年华完美收官。本次年度嘉年华开启“青年学者说”、“科技新势力”、“Debate AIGC”三大板块,邀请AI领域的青年科学家、PhD等青年学者分享前沿研究、科研成果、科研趣事等,传递科技新态度,新风尚,呈现科技未来新力量。

在Debate AIGC板块,很荣幸邀请到了穆罕默德·本·扎耶德人工智能大学研究员秦雪彬,上海人工智能实验室青年科学家戴勃,北京智源人工智能研究院研究员付杰,启明创投投资人胡奇,智谱AI大模型事业部VP薛宇飞和清华大学博士生于济凡一起思辨AIGC。       

1aad73fc89c6f1e972049113210acc3c.png

1

不同群体有共享的人类总体价值观和稍有差异的价值观。目前AIGC,要如何从社会层面把模型的价值观和人类总体和各个群体的价值观做一个对齐?我们需要对AIGC做内容审核吗?是人来审核,还是机器自己审核?

付杰:之前遇到过一些有趣的问题,比如是希望婚礼让别人参加,还是希望葬礼让别人参加?对于整个数据集来说,有很多人去玩这个游戏,选A或是选B。假如我们训练的BERT是选择希望婚礼能有更多人参加,那么就可以和人类的整体价值匹配了。但是我们只有一个BERT,中国的BERT是否会和中国人的反应更为相似呢?而如果我们用GPT去做生成,生成的内容是否也需要和不同的国家、不同的区域做一个匹配呢?毕竟模型反映出来的其实就是爬取数据所在国家人群的价值观,去生成图片也会有所在国家或地域的一些特色在里面。

于济凡:关于这个问题,是否应该是现在的AIGC都由一个统一的模型来完成呢?

付杰:我觉得它不应该由一个统一的模型来完成。比如调用ChatGPT时是美国网民占主要部分,那么一定是以他们的语料为主。

于济凡:以我们日常的生产和科研环境,如果想做一个特定的AIGC的agent,都是需要在自己收集到的数据集上做调整。每一个训练出来的AIGC都是一个独立的个体,我们其实并不需要把它从社会的层面考虑成一个整体的价值观,而是把它们看作由我们创造出来的新人类就好了。我们是否可以通过大模型的修正和微调来解决foundation model自带的bias问题?

秦雪彬:模型上反映的其实是数据分布,数据上对不齐首先就是问题,我们不能拿着北美的数据去做欧洲的东西。目前来看,这些大模型对于数据分布的分析基本是没有的,或者是很粗糙的。事实上这些东西也是因为模型的过拟合和差值产生的,真正外推性的东西确实是可以和AI道德这些联系起来。但是我认为其本质还是一个数据的问题,因为如果把控不好数据就难免会出现bias绑定在数据上。

于济凡:我觉得这个观点非常本质,什么样的数据就会得出什么样的模型。前段时间,ChatGPT给大家的震撼其实也是来自数据收集的本身。老师们觉得,对于本问题的后半部分,无论我们接下来是作AIGC的研究还是工程,是不是还需要人工审核的环节?而不是把太多的自主权交给AIGC模型。

薛宇飞:我觉得内容本身是没有什么好审核的,只有当内容被传播,被分发或是在互联网上产生影响的时候,这时候内容才有了被审核的需求。在内容传播平台上,其实从来都不需要被界定这条内容是AIGC,PGC还是UGC。而是要根据平台的特点或是传播的特点来判断。从这种角度看,AIGC和现有的UGC、PGC一样是需要被审核的,也是机器审核和人类审核来共同决定的。而随着AI技术的发展,即使是机器审核模型的能力,也会比过去更好。

于济凡:AIGC带来的技术革新同样可以作为人们更好的工具去帮助审核,所以审核本身并不是一个需要单独讨论的问题。

2

如果AIGC的内容充斥了整个互联网和人类知识库,人类的文化传承会出现问题吗?

戴勃:我觉得是不会出现问题的。如果哪一天AIGC的内容真的充斥了整个互联网和人类知识库,我觉得更像是我们人类做出了选择,因为其质量超出或达到了我们的想象并可以用来解决某些问题。人们不会被动的让AIGC的内容真的充斥了整个互联网和人类知识库,一定是有选择的使AIGC这种技术能够更好的为人们服务,如让一些古老的传承重新焕发光彩。反而会对人类文化传承产生帮助。

于济凡:现在的AIGC都是由一些很强的模型来驱动生成,所以其背后代表的是当前主流的数据强权,如拥有数据主导权的人将能够主导AIGC生成。如果是自然选择的话是没问题的,但如果背后带有这种数据霸权的情况是否会最终出现赢家通吃的现象而导致最终收敛到某个特定文化圈子之中呢?

戴勃:AI只是一个工具,所谓的数据霸权只是说数据带有某种bias,最终是否会成为数据霸权还要看人们如何使用。即便是出现了,我认为也不是AIGC带有的bias,而是人们有意引导而为之的。

付杰:现在B站上好多电影解说的第一句就是“注意看,这个男人叫小帅”。这就是当下很多公司依懒于对自动生成的语言来作进一步修改的结果。如果这种情况最终充斥了整个互联网,对于人们的使用体验也会造成很大的冲击。

戴勃:如果这样真的成为潮流,人们也会主动选择将这种潮流压下去的,一定会有相应的解决办法。

薛宇飞:在历史中,知识和文化都是通过书籍传播的。谁能够有能力写出这些书籍,他们的认知就能够随着书籍的传播而发扬光大。但是随着互联网出现之后,这个门槛就被大大降低了,每个人都可以贡献自己的知识和内容。这样也会有人担心,会不会有人在网上贡献一些虚假的知识。其实,互联网通过其自由的网络社区管理机制很好的控制了这一切,虚假的知识也没有造成多么严重的后果。知识和文化不一定就要由权威来输出,普通人同样可以为知识的传播做出贡献。媒体同样是这样,互联网时代诞生的自媒体也是从一开始的混乱慢慢变得规范起来。我们如今看待AIGC也是如此,相信随着其慢慢发展也会产生机制使其变得更加规范化。

于济凡:不只是AIGC,互联网诞生以来的很多事物都存在类似问题,但实际上我们只需要对其进行略微的极限问题管制,它就能很好的发展。

3

AIGC会对人类教育造成怎样的影响?比如小学生到底要如何学习写作呢?

秦雪彬:为什么会对人类教育产生影响呢?是生成的东西不真实?这样可以给生成的东西打上标签,有标签就不会被纳入教育内容,如果是虚假信息就会被过滤掉。以上这些肯定都是需要规章制度去约束的,具体说对教育的影响,我觉得是不冲突。计算机相对于人来说,过去的优势在于其庞大的计算能力,而人的优势在于想象力和创作能力。如今的计算机也会拥有创作能力,但我始终认为所有的AIGC模型都只是对数据的拟合。其对大量数据的采集要比人类强,因此插值的空间和变换的形态就非常多。但是这些东西是否是有价值的呢?

胡奇:去年投了一家AI教育公司,他们做的就是通过AI的方式帮助小孩子解题。其比较擅长的是数学和几何,最终会通过一个虚拟形象将解题方法讲解出来。相比于一对一的家教,这种AI的方式大大节约了成本,同时还可以给每位孩子带来一个个性化的老师。AIGC在目前教育场景中,在答案确定的情况下,可以很好拓展内容的丰富度,达到寓教于乐的效果,是对教育有促进的。不过,对于主观性过强的题目,还是需要人工审核的介入。

秦雪彬:目前AI对于生产力的促进还并不是很大,细究到技术层面,还是归结于精度和鲁棒性的问题。

于济凡:对于现在的生成和大模型的评测,是不是已经不能用上一个时代的深度学习模型评测模式,如封闭数据集再加上一些测试集的划分来算准确率了?是否应该换上一些更加高级或是严苛的评测方式来促使大家把技术做的更好?

秦雪彬:我觉得这要看目的是什么,如果是科学研究或是模型性能的提升,是可以还用封闭数据集来做的。但是在实际应用中,精度是不能完全反映模型精度的,很考验数据采样的功底。如果想要在没有groundtruth的情况下去判断模型的好坏,这也是一个不错的研究方向。如今看似很炫的一些技术,但针对我们真正要解决的问题还有很大的gap,离我们的应用之路还有很远。

戴勃:个人觉得AIGC这种生成模型的评测思路可能不太一样,生成是有很多方面要去考虑的,包括模型的效率以及多样性等等。AIGC各种大模型层出不穷,我们也一直想用一种客观的方式去衡量并指出其中问题,但发现这确实是一个很难的事情。对于教育的问题,刚刚各位老师也提到要在内容正确的情况下减少人工的部分,部分主动性很高的东西就不太适合AIGC来写作。然而,AIGC对教育的好处基本就来自其主动的部分,毕竟其就像一位随时on-call的老师。孩子在与AIGC的交流之中,或许会比在课堂上能够收获更多。

付杰:之前在思考,能否让小学生带着ChatGPT去考试,这样就不用背课文了,就好比是和机器一起考试,但是这样如果能实现的话又该怎么评分?

戴勃:如果是考试,肯定是不可能带上ChatGPT的,毕竟这样就和开卷考试没啥区别了。AIGC的出现一定会改变我们工作和生活的方式,是否会出现离开AI就什么也不会做了的情况?就好比今天的互联网和电,我们今天离开这些确实是会无法正常生活的。

于济凡:这或许可以简化为“考试时能否带计算器的问题”。

薛宇飞:我觉得这件事或许对所有人都会有很大影响。比如,我们在有了计算机等工具之后,我们写字的机会就大大减少了,有些人甚至已经开始提笔忘字了。这是我们已经看到的影响,而如果到了AIGC的时代,我们是否会离开AI就不会写论文和画画了呢?

4

AIGC的应用前景和工业落地的障碍。

秦雪彬:之前做计算机视觉,我觉得它不是一个纯理论的研究,而是一个理论和应用的结合。和其他AI算法类似,我们能够得到一个相比之前很fancy的结果,但是距离我们的预期依然相差较多。我们可能只走了20%,后面还有80%的路。每年论文的投稿量如此之大,但是应用起来依然问题多多。这样长久以来,可能就会失去人们的信任。

胡奇:今天的AIGC,一些图像、视频等等都离更高级的大KA客户的实际使用很远。其还是需要去满足一些特定场景的需求,但这就比较考验两个东西,一是技术是否可以做到一些场景的可用,10年前的NLP技术肯定是与现在无法同日而语的;二是应该怎样设计这些场景,我们对软件产品的使用是要符合人的习惯和诉求的。为什么NLP当年也没有厉害的AIGC算法,但是google和百度却可以做大?是因为C端用户们没有这么强的期待,只要搜索的东西与我想要的有一点关联,能翻到自己喜欢的东西就可以了。而今天的AIGC能不能找到一些场景,这些场景不仅是技术上可以做到,还可以通过与人的协作配上一些知识图谱或是算法来满足商业化需求,我觉得这就算是一种很好的做法。目前AIGC落地的问题,可能更多的还是在于大家对它的预期太高了。在工业落地的时候,还是应该找到一个可以自己去做中间层,能把这层做强做厚的场景并提供一款真的去PMF的产品,而不是去找几个大KA把产品卖出去但实际并没有用起来,否则这样的次数多了也会让大家逐渐失去对AIGC的信心。我觉得期待还是要高的。高期待若是能通过产品的设计来满足用户,也是可以的。但是那种通篇的生成,技术上不支持,结果也不会是确定的。高期待的场景还是要满足的,但是要有自己的能力去实现。

戴勃:我觉得AIGC的应用前景还是很足的,不仅可能挑战现有的共识,更有可能创造出新的共识而改变人们的现有认知。从技术的角度,我觉得AIGC落地的可控性还是需要进一步加强。另一个就是版权了,除了使用的内容是否侵犯了他人的版权,还要关注生成的内容版权究竟要属于谁。这些问题如果不能妥善的解决,工业落地还会存在障碍。

薛宇飞:AIGC在工业上的应用还有很长的一段路要走。比如AIGC生成图片的技术,真要做成像photoshop那样的流行应用恐怕还有着不小的距离,还需要很多研究上的投入。但同时我也觉得,不需要过于为前路漫长而悲观,现在起码已经有人在用AIGC做一些有意思的事情。比如,我之前在微博关注的一个设计师就在用AIGC生成一些有趣的设计作品并将他们印在帆布包上售卖。在一些偏C端的领域,AIGC反而可能得到快速应用。对于AIGC的应用前景,也许并不会太遥远,我们会看到AIGC已经被应用在了我们的生活之中,可能是很小很细分的领域,但确实是令人眼前一亮的结果。

付杰:我目前在做两个相对比较小众的AIGC任务,一种是在蛋白质序列生成中,生成抗生素来杀死细菌。我觉得这其实也是AIGC,正如刚刚各位老师讲的,生成最难的是如何做evaluation。生成蛋白质并不难,生成一个好的却是很难的。一是我用来训练生成器的data是很少的,因为已知的抗生素序列的蛋白质是比较少的。最后我们需要去进行筛选,一个简单的筛选是训练一个分类器,很严重的问题是这个classifier是严重过拟合到这个数据集的。给它一个生成的,它根本不知道能否抗菌。这个场景下的evaluation是个大问题。另一个在做的AIGC是音乐生成,这里面临的是和生成图片不一样的挑战,毕竟生成图片不会生成一个超长序列。最有代表性的是OpenAI在2020年生成的音乐,它们生成的音乐也是比较短的,长序列的也是无法做到。所以我觉得AIGC落地目前的障碍,制药领域中的evaluation是个大问题,音乐领域的超长序列生成和表征也是一个问题。

于济凡:其实不止是音乐和制药,文本领域也会常常面临这些问题。就像长故事生成,也是超长序列无法解决的问题。本次Debate AIGC各位老师从技术、产业和产品设计等方面都提出了很多对于AIGC已有现状的分析,以及技术上需要发力的主要突破点,也对现在初创企业去做AI的主要方向给出了自己的建议。我相信AIGC的话题在今后也依然会是一个具有很大讨论空间的话题。

整理:林   则

审核:秦雪彬、戴勃、付杰、胡奇、薛宇飞、于济凡

往期精彩文章推荐

48a50624724e91aebd6b83a4ee42e923.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾450场活动,超500万人次观看。

fe0acfeba0bab9ac38dd17e1e0c542a2.png

我知道你

在看

~

d1c9f722fbc4006808ba774d2792006c.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30347.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

让博客支持使用 ChatGPT 生成文章摘要是一种什么样的体验?

让博客支持使用 ChatGPT 生成文章摘要是一种什么样的体验? 起因 Sakurairo 主题支持了基于 ChatGPT 的 AI 摘要功能,我有点眼红,但是因为那是个主题限定功能,而我用的又是 Argon,遂想着让 Argon 也支持 AI 摘要功能。…

ChatGPT专业应用:生成立论稿

正文共 1107 字,阅读大约需要 7 分钟 辩论赛选手必备技巧,您将在7分钟后获得以下超能力: 生成立论稿 Beezy评级 :A级 *经过寻找和一段时间的学习,一部分人能掌握。主要提升效率并增强自身技能。 推荐人 | Kim 编辑者…

马斯克将起诉微软,称其使用 Twitter 数据“非法”训练GPT,吃瓜网友:事情变得更有趣了!...

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 整理 | Tina 北京时间 4 月 20 日早间消息,埃隆马斯克表示将对微软提起“诉讼”,理由是微软使用 Twitter 数据“非法”训练其产品。 今天早些时候微软宣布…

Imported target “dart“ includes non-existent path 笔记

详细问题&#xff1a; 关联功能包&#xff0c;源码编译 Failed <<< gazebo_ros2_control [11.8s, exited with code 1] 网上查了很多资料&#xff0c;都是比较旧版&#xff0c;这里注意由于ROS2系统发展很快&#xff0c;功能包在快速集成。 使用源码编译可能会遇到环境…

Spring Boot 3.1.0 发布,添加大量新功能和改进

来源&#xff1a;JAVA架构日记 Spring Boot 3.1.0 现已发布&#xff0c;此版本添加了大量新功能和改进。 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.1.0</v…

拒绝白嫖!马斯克将起诉微软,称其使用 Twitter 数据“非法”训练GPT

来源&#xff1a;InfoQ、整理&#xff1a;Tina 北京时间 4 月 20 日早间消息&#xff0c;埃隆马斯克表示将对微软提起“诉讼”&#xff0c;理由是微软使用 Twitter 数据“非法”训练其产品。 今天早些时候微软宣布将停止在其智能广告平台上支持 Twitter&#xff0c;马斯克此举…

【GPT4技术揭秘】GPT-4 Architecture,Infrastructure,Training Dataset,Costs,Vision,MoE

本文是对《GPT-4 Architecture,Infrastructure,Training Dataset, Costs, Vision, MoE 》的中文翻译。介绍了GPT-4使用的相关技术&#xff0c;希望对大家有一些帮助。群友分享了总结内容如下&#xff1a; 13T tokens预训练语料 &#xff08;llama和palm是1.4T&#xff09;MoE&…

3 分钟为英语学习神器 Anki 部署一个专属同步服务器

原文链接&#xff1a;https://icloudnative.io/posts/anki-sync-server/ Anki 介绍 Anki 是一个辅助记忆软件&#xff0c;其本质是一个卡片排序工具--即依据使用者对卡片上的自定义内容进行主动测试、自我评判后&#xff0c;其内部算法根据评判结果更改每张卡片下次测试时间的…

chatgpt赋能python:Python中的{:>8}

Python中的 {:>8} 介绍 在Python中&#xff0c;{:>8}是一个字符串格式化的方法&#xff0c;它的作用是将字符串向右对齐&#xff0c;并在字符串左侧填充指定字符。这个方法非常有用&#xff0c;尤其是在需要对齐输出结果或者生成格式化的文本时。 这个方法在Python中非…

Heartbeat安装

安装Heartbeat前的准备 Heartbeat集群必须的硬件 从下图看出&#xff0c;构建一个Heartbeat集群系统必须的硬件设备有&#xff1a; 节点服务器&#xff1b; 网络和网卡&#xff1b; 共享磁盘。 节点服务器 安装Heartbeat至少需要两台主机&#xff0c;并且对主机的要求不高&…

ansible企业级实战(Markdown)

ansible经典实战 一、配置文件解释二、实战2.1 脚本分发 && 使用copy生成新文件2.2 列出所有被管理主机list2.3 基于key验证来避免每次输入密码2.3.1 机器密码不一样的解决方案 2.4 fetch 抓取被控制端的文件2.4.1 fetch 如何抓取多个文件&#xff1f; 2.5 file 模块设…

【Python】词云之 wordcloud库 全解析

有用的话&#xff0c;欢迎姗莲✨✨✨✨✨✨✨✨✨✨✨✨✨ 目录 一基础用法二、WordCloud类 形参说明2.1 常用参数2.11 字体 font_path2.12 画布尺寸 width、hight2.13 比例&#xff08;缩放&#xff09;scale2.14 颜色(表) colormap2.15 颜色函数 color_func2.16 词语组合频率…

【云炬COMSOL模型】自己做的激光超声的COSMOL模型

模拟结果 表面温度 等值线 表面应力 模型设置 全局定义 几何 材料 固体传热物理场 固体力学物理场 多物理场 网格 研究&计算日志 2e-06 - out- 1.43e-06 - out- 1.44e-06 - out- 1.45e-06 - out- 1.46e-06 …

uniapp生成商品分享海报

uniapp用canvas生成一个分享商品的海报 文章目录 前言一、展示效果二、使用步骤1.HTML部分2.CSS部分3.JS部分 总结 前言 uniapp用canvas生成一个分享商品的海报&#xff0c;因为用到了uni.downloadFile这个API&#xff0c;所以要注意图片在H5端跨域的问题。 以下是本篇文章正…

postman错误提示“Current request is not a multipart request”

今天在写业务进行批量上传文件时&#xff0c;用postman测试发现报500错误----Current request is not a multipart request&#xff0c;翻译了一下大概意思是 当前请求不是多部分请求&#xff0c;所以就很纳闷。今天特意记录一下 首先我们上传文件时&#xff0c;在postman里面…

如何为豆瓣FM写一个chrome的歌词插件

对于喜欢豆瓣FM的同学来说&#xff0c;没有歌词是件令人苦恼的事&#xff0c;下面我就来总结下怎样为豆瓣FM写一个chrome的歌词插件。 --------------------------------- 1.需要的技能 首先&#xff0c;你要会javascript&#xff0c;其次你要掌握一点chrome的hack&#xff…

设计师解放双手之作!3秒生成风景园林效果图,AIGC赋能景观设计

项目简介 在过去几十年&#xff0c;风景园林经历了从“刀耕火种”的完全手绘设计时代到当下比较流行的参数化设计时代&#xff0c;过去的每一轮技术革新都让风景园林作品的表现形式产生了巨大的改变。随着计算机图像技术的发展&#xff0c;我们有更多的建模和渲染软件辅助提升图…

有哪些中西合璧的建筑设计?

所谓中西合璧&#xff0c;中即中华文化&#xff0c;体系繁多&#xff0c;源远流长&#xff0c;浩如烟海&#xff0c;是世界三大文化体系之一&#xff0c;在历史上曾是东亚文化的中心&#xff0c;一度影响欧洲&#xff1b;西即西方文化&#xff0c;西方物质文明和精神文明&#…

独家 | ChatGPT可以解决分级和分类这样的简单机器学习任务

作者&#xff1a;Damir Yalalov 翻译&#xff1a;陈超 校对&#xff1a;赵茹萱本文约1100字&#xff0c;建议阅读5分钟 本文介绍了ChatGPT如何解决简单的机器学习任务并给出了鸢尾花分类和城市预测两个案例。 一句话概括&#xff1a; ChatGPT可以帮助你完成简单的机器学习任务…

决定AI大模型胜负的关键:解读数据在未来竞争中的角色

随着人工智能的迅猛发展&#xff0c;高质量数据的重要性已愈发明显。以大型语言模型为例&#xff0c;近年来的飞跃式进展在很大程度上依赖于高质量和丰富的训练数据集。相比于GPT-2&#xff0c;GPT-3在模型架构上的改变微乎其微&#xff0c;更大的精力是投入到了收集更大、更高…