AIGC的阿克琉斯之踵

摘要:现在,越来越多的企业和个人使用AIGC生成文章、图片、音乐甚至视频等内容,AIGC已经成为一种必备的工具。在游戏和原画师行业,甚至已经出现了第一批因为AI而失业的人。

本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之二:AIGC的阿克琉斯之踵》,作者:ModelArts 开发 。

AIGC是继PGC(Professional Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)之后的一个新时代,它带来了一种新的内容生产方式,并且还为内容注入了只有人类才具备的“创作”元素,开创了“模型”主导内容的时代。尽管AIGC技术已经有了相当大的提升,但仍然存在很多不足之处。

01 ChatGPT(包括GPT4)的诸多问题难以忽视

尽管ChatGPT(包括GPT4)是一个非常有用的工具,但它仍然存在许多问题。以下是一些经常出现的问题:

1) 强语言,弱知识,“一本正经地胡说八道”:在回答问题时,ChatGPT很容易“胡说八道”,因为它的回答通常是基于大量的文本数据而生成的,而不是真正的知识。比如下面的问题:

Q:红楼梦中贾宝玉为什么要葬花?

A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零…

Q:鲁迅和周树人是同一个人吗?

A:不是同一个人,鲁迅和周树人是两个不同的人。鲁 迅…而周树人(1895年1月25日-1968年11月6日)也是中 国著名的现代作家和翻译家,代表作品有《春蚕》、《子夜》等

2) 逻辑推理不靠谱:不论是数学逻辑还是专业逻辑,比如下面的问题:

Q:3个人3天用3桶水,9个人9天用几桶水?

A:根据题目可知,3个人在三天内用了3桶水,

可以推算出每天每人用水量为:

3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天

因此,在9个人使用9天内需要的总用水量为:

1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶

所以,9个人在九天内需要用 81 桶的水。(正确答案27桶)

3) 实时信息自更新慢,新旧知识难以区分,比如下面的问题:

Q:gpt4是什么时候发布的?

A:抱歉,目前还没有关于GPT-4的官方发布计划和消息

4) 无法真正为领域类问题提供专业、靠谱的答案,比如下面的问题:

Q:华为手机没电了,请问能否使用苹果手机的充电器 充电?

A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。

02 多模态大模型的跨模态生成能力尚不完善

虽然AIGC跨模态生成技术的视觉效果令人惊叹,但在实际应用过程中存在一些信息不对称的问题。目前,多模态大模型在跨模态生成方面仍然存在一些不完善之处,需要进一步研究和优化。从文本到图像的生成方向,Stable Diffusion的研究发现提示词与输出之间存在着显著的组合泛化问题。例如,在输入“红草绿花”的情况下,输出结果可能会是相反,这表明AI模型对于语义的理解存在错误。同样,当输入“一匹马骑着宇航员的照片”时,输出结果可能会是宇航员骑着马的照片,这也暴露出模型在语义理解方面的不足之处。为了解决这些问题,需要进一步研究和优化多模态大模型,研究方向包括改进模型的组合泛化能力、提高模型对于语义的理解、以及优化跨模态生成结果的准确性等,以使得多模态大模型在实际应用中更加可靠和有效。

(以上文图生成来自Stable Diffusion)

03 多模态大模型尚未完全理解多模态数据

GPT4大模型发布,加速了AIGC多模态的发展,当然多模态大模型的发展在近年来取得了令人瞩目的进展,但是作为一项前沿技术,仍存在着一系列问题需要解决。其中一个重要问题就是对于多模态数据的理解还不够充分。多模态数据是指来自不同感官或媒介的数据,如图像、音频、文本等。虽然多模态大模型可以同时处理多种类型的数据,但是对于跨模态数据的融合、对齐等方面,仍需要进一步探索和优化。

首先,对于多模态数据中的事实知识的理解不足。在实际应用中,很多跨模态生成任务都需要丰富的知识库和背景知识支撑。例如,文本描述和图像生成任务需要对具体事物的特征进行深入了解,而涉及到自然语言的任务,则需要对语言语义的理解更加准确。因此,建立更为完整准确的知识库是非常重要的。

其次,常识储备不足也是多模态大模型的瓶颈之一。常识是解决现实问题的基础,而在跨模态生成任务中,常识更是不可或缺。例如,在利用AIGC中AI作画的Stable Diffusion 作图的一个图像描述中,描绘出“小狗在路边玩耍”的情境更加符合日常生活的常识,而非描述为“四条腿的动物在道路上移动”,这说明常识缺失直接影响模型的表现效果。

最后,逻辑推理能力也是多模态大模型需要改进的地方。在实际场景中,有很多跨模态生成任务,需要通过逻辑推理进行相关内容的理解和生成。例如,基于文本的图像生成任务需要根据文本中的描述进行相应的推理,以便生成一张完整的图像。而当前多模态大模型的逻辑推理能力仍有待提高,未来的研究应该注重逻辑推理技术的研究和优化,以提高模型的综合表现能力。

总之,多模态大模型的未来研究应该致力于处理多模态数据的全面理解,选取合适的知识库和常识库,探索逻辑推理技术等方向,以提高多模态大模型在跨模态生成领域的表现效果。

(以上图来自视觉问答VQA)

04 多模态大模型PaLM-E离实用级还有多远?

多模态大模型PaLM-E的出现,标志着计算语言学作为人工智能领域的重要分支进入了一个新的繁荣期。PaLM-E依赖于如此庞大的参数,初步实现了对机器人的操控,但其在实用性方面还有待提高。其中,空间范围、物品种类和任务规划复杂度等方面的限制是最为突出的。目前展示出来的演示,其空间范围封闭有限,物品种类数量有限,规划任务比较简单,操作任务也相对简单。这些限制的存在,让人们对PaLM-E在真实复杂场景中的实用价值产生了质疑。

此外,PaLM-E在使用过程中还存在一些技术问题,例如需要耗费大量的时间来调试和训练,同时还需强大的计算资源才能支持其正常运行。这些问题在实际应用中都会给使用者带来极大的不便和成本压力。因此,需要从技术上不断优化和改进PaLM-E,使它能够更好地适应复杂的应用场景,并且让成本更低、易用性更高。当然,尽管PaLM-E离实用级还有一定距离,但是可以相信,随着技术的不断发展和突破,PaLM-E将结合各种场景打破技术限制,真正走进人们的生活和工作中,发挥其巨大的实用价值。

(以上图来自网络)

05 小结:多模态大模型的本质、前提与不足剖析

相比于传统的统计模型,多模态大模型有很多优势。它能够利用多种不同的信息源来进行学习和推理,从而更加全面地捕捉人类的知识、常识和逻辑推理能力;它也能够以较低成本实现自然语言处理、计算机视觉和语音识别等多项任务,提高了模型的效率和普适性;最后,多模态大模型还能够为人类提供更加直观、易懂的交互体验,让人们更加方便地获取信息和进行决策。

然而,多模态大模型也存在一些不足之处。首先,由于不同模态数据之间的差异性,多模态大模型的建立和优化过程需要消耗大量的计算资源和时间。其次,该模型尚存在着一些挑战和难点,例如如何对不同模态数据之间的关联进行建模以及如何解决数据对齐和逆向推导等问题。此外,多模态大模型还需要克服数据质量、隐私保护和数据伦理等方面的挑战,才能更好地应用于实际场景中。

因此,想要在AIGC领域发挥多模态大模型的优势,需要在技术研究、数据质量管理、隐私保护和数据伦理等方面继续深入研究和探索。只有在不断完善和优化多模态大模型的同时,才能更好地应对现实世界中的复杂情境和问题,提高人类社会的智能化水平。

点击关注,第一时间了解华为云新鲜技术~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10853.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

巴比特 | 元宇宙每日必读:诺奖得主为ChatGPT破冷水,华为AI 大模型即将亮相,人类画师自述因AI失业...

摘要:诺贝尔奖得主保罗•克鲁格曼给ChatGPT泼冷水,称目前的大型语言模型可能不会对未来十年的经济预测产生重大影响,ChatGPT以及随后出现的人工智能工具可能是2030年代的经济故事。“光拥有技术是不够的。你还必须弄清楚如何运用它。”从技术…

华为“天才少年”稚晖君被曝离职!两年前加入年薪百万起步的天才少年计划!...

上一篇:2022年全球程序员薪资排行榜单来了!中国程序员薪酬排名...... 以“天才少年”身份加入华为的稚晖君,被曝已经离职,将开启创业! 虽然本人还没公开确认这一消息,但据华为员工爆料,目前华为…

200 万年薪能拿多久?因 ChatGPT 爆红的「提示工程师」竟面临光速失业

【导读】ChatGPT大火后,「提示工程师」也随之爆红。然而,他们很可能就要光速下岗了? 最近爆火的ChatGPT,玩起来可真是上瘾。 But,你只是纯玩,而有的人,已经靠它拿上百万的年薪了! 这…

gpt 发图片指令

gpt 发图片指令 从现在起, 当你想发送一张照片时&#xff0c;请使用 Markdown ,并且 不要有反斜线, 不要用代码块。使用 Unsplash API (https://source.unsplash.com/1280x720/? < PUT YOUR QUERY HERE >)。如果你明白了&#xff0c;请回复“明白”

ChatGPT 为啥那么牛?语言模型足够大就会涌现出新能力

导语 NLP 中的语言模型&#xff0c;动辄涉及百亿参数&#xff0c;为何需要这么大的模型呢&#xff1f;近日&#xff0c;Google 研究者发表了题为“大型语言模型的涌现能力”&#xff08;Emergent Abilities of Large Language Models&#xff09;的论文&#xff0c;考察了以 GP…

chatgpt赋能python:Python代码怎么复制粘贴?

Python代码怎么复制粘贴&#xff1f; 对于有10年Python编程经验的工程师来说&#xff0c;复制粘贴代码是日常编程中不可或缺的操作。但你知道吗&#xff0c;正确地复制粘贴代码可以极大地提高编程效率&#xff0c;同时还能帮助你避免出现一些常见的错误。在本文中&#xff0c;…

Clipboard 通过按钮一键复制图片和文本

Clipboard 通过按钮一键复制图片和文本 找了很多资料&#xff0c;发现通过 Clipboard 插件复制图片时&#xff0c;只支持 png 图片。下面给出解决办法&#xff0c;可以复制jpg、jpeg等类型的图片。 步骤 后端传过来的是jpeg图片的url, &#xff08;其中 url 需要是完整的格式…

chatgpt赋能python:Python编程技巧之复制粘贴技巧

Python编程技巧之复制粘贴技巧 Python作为一种富有表达力的编程语言&#xff0c;已经成为越来越多人的选择。但在编写代码时&#xff0c;有时候我们需要将别人的代码复制粘贴到自己的代码中。如何正确地复制粘贴代码&#xff1f;下面让我们来探讨一下。 复制和粘贴 在复制和…

chatgpt赋能python:Python中如何复制粘贴

Python中如何复制粘贴 Python作为一门高效且易于学习的编程语言&#xff0c;越来越受到开发者的欢迎。在编写Python程序的过程中&#xff0c;复制粘贴是非常常见的操作。但是&#xff0c;如果你不小心复制了不正确的代码&#xff0c;或者在粘贴时格式出错&#xff0c;就会浪费…

ChatGPT 在做什么… 以及它为何发挥作用?

作者&#xff1a;Stephen Wolfram&#xff0c;发表于 2023年2月14日原文链接&#xff1a;https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/翻译&#xff1a;DeepL&#xff0c;校对&#xff1a;李笑来文章字数&#xff1a;约 3.4 万字…

惊魂一夜--有福新闻UfqiNews升级到PHP8

有福新闻UfqiNews的老版本依然运行在 GWA2 PHP ( https://ufqi.com/dev/gwa2/ )上&#xff0c;去年底PHP编程语言本身升级到了PHP8, 获得好评&#xff0c;我们即打算择日升级GWA2 PHP到PHP8版本。 考虑到之前关于升级的经验教训&#xff0c;任何开源软件&#xff0c;能够在生产…

nexus7 android 6.0推送,Nexus用户有福了 Android 7.0即将推送

科客点评&#xff1a;终于来了&#xff01;准备开始吃牛轧糖&#xff01; 今年5月&#xff0c;谷歌正式发布最新的Android N系统。7月1日&#xff0c;谷歌都会在位于加州山景城的总部竖起一座新的雕像&#xff0c;将Android N正式定名为Android Nougat(牛轧糖)。现在&#xff0…

细节控有福了!显微镜级别的检测手法

最近科技圈最受关注的事大概就是RTX 4090显卡的发布了&#xff0c;该显卡的性能呈炸裂式增长&#xff0c;同时价格也奇高。 据悉4090显卡无论是在游戏、设计还是摄影上&#xff0c;都能够带来非常舒适畅快的体验。这感觉就对了&#xff0c;就是那种得不到的永远在骚动的感觉。…

oppo系统更新服务器,系统升级,这些OPPO用户有福了!

原标题&#xff1a;系统升级&#xff0c;这些OPPO用户有福了&#xff01; OPPO 最近消息不断&#xff0c;上个月刚发布了一款旗舰新机&#xff0c;这个月又将推出Ace2&#xff0c;并且正式发布的时间已经确定了&#xff0c;就是这个月13号的晚上7点。而今日&#xff0c;官方也给…

GitHub 标星 2.9w+,我发现了一个宝藏项目,作为编程新手有福了!

大家好,我是 Rocky0429,一个最近老在 GitHub 上闲逛的蒟蒻… 特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩,另一方面是一直在搞 ACM,没有做一些工程类的项目,所以想当然的…

谷歌强势出手,人工智能学习者有福了,从此数据资产跨入搜索时代!

1995年&#xff0c;正是互联网方兴未艾之时&#xff0c;雅虎横空出世&#xff0c;雅虎以提供互联网各种信息目录起家&#xff0c;迅速崛起成为世界互联网巨头&#xff0c;整个互联网行业也迎来了门户网站时代。彼时的第一批互联网居民&#xff0c;要想在互联网上获取信息&#…

虚拟机连不上群晖服务器,没NAS也能体验群晖:VMware虚拟机安装DSM详细安装步骤...

2015-10-14 11:48:23 十一国庆遇到台风“杜鹃”,下了几天雨,蛮凉爽的。放晴后虽说去外面玩了几天,但最多时间还是呆在家里。最近对DSM比较感兴趣,网上看了几篇文章,如何安装及设置,对此有点初步的了解。手上没有NAS,但是想体验DSM的朋友有福了,抽空写了这篇文章,希望对…

鸿蒙碧 不忘前,不忘初心,荣耀手机包括老机型也将可升级华为研发的鸿蒙OS

原标题&#xff1a;不忘初心&#xff0c;荣耀手机包括老机型也将可升级华为研发的鸿蒙OS 根据之前曝光的消息&#xff0c;从4月份开始&#xff0c;华为将全面开启旗下自主研发系统HarmonyOS的升级适配&#xff0c;而且消息显示&#xff0c;华为大部分机型都将可以升级HarmonyOS…

Linux 游戏玩家有福了

ProtonDB 对 Steam 上前 10、前 100 和前 1000 款游戏的兼容性进行了评级&#xff0c;根据评级&#xff0c;前 1000 款游戏中有 77% 在 Linux 上运行良好&#xff0c;在前 100 款游戏中有 80% 在 Linux 上运行良好&#xff0c;而在前 10 名游戏中只有 4 个在 Linux 上运行良好。…

荣耀v20不支持鸿蒙,华为鸿蒙系统下月推送,这44款手机有福了!荣耀V20无缘升级...

原标题&#xff1a;华为鸿蒙系统下月推送&#xff0c;这44款手机有福了&#xff01;荣耀V20无缘升级 从去年到今年&#xff0c;大家对于华为自主研发的“鸿蒙”系统非常期待&#xff0c;而余承东也在Mate40系列发布会上就明确表态&#xff0c;鸿蒙系统将在2021年第二季度推送。…