生成 AI 的下一步发展是多模型吗?

b1678d9d6ab9948ae529acc7fa39ee88.gif

”OpenCV 负责人 Satya Mallick 认为我们应该将 AI 视为合作者而不是竞争对手,人类可以利用它来提高生产力“

原文作者:Shritama Saha,由 DeFi 之道 Kyle 编译。

78c5889bfc5a6e93162945a0a986a00b.png

图片来源:由 Maze AI 生成

生成式 AI 的出现就像您身边多了一位个人创意天才。凭借其分析模式和基于模式开发新内容的卓越能力,生成式 AI 可以创造一切,从令人惊叹的数字艺术到原创音乐作品、人类文本等等。

然而,生成式 AI 的炫酷之处也带来了 AI 艺术中复杂的盗版和版权侵权问题。尽管如此,在过去两年中,该细分市场出现了惊人的增长。

在一次独家采访中,OpenCV 首席执行官 Satya Mallick 博士告诉 Analytics India Magazine,他认为生成式 AI 的最大突破是大语言模型或基础模型的发展,并指出 Transformer 模型,例如那些在视觉转换中使用的模型是该领域的一项重大创新。

根据 Mallick 的说法,生成 AI 的下一步是多输入和多媒体输出。换句话说,多模型方法。

微软最近推出了一种名为 Kosmos-1 的多模型大语言模型 (MLLM)。人工智能研究工作室 Alethea.AI 推出了 CharacterGPT,它可以从文本中生成字符。两年前,Google AI 还发布了 MURAL:Multimodal, Multitask Representations Across Languages 模型,用于图文匹配。它部署了应用于图像-文本对的多任务学习,并结合了涵盖 100 多种语言的翻译对。

然而,马利克说,“它有两个基本的限制,包括可以获得多少数据——是否有办法避免需要注释数据和缺乏计算能力——尽管预计未来会增加 ”。

Mallick 是 IIT-Kharagpur 校友,也是加州计算机视觉公司 Big Vision 的创始人。早在 2006 年,当没有人真正了解 AI 或其巨大潜力时,Mallick 与他人共同创立了 TAAZ——一家为美容和时尚行业创建视觉和学习解决方案的计算机视觉公司。

OpenCV 是一个开源计算机视觉和机器学习软件库,由英特尔于 1999 年创立。英特尔前计算机视觉工程师 Gray Bradsky 与主要来自俄罗斯的工程师团队开发了它。他在英特尔工作期间开发了 OpenCV 的第一代迭代。2002 年,他们发布了该软件的 0.9 版开源版本。

该公司最近推出了两门新课程,作为其“Kickstarter 活动”的一部分,内容涉及如何使用 AI 高效地创作艺术。第一门课程《人人都能 AI 艺术生成(AI Art Generation for Everyone)》不需要任何 AI 或编程背景,而第二门课程《高级 AI 艺术生成(Advanced AI Art Generation》则需要基本的编程知识。

版权和知识产权问题

AI 生成的艺术有能力彻底改变艺术世界并发掘未开发的可能性。然而,它也带来了盗版和版权侵权的复杂挑战,引发了人们对所有权和知识产权的担忧。

最近,像 Midjourney 和 Stability AI 这样的图像生成平台因使用艺术家的作品来训练他们的生成 AI 算法而被起诉,激怒了艺术家社区。与此同时,Shutterstock 通过引入自己的 AI 工具采取了更负责任的立场,与 Getty Images 形成鲜明对比的是,Getty Images 禁止在生成 AI 艺术作品中使用其照片。

Mallick 博士将 YouTube 早年与版权威胁的现状相提并论。他说,与 YouTube 类似的解决方案,由像谷歌这样的大公司参与进来,谈判交易并向版权所有者付款,可以在这里发挥作用。

ChatGPT 与 DALL.E

OpenAI 广受欢迎的聊天机器人 ChatGPT 在不到三个月的时间里获得了超过 1 亿用户,使其成为家喻户晓的名字。截至 2023 年 2 月,ChatGPT 的每日访问量超过 2500 万次。但与 ChatGPT 相比,文本-图像模型(如 OpenAI 的 DALL-E 或 StabilityAI 的Stable Diffusion)的采用率存在明显差距。

Mallick 解释说,ChatGPT 拥有如此高采用率的主要原因之一是因为写作能力是每项工作所需的主要技能,无论你是程序员、作家还是社交媒体经理。在 OpenAI 和贝恩公司的帮助下,甚至可口可乐也在使用生成式 AI 进行营销。

“小学学习教授的三项主要技能是——阅读、写作和算术,而不是艺术或摄影,因为这些是高级技能。此外,在文本上训练 NLP 模型更容易,因为它的计算强度低于图像数据。”

此外,随着研究人员结合不同的技术和方法,生成式 AI 正在巩固并变得更加复杂。通过利用 NLP 和计算机视觉的优势,Stable Diffusion 模型代表了生成式 AI 向前迈出的重要一步。

传统的生成模型,如生成式对抗网络 (GAN),由于缺乏语言概念,因此理解世界的能力有限。虽然 GAN 可以创建逼真的图像,但它们需要使用特定的数据集进行训练,例如人脸或猫的图像。

相比之下,Stable Diffusion 模型利用从文本数据中获得的知识来理解单词如何聚集在一起并与世界相关。这使他们能够在不依赖特定数据集的情况下生成更复杂和多变的图像。

他说,“Stable Diffusion 模型是生成式 AI 的重大进步,正是因为它们不依赖监督学习。通过利用从无监督学习中获得的知识,这些模型可以生成复杂多样的图像,而无需手动标记数据,从而使其更加灵活。”

巴比特园区开放合作啦!

8e41e4b06fc92b0c8a34d3628209c6af.png

542dc10437752c2aae887c6197d293dd.jpeg

ee3f219f29291e3c1cdad73446031ca1.gif

中文推特:https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina

Discord社区:https://discord.gg/defidao

电报频道:https://t.me/Mute_8btc

电报社区:https://t.me/news_8btc

da2968b6425b797b00646d5b66d05497.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15218.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Wetab——个神仙插件

当你看着好朋友在你面前玩ChatGPT时,是什么感受;当你瞄见同事的浏览器桌面有精美的壁纸时, 是什么感受;当你为了寻找一个网站而花了五六分钟时,又是什么感受? 这一切,用一个小小的插件就可以解…

16 款 ChatGPT 工具,太炸裂了!

点击上方“小强的进阶之路”,选择“星标”公众号 优质文章,及时送达 预计阅读时间: 2分钟 原帖:https://www.zhihu.com/question/3991480 1、ChatGPT for google 一个浏览器插件,可搭配现有的搜索引擎来使用。 最大化搜索效率&…

ChatGPT 和生成式 AI 对科学意味着什么

来源:ScienceAI 本文约5000字,建议阅读5分钟 真的才刚刚开始。 2022 年 12 月,计算生物学家 Casey Greene 和 Milton Pividori 开始了一项不同寻常的实验:他们请一名非科学家的助手帮助他们改进三篇研究论文。他们勤奋的助手建议在…

ChatGPT自动生成大厨菜谱

大厨菜谱 最近几年,越来越多年轻人也开始尝试自己在家做菜吃饭,而不仅仅是外出就餐或点外卖。有些人可以向长辈讨教做菜心得,有些人则开始尝试从互联网搜索学习菜谱。著名的"下厨房" App,就是针对这个需求应运而生的。…

告别窝囊庸俗的餐桌,跟着ChatGPT做法做菜没毛病!

这篇文章将为您带来一个全新的餐桌体验,告别了一成不变的庸俗菜肴和餐桌礼仪。 我们教你如何借助 ChatGPT AI技术简单快速地做出一顿令人难忘的美食。 这是一次创意尝试,探索更多食物的新奇做法,所需工具不再花哨,技巧也不再烦琐…

chatgpt赋能python:Python中如何关闭已经打开的文件

Python中如何关闭已经打开的文件 在Python编程中,经常需要操作文件。打开文件后,我们需要及时关闭文件以释放对资源的占用和避免数据丢失或损坏。本文将介绍如何在Python中关闭已经打开的文件。 打开文件 首先,我们需要使用Python的内置函…

chatgpt赋能Python-python_关闭

简介 Python是一种高级、跨平台的编程语言,被广泛用于网站开发、数据处理、人工智能、机器学习、自动化测试等领域。Python的优点在于简单易学、语法简洁、可读性好、可扩展性强,处理数据和文本方面也非常高效。 本文将介绍Python关闭功能的相关知识&a…

LLM模型微调方法及经验总结

文章目录 微调方法Freeze方法P-tuning方法prefix-tuningPrompt TuningP-tuning v1P-tuning v2 Lora方法Qlora方法 微调经验模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗?如何避免灾难遗忘 参考: 在现在这大规模语言模型(LL…

MiniGPT-4引领潮流,GPT-4提前发布图片阅读功能

AI中文站翻译自medium.com 让我们来看看如何玩Minigpt-4并将其应用到日常生活中。 今年三月,OpenAI 宣布了 GPT-4 的图像识别功能,这意味着 GPT 技术又被提升一个维度。-4 尚未发布给大众使用很长时间,所以终于有人忍不住了!来自阿…

MiniGPT-4 模型学习与实战

1 前言 MiniGPT-4 是一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的 文本生成大模型(Vicuna,江湖人称:小羊驼) 进行对齐造出来的。 MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等MiniGPT-4…

QLoRA:一种高效LLMs微调方法,48G内存可调65B 模型,调优模型Guanaco 堪比Chatgpt的99.3%!

引言 本文是华盛顿大学刚刚发布的一篇文章。作者提出了QLoRA,它是一种「高效的微调方法」,可以在保持完整的16位微调任务性能的情况下,将内存使用降低到足以「在单个48GB GPU上微调650亿参数模型」。QLORA通过冻结的4位量化预训练语言模型向低秩适配器(LoRA)反向传播梯度。…

Prompt Learning: ChatGPT 也在用的 NLP 新范式

编者按:自GPT-3以来,大语言模型进入了新的训练范式,即“预训练模型Promp learning”。在这一新的范式下,大语言模型呈现出惊人的zero-shot和few-shot能力,使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGP…

《花雕学AI》新版必应 Bing 登场:轻松注册,一站式搜索、聊天与绘画应有尽有

引言: 你是否曾经在网上搜索信息时感到困惑或沮丧?你是否曾经想要在网上创造一些有趣或有用的内容,却不知道从何开始?你是否曾经想要用文字描述一个图像,却无法找到合适的图片?如果你的答案是肯定的&#x…

如何利用ChatPDF快速阅读英文论文,帮你写作业

英语渣狂喜~确实惊艳到我了! 大家好,我是老表 使用平台:https://www.chatpdf.com/ 1、上传PDF 访问官网:https://www.chatpdf.com/,界面很美,点击直接上传 PDF, 需要注意免费版本PDF…

GPT4All: 一个基于大规模数据训练的聊天机器人模型

微信改版,求求大家星标下公众号, 不然后面推送大家可能会看不到 大家好,我是老表,今天给大家分享的是一个开源项目:GPT4All 随着人工智能技术的不断发展,聊天机器人已经成为了一个备受关注的研究领域。在这…

ChatGPT提问的万能公式,强烈建议收藏!泰裤辣!

在实际使用GPT的时候,并不是GPT不够强大,而是我们需要很多时间去调教AI,以便输出我们期望的答案,为了让输出无限的靠近你的期望,就需要下面这个万能的框架,如果大家记不住这个框架或者没有形成习惯&#xf…

老黄因ChatGPT大赚311亿/ 中国移动公布实名NFT交易专利/C919首航航班确定...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好~今天是兔年首个要上班的周一。 不知各位打工人从假期中缓过来了嘛?(虽然可能已经上了两天班) 日报君在此祝大家新的一年里工作顺利,并在此奉上今日份科技趣闻(为您精…

吴恩达给ChatGPT泼冷水/ 罗永浩谈欠薪/ 谷歌元老离职... 今日更多新鲜事在此

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶吼~今天是2月17日星期五。 又到一周工作日的尾巴了,各位想好周末怎么欢度了嘛? 在出去嗨皮/回家睡觉之前,不妨来和日报君看一看科技趣闻——讲真,挺有趣的。 OpenAI计划纠正ChatGPT…

银行数字化转型导师坚鹏:ChatGPT解密与银行应用案例

ChatGPT解密与银行应用案例 ——开启人类AI新纪元 打造数字化转型新利器 课程背景: 很多企业和员工存在以下问题: 不清楚ChatGPT对我们有什么影响? 不知道ChatGPT的发展现状及作用? 不知道ChatGPT的银行业应用案例&#…

关于大模型实践的一些总结

随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题&am…