AI_Papers周刊:第五期

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

2023.03.06—2023.03.12

Top Papers

Subjects: cs.CL  

1.Larger language models do in-context learning differently

标题:更大的语言模型以不同的方式进行上下文学习

作者:Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen

文章链接:https://arxiv.org/abs/2303.01037

        我们研究了语言模型中的上下文学习 (ICL) 如何受到语义先验与输入标签映射的影响。我们研究了两种设置——带有翻转标签的 ICL 和带有语义无关标签的 ICL——跨越各种模型系列(GPT-3、InstructGPT、Codex、PaLM 和 Flan-PaLM)。首先,带有翻转标签的 ICL 实验表明,覆盖语义先验是模型规模的一种新兴能力。虽然小型语言模型忽略上下文中呈现的翻转标签,因此主要依赖于预训练的语义先验,但大型模型可以在呈现与先验相矛盾的上下文范例时覆盖语义先验,尽管更大的模型可能拥有更强的语义先验。我们接下来研究语义无关标签 ICL (SUL-ICL),其中标签与其输入在语义上无关(例如,foo/bar 而不是负/正),从而迫使语言模型学习中所示的输入-标签映射-上下文范例以执行任务。进行 SUL-ICL 的能力也主要随着规模而出现,足够大的语言模型甚至可以在 SUL-ICL 设置中执行线性分类。最后,我们评估了指令调整模型,发现指令调整加强了语义先验的使用和学习输入标签映射的能力,但更多的是前者。

上榜理由

        该论文声称,具有语义无关标签的上下文学习随着规模而出现。您可以在下图中看到“当使用语义无关目标或 NL 目标时,小型模型的性能下降幅度大于大型模型。”

        论文中有许多很酷的结果:指令调整的 LM 在学习输入标签映射方面比仅预训练的 LM 表现更好。通常,更大的模型和每个类的更多范例会产生更好的结果。

        有了规模,LLM 可以在提供足够多的翻转标签时覆盖语义先验;当用语义无关的目标替换目标时,这些模型也能表现良好。

2.Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

标题:Google USM:扩展超过 100 种语言的自动语音识别

作者:Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen

文章链接:https://arxiv.org/abs/2303.01037

        我们介绍了通用语音模型 (USM),这是一个单一的大型模型,可在 100 多种语言中执行自动语音识别 (ASR)。这是通过在跨越 300 多种语言的 1200 万 (M) 小时的大型未标记多语言数据集上对模型的编码器进行预训练,并在较小的标记数据集上进行微调来实现的。我们使用具有随机投影量化和语音文本模态匹配的多语言预训练来实现下游多语言 ASR 和语音到文本翻译任务的最先进性能。我们还证明,尽管使用的标记训练集的大小是 Whisper 模型所用训练集的 1/7,但我们的模型在跨多种语言的域内和域外语音识别任务上表现出相当或更好的性能。

3.More than you've asked for: A Comprehensive Analysis of Novel Prompt Injection Threats to Application-Integrated Large Language Models

标题:超出您的要求:对应用程序集成大型语言模型的新型快速注入威胁的综合分析

作者:Parker Riley, Timothy Dozat, Jan A. Botha, Xavier Garcia, Dan Garrette, Jason Riesa, Orhan Firat, Noah Constant

文章链接:https://arxiv.org/abs/2302.12173v1

项目代码:https://github.com/greshake/lm-safety

        我们目前正在见证大型语言模型 (LLM) 功能的巨大进步。它们已经在实践中被采用并集成到许多系统中,包括集成开发环境 (IDE) 和搜索引擎。当前 LLM 的功能可以通过自然语言提示进行调整,而它们确切的内部功能仍然隐含且不可评估。这种特性使它们甚至可以适应看不见的任务,也可能使它们容易受到有针对性的对抗性提示的影响。最近,引入了几种使用提示注入 (PI) 攻击来错位 LLM 的方法。在此类攻击中,对手可以提示 LLM 生成恶意内容或覆盖原始指令和采用的过滤方案。最近的工作表明,这些攻击很难缓解,因为最先进的 LLM 是遵循指令的。到目前为止,这些攻击假设对手直接提示 LLM。在这项工作中,我们展示了通过检索和 API 调用功能(所谓的应用程序集成 LLM)增强 LLM 会引发一组全新的攻击向量。这些 LLM 可能会处理从 Web 检索到的有毒内容,这些内容包含由对手预先注入和选择的恶意提示。我们证明攻击者可以间接执行此类 PI 攻击。基于这一重要见解,我们系统地分析了应用程序集成 LLM 所产生的威胁格局,并讨论了各种新的攻击向量。为了证明我们攻击的实际可行性,我们在合成应用程序中实施了拟议攻击的具体演示。总之,我们的工作要求对当前的缓解技术进行紧急评估,并调查是否需要新技术来保护 LLM 免受这些威胁。

Subjects: cs.CV

1.Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

标题:Visual ChatGPT:使用 Visual Foundation 模型交谈、绘图和编辑

作者:Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan

文章链接:https://t.co/0nYSa7CupY

项目代码:https://github.com/microsoft/visual-chatgpt

        ChatGPT 正在吸引跨领域的兴趣,因为它提供了一种语言界面,具有跨多个领域的卓越对话能力和推理能力。然而,由于 ChatGPT 是用语言训练的,它目前无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models,如 Visual Transformers 或 Stable Diffusion,虽然表现出强大的视觉理解和生成能力,但它们只是特定任务的专家,具有一轮固定的输入和输出。为此,我们构建了一个名为 \textbf{Visual ChatGPT} 的系统,结合了不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互:1)不仅发送和接收语言,还发送和接收图像 2)提供复杂的视觉问题或视觉编辑需要多个 AI 模型多步骤协作的指令。3) 提供反馈并要求更正结果。我们设计了一系列提示将视觉模型信息注入 ChatGPT,考虑到多个输入/输出的模型和需要视觉反馈的模型。实验表明,Visual ChatGPT 打开了借助 Visual Foundation Models 研究 ChatGPT 视觉角色的大门。

上榜理由

        构建一个名为 Visual ChatGPT 的系统,结合不同的视觉基础模型,使用户能够通过以下方式与 ChatGPT 进行交互:1)不仅发送和接收语言,还发送和接收图像 2)提供需要多个 AI 协作的复杂视觉问题或视觉编辑指令具有多步骤的模型。3)提供反馈并要求更正结果。  

        它使用 ChatGPT 作为中央通信枢纽,并插入许多黑盒视觉模型,例如 Stable Diffusion、pix2pix 和 ControlNet。结果是一个多模态会话人工智能,它既能理解又能生成图像,具有零可训练参数。     

2.GigaGAN: Large-scale GAN for Text-to-Image Synthesis(CVPR 2023)

标题:GigaGAN:用于文本到图像合成的大规模 GAN

作者:Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park

文章链接:https://arxiv.org/abs/2303.05511

项目代码:https://mingukkang.github.io/GigaGAN/

        最近文本到图像合成的成功席卷了世界,并俘获了公众的想象力。从技术的角度来看,它也标志着设计生成图像模型的首选架构发生了巨大变化。GAN 曾经是事实上的选择,采用 StyleGAN 等技术。借助 DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准。这种快速转变提出了一个基本问题:我们能否扩大 GAN 以从像 LAION 这样的大型数据集中获益?我们发现,天真地增加 StyleGAN 架构的容量会很快变得不稳定。我们介绍了 GigaGAN,这是一种远远超过此限制的新 GAN 架构,展示了 GAN 作为文本到图像合成的可行选择。GigaGAN 具有三大优势。首先,它在推理时间上快了几个数量级,合成一张 512 像素的图像仅需 0.13 秒。其次,它可以在 3.66 秒内合成高分辨率图像,例如 16 兆像素。最后,GigaGAN 支持各种潜在空间编辑应用,例如潜在插值、样式混合和向量算术运算。

3.Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

标题:使用文本到图像扩散模型的开放词汇全景分割

作者:Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang, Shalini De Mello

文章链接:https://arxiv.org/abs/2303.04803

项目代码:https://jerryxu.net/ODISE/

        我们提出了 ODISE:基于开放词汇扩散的全景分割,它统一了预训练的文本图像扩散和判别模型来执行开放词汇全景分割。文本到图像的扩散模型显示了生成具有多种开放式词汇语言描述的高质量图像的卓越能力。这表明它们的内部表示空间与现实世界中的开放概念高度相关。另一方面,像 CLIP 这样的文本图像判别模型擅长将图像分类为开放式词汇标签。我们建议利用这两个模型的冻结表示来执行野外任何类别的全景分割。我们的方法在开放词汇全景和语义分割任务上的表现都优于以前的最先进技术。特别是,仅通过 COCO 训练,我们的方法在 ADE20K 数据集上实现了 23.4 PQ 和 30.0 mIoU,与之前的最新技术相比有 8.3 PQ 和 7.9 mIoU 的绝对改进。

4.A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

标题:AI 生成内容 (AIGC) 综述:从 GAN 到 ChatGPT 的生成 AI 历史

作者:Yihan Cao, Siyu Li, Yixin Liu, Zhiling Yan, Yutong Dai, Philip S. Yu, Lichao Sun

文章链接:https://arxiv.org/abs/2302.04761

        最近,ChatGPT 与 DALL-E-2 和 Codex 一起受到了社会的广泛关注。因此,许多人对相关资源产生了兴趣,并试图揭开其出色表现背后的背景和秘密。实际上,ChatGPT 和其他生成式人工智能 (GAI) 技术属于人工智能生成内容 (AIGC) 的范畴,涉及通过人工智能模型创建数字内容,例如图像、音乐和自然语言。AIGC 的目标是使内容创建过程更加高效和易于访问,从而能够以更快的速度制作高质量的内容。AIGC是通过从人类提供的指令中提取和理解意图信息,并根据其知识和意图信息生成内容来实现的。近年来,大型模型在 AIGC 中变得越来越重要,因为它们提供了更好的意图提取,从而改进了生成结果。随着数据的增长和模型的规模,模型可以学习的分布变得更加全面和接近现实,从而导致更真实和高质量的内容生成。本调查全面回顾了生成模型的历史、基本组件、AIGC 从单模态交互和多模态交互的最新进展。我们从单峰性的角度介绍了文本和图像的生成任务和相关模型。我们从多模态的角度来介绍上述模态之间的交叉应用。最后,我们讨论了 AIGC 中存在的开放性问题和未来的挑战。

Notable Papers

1.Consistency Models

标题:一致性模型

文章链接:https://arxiv.org/abs/2302.12253

摘要:

        扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,导致采样速度缓慢并限制了它们在实时应用中的潜力。为了克服这个限制,我们提出了一致性模型,这是一个新的生成模型家族,无需对抗训练即可实现高样本质量。它们通过设计支持快速一步生成,同时仍然允许几步采样以用计算换取样本质量。它们还支持零镜头数据编辑,例如图像修复、着色和超分辨率,而无需对这些任务进行明确的培训。一致性模型可以作为提取预训练扩散模型的一种方式进行训练,也可以作为独立的生成模型进行训练。通过广泛的实验,我们证明它们在一步生成和几步生成中优于现有的扩散模型蒸馏技术。例如,我们在 CIFAR-10 上实现了新的最先进的 FID 3.55,在 ImageNet 64x64 上实现了 6.20 的一步生成。当作为独立的生成模型进行训练时,一致性模型在 CIFAR-10、ImageNet 64x64 和 LSUN 256x256 等标准基准测试中的表现也优于单步、非对抗性生成模型。

2.Word-As-Image for Semantic Typography

标题:语义排版的文字图像

文章链接:https://arxiv.org/abs/2302.12238

摘要:

        文字即图像是一种语义排版技术,其中文字插图呈现了文字含义的可视化,同时还保留了其可读性。我们提出了一种自动创建文字图像插图的方法。这项任务非常具有挑战性,因为它需要对单词的语义理解以及关于在何处以及如何以视觉上令人愉悦和清晰的方式描述这些语义的创造性想法。我们依靠最近大型预训练语言视觉模型的卓越能力来直观地提炼文本概念。我们的目标是清晰传达语义的简单、简洁、黑白设计。我们刻意不改变字母的颜色或质地,也不使用装饰。我们的方法在预训练的稳定扩散模型的指导下优化每个字母的轮廓以传达所需的概念。我们合并了额外的损失条款,以确保文本的易读性和字体样式的保留。我们在众多示例中展示了高质量和引人入胜的结果,并与其他技术进行了比较。

3.Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

标题:提示、生成,然后缓存:基础模型的级联使强大的小样本学习者成为可能

文章链接:https://arxiv.org/abs/2303.02151

项目代码:https://github.com/ZrrSkywalker/CaFo

摘要:

        低数据条件下的视觉识别需要深度神经网络从有限的训练样本中学习广义表示。最近,基于 CLIP 的方法已经显示出有前途的小样本性能,这得益于对比语言图像预训练。然后我们质疑,是否可以级联更多样化的预训练知识以进一步协助少镜头表示学习。在本文中,我们提出了 CaFo,这是一个级联的基础模型,它结合了各种预训练范式的各种先验知识,以实现更好的少样本学习。我们的 CaFo 结合了 CLIP 的语言对比知识、DINO 的视觉对比知识、DALL-E 的视觉生成知识和 GPT-3 的语言生成知识。具体来说,CaFo 的工作原理是“提示、生成,然后缓存”。首先,我们利用 GPT-3 生成文本输入,以提示具有丰富下游语言语义的 CLIP。然后,我们通过 DALL-E 生成合成图像,以在没有任何人力的情况下扩展小样本训练数据。最后,我们引入了一个可学习的缓存模型来自适应地混合来自 CLIP 和 DINO 的预测。通过这样的合作,CaFo 可以充分发挥不同预训练方法的潜力,并将它们统一起来,以执行最先进的小样本分类。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25427.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

又编解码错误?一怒之下我把编解码的问题连根拔起!!!

文章目录 寻找同道问题解决专栏有哪些常用编码集?pycharm一劳永逸大法 寻找同道 运行代码的时候,最烦的就是代码逻辑都好好的,然后出现了编解码错误的报错。 我就纳闷儿了,我就做个测试,你错误就错误呗,你…

知乎高赞:Java9的模块化技术在应用上有什么价值?

点击关注公众号,利用碎片时间学习 来源:zhihu.com/question/264956573/ answer/1840974105 最近就正好在倒腾模块化,说说我们的应用场景 就是用java来写steam上的游戏,那缺省的jdk,它提供了语言常见的功能 但是 jdk并不…

知乎的彩蛋

在这篇文章中《Python一个有趣的彩蛋命令行执行python -c "import this"或者在python解释器中执行import this,会打印出Python之禅,另外介绍了个Chrome的彩蛋,在地址栏输入chrome://dino/,就可以打开一个小恐龙跑酷的黑…

设计模式看了又忘,忘了又看?

设计模式收藏这篇就够了 耗时了 5 个月,终于把设计模式一整个系列写完。其实设计模式这一系列文章网上已经有很多非常好、非常优秀的文章,为什么要写呢? 一方面是为了学得更扎实,印象中设计模式学习了 2 遍,记得牢的基…

响铃:IP跨界她经济,同道能讲好“单身婚纱”的故事吗?

文|曾响铃 来源|科技向令说(xiangling0815) 国泰君安证券报告显示,女性消费对经济增长的贡献率接近70%,到2019年中国内地女性经济市场规模近将接近4.5万亿元,而家庭消费中,近75%由女性决策。 由此引发的…

“因为内存泄漏,我的 M1 MacBook Pro 瘫痪了”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上个月,苹果在宣布“王炸候场中”后,19 号发布了 AirPods 3、HomePod mini 等新品,而这场发布会真正的主角当属新款 MacBook Pro:强悍的 M1 Pro/M1 Max…

程序员的财务自由之路(五)- 三人行必有吾师

一、前言 给自己树立一个「 目标 」是非常重要的,有「 目标 」才会有「 方向 」,有「 目标 」才会有「 动力 」,有「 目标 」才会有「 人生的意义 」。有了「 目标 」,再做一定的「 规划 」,并且「 坚持 」做下去&…

浅谈脑机接口:传统神经学科的颠覆者

人类从未停止对大脑的研究,然而有关于大脑的探秘如今所发现的也仅仅只是冰山一角,作为神秘的研究领域,脑科学直到下个世纪仍是前沿科学。 早在2001年,美国《麻省理工科技评论》首次提出把脑机接口领域称为将会改变世界的10大新兴技…

程序员坐牢了,会被安排去写代码吗?

点击蓝色“程序员黄小斜”关注我哟 加个“星标”,每天和你一起多进步一点点! 今天给大家分享一篇有意思的爽文,但也是根据多年之前一个真实报道改编而来的。 本文字数较多,建议先收藏,上下班路上、带薪上厕所、浑水…

痞子衡职场经验与感悟分享 - 索引

大家好,我是痞子衡,是正经搞技术的痞子。本系列痞子衡给大家分享的是职场经验与见闻感悟。 痞子衡在嵌入式行业也摸打滚爬了不少年,有一些个人经验可以给大家参考。所谓他山之石可以攻玉,希望痞子衡的经验对大家的职场之路有所帮…

有才天下猎聘股份简称更名为“同道猎聘” 7月31日生效

7月28日晚间,有才天下猎聘(06100)发布公告,公司英文名由“Wise Talent Information Technology Co., Ltd”更改为“Tongdao Liepin Group”,中文双重外文名称已由“有才天下信息技术有限公司”更改为“同道猎聘集团”,均自2020年6…

同道猎聘营收、利润双增:市值3个月回落七成,已被BOSS直聘超越

日前,同道猎聘(HK:06100)发布截至6月30日的2021年中期业绩。财报显示,同道猎聘2021年上半年实现收入11.98亿元,同比增长48.3%;净利润5343.9万元,同比增长57.1%。 同道猎聘称,其收入…

我要学计算机表情包,确认过表情包,怕是遇上学计算机的“同道中人”了

不同的大学专业有着自己的专属表情包,专业知识结合着骚浪贱,皮中带稳还多了点内涵……今天我们来围(bi)观(pin)计算机科学 CS 专业学生才能懂的表情包。 说到计算机, 不禁想起被亲朋好友问专业时的恐惧。 “小伙子学什么的?” “计…

同道伟业完成2400万元A轮融资 深耕足球大数据产业

投资界(微信ID:pedaily2012)6月15日消息,国内领先的足球大数据科技公司——北京同道伟业体育科技有限公司(以下简称同道伟业)宣布完成2400万元A轮投资,本轮融资由华盖资本和丰厚资本共同投资&am…

深度学习知识点全面总结

👨‍💻作者简介:大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享,公众号:GoAI的学习小屋,免费分享书籍、简历、导图等资料&a…

自度曲.同道

自度曲.同道 道路弯弯弯九曲,倚车凝望窗明。同道半途分手行,君去小坝路,我到吴忠城。 顿想车上欢笑事,如何只剩愁生。身世别后更孤零,跳舞没意思,唱歌无心情。 转载于:https://www.cnblogs.com/ysx4221…

痞子衡嵌入式:我被邀请做科锐国际旗下数科同道主办的技术沙龙嘉宾

「数科同道」是「科锐国际」旗下的面向技术开发者的专属垂直招聘平台。《数科同道技术沙龙》是由数科同道主办的活动,每期活动邀请行业内及其他知名公司的技术专家分享来自一线的实践经验。自2022年12月起,数科同道将在苏州,聚焦嵌入式行业及…

虎牙、斗鱼同道同命:共同御寒

配图来自Canva可画 回顾游戏直播行业过去十年,先是直播行业野蛮发展玩家快速跑马圈地,而后历经千播大战形成斗鱼、虎牙分天下的市场格局,现在头部平台进入精细化、多元化运作阶段,市场竞争愈加激烈。 也就是说,游戏直…

同道大叔创始人蔡跃栋推出的「YOOZ」电子烟,朋友圈一天卖出500万营业额

最近一段时间,电子烟市场迎来了许多新“玩家”。除了烟民们对于电子烟本身开始认可之外,将“春节送烟”转变为“春节送电子烟”也开始成为了一股潮流。 1 月 20 日,前同道大叔创始人蔡跃栋在朋友圈发布了海报——“创业再出发,需…

同道大叔星座大吐槽001 读后感

同道大叔星座大吐槽001 读后感 作者:同道大叔 【少女之友同道开专栏啦!】星座娱乐专家,少女之友同道大叔,内容纯属娱乐。会吐槽,会画画,会卖萌,还能带你上天!这就是同道大叔&…