7 Papers | 超越GPT 3.5的小模型;对ChatGPT摸底考试

关注并星标

从此不迷路

计算机视觉研究院

ef547aa23be0d597df149314c7e736ea.gif

4ee7503e31854b22af0ec4095d8457ef.gif

91e75fa7a25e8c2fb9b8eca4cbcabd3e.png

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

作者:Edison_G

本周论文包括2D 图像脑补 3D 人体;亚马逊发布超越 GPT 3.5 的小模型等研究。

转自《机器之心》

目录

  1. Structure and Content-Guided Video Synthesis with Diffusion Models 

  2. EVA3D: Compositional 3D Human Generation from 2D Image Collections

  3. Multimodal Chain-of-Thought Reasoning in Language Models

  4. Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

  5. Toolformer: Language Models Can Teach Themselves to Use Tools 

  6. Looped Transformers as Programmable Computers 

  7. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

论文 1:Structure and Content-Guided Video Synthesis with Diffusion Models

  • 作者:Patrick Esser 、 Johnathan Chiu 等

  • 论文地址:https://arxiv.org/pdf/2302.03011.pdf

摘要:近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。

具体来说,Gen-1 支持几种编辑模式:

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt,将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中,展示了 Gen-1 如何丝滑地更改视频风格,来看几个示例。

比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:

bda2ef489010c0a863097f4ccad16a7b.gif

推荐:从文本生成图像,再到给视频加特效,下一个 AIGC 爆发点要出现了吗?

论文 2:EVA3D: Compositional 3D Human Generation from 2D Image Collections

  • 作者:Fangzhou Hong 等

  • 论文地址:https://arxiv.org/abs/2210.04888

摘要:在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上,三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达,实现了高分辨率(512x256)的三维人体生成,并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案,代码已开源。

ade5127d95ec2895514d71dbf85032bc.png

推荐:2D 图像脑补 3D 人体,衣服随便搭,还能改动作。

论文 3:Multimodal Chain-of-Thought Reasoning in Language Models

  • 作者:Zhuosheng Zhang 等

  • 论文地址:https://arxiv.org/abs/2302.00923

摘要:众所周知,ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的,我们看到很多研究也在紧随其后紧追慢赶,但是,与 ChatGPT 相比,他们的新研究效果到底有多好?近日,亚马逊发布的一篇论文提出了包含视觉特征的 Multimodal-CoT,该架构在参数量小于 10 亿的情况下,在 ScienceQA 基准测试中,比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%),甚至超过了许多人类。

下图为 Multimodal CoT 两阶段过程:使用文本(问题 + 上下文)和视觉特征来产生逻辑依据。

cd72e0d4a01adcc1f7c46c2d9a72a736.png

推荐:超越 GPT 3.5 的小模型来了!

论文 4:Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

  • 作者:Chengwei Qin 等

  • 论文地址:https://arxiv.org/pdf/2302.06476.pdf

摘要:ChatGPT 真的是「通才」吗?单拎出哪项能力都能完胜其他模型吗?哪些任务是 ChatGPT 擅长的,哪些不是?为了系统地探索这些问题,南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。

188dd2597e8dbe0bd6ed88b6bbd90a4f.png

推荐:ChatGPT 真的是「通才」吗?杨笛一等人给它来了个摸底考试。

论文 5:Toolformer: Language Models Can Teach Themselves to Use Tools

  • 作者:Timo Schick 等

  • 论文地址:https://arxiv.org/pdf/2302.04761v1.pdf

摘要:在自然语言处理任务中,大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而,所有模型都存在固有的局限性,往往只能通过进一步扩展来部分解决。具体来讲,模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。

解决这些问题的一种简单方法就是给模型配备外部工具,如搜索引擎、计算器或日历。然而,现有方法通常依赖于大量的人工注释,或将工具的使用限制在特定的任务设置下,使得语言模型与外部工具的结合使用难以推广。为了打破这种瓶颈,近期 Meta AI 提出了一种称为 Toolformer 的新方法,使得语言模型学会「使用」各种外部工具。如下为 Toolformer 的典型预测。

2bbb800ac3bf4253ced1461e98a7c021.png

推荐:语言模型自己学会用搜索引擎了?Meta AI 提出 API 调用自监督学习方法 Toolformer。

论文 6:Looped Transformers as Programmable Computers

  • 作者:Angeliki Giannou 等

  • 论文地址:https://arxiv.org/pdf/2301.13196.pdf

摘要:在本文中,作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。作者通过对 Attention 进行逆向工程来模拟基本计算块来做到这一点,例如对输入序列的编辑操作、非线性函数、函数调用、程序计数器和条件分支。作者的论文证明了使用单个循环或递归将 Transformer 的输出序列连接回其输入的重要性,从而避免对深度模型的需要。如下为用作实现小型指令集计算机构建块的三个 Transformer 块的示意图。

47cb739075964f8b20e6be8bccdfe83a.png

推荐:作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。

论文 7:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

  • 作者:Haohe Liu 等

  • 论文地址:https://arxiv.org/abs/2301.12503

摘要:给出一段文字,人工智能就可以生成音乐,语音,各种音效,甚至是想象的声音,比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的 AudioLDM,在发布之后迅速火遍国外,一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天,AudioLDM 就冲上了 Hugging Face 热搜榜第一名,并在一周内进入了 Hugging Face 最受喜欢的前 40 名应用榜单(共约 25000),也迅速出现了很多基于 AudioLDM 的衍生工作。

0da5cba10dbbf59b791af53d04311dbb.png

推荐:开源模型、单卡训练,带你了解爆火的文本指导音频生成技术 AudioLDM。

© The Ending

转载请联系本公众号获得授权

602c8ab078c5b4d9420cfc33322b9c6c.gif

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

1aa868c8abdfba163883eedab6f02934.jpeg

扫码关注

计算机视觉研究院

公众号IDComputerVisionGzq

学习群扫码在主页获取加入方式

 往期推荐 

🔗

  • 计算机视觉研究院亲自体验ChatGPT的感受,太疯狂了!

  • 用于吸烟行为检测的可解释特征学习框架(附论文下载)

  • 图像自适应YOLO:恶劣天气下的目标检测(附源代码)

  • 新冠状病毒自动口罩检测:方法的比较分析(附源代码)

  • NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)

  • 实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)

  • LCCL网络:相互指导博弈来提升目标检测精度(附源代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19978.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里家属快当不下去了

往期热门文章: 1、C 首超 Java!地位不保? 2、IntelliJ IDEA终于支持对Redis 的可视化窗口操作了,真香! 3、ChatGPT能接入微信了! 4、Java 反射慢?它到底慢在哪? 5、GitHub 被超火的 …

2023.2.27-3.5 AI行业周刊(第139期):裁员?主动选择or被动选择?

上周五晚和一个好朋友见面,他在一家AI公司做首席科学家。 聊天的时候,讨论到一个话题:40岁之后的人生,如何才能过的更舒适,不焦虑? 我和他都是90年左右,已经是往不惑之年奔赴的年纪了&#xf…

ChatALL:发现最佳答案的神奇AI机器人!

“ 有了这个神器软件,AI 聊天机器人的牌子随便你翻。” 最近研究学习AI聊天机器人,注册了不少AI大模型账号,有时候有问题问完了ChatGPT,就想看看其他机器人的回答,体验和比较一下。 正好看到一个符合我这类重度AI患者的…

我的周刊(第078期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。 🎯 项目 awesome-chatgpt-prompts-zh[1] ChatGPT 中文调教…

程序员必备的免费AI生产力(摸鱼)工具,最后一个,人手必备

最近ChatGPT等AI技术风靡全球,对于普通大众来说,越来越多的人开始关注智能时代对我们生活的影响。它颠覆了写作、办公、绘画、音视频、图像处理、UI 设计等领域,并涌现出了一批具有颠覆性的应用。 在程序员领域,许多 AI 工具已经涌…

chatgpt赋能Python-python_dingtalk

Python DingTalk:高效企业通讯利器 当今互联网时代,企业内部沟通必不可少。在成千上万的企业应用中,DingTalk作为高效沟通工具被越来越多的企业所使用。Python DingTalk库的出现,为企业带来了更加方便快捷的通讯方式。 什么是Py…

和chatGPT的一些对话记录

指定pom文件jar引的位置方法,chatGPT是这样说的 Unknown system variable ‘query_cache_size’,错误原因 一秒执行指定方法5次 1秒内并行指定指定方法 解释代码含义

泰安柒柒:ChatGPT的用途有哪些?

大家好,当今的ChatGPT是一个强大的语言模型,它利用大规模的自然语言处理和机器学习算法,可以进行自然而流畅的对话,理解自然语言问题并回答。ChatGPT拥有极强的自然语言处理能力,可以用于各种任务,如文本生…

竞彩公司每日足球比赛比分预测!

软件不是单纯的乱预测,是爬取了某赔率公司的数据,根据每日比赛的赔率来进行最有可能出现的比分来预测比赛结果,可以作为很好的帮助你分析比赛

世界杯:用Python分析热门夺冠球队

火热的世界杯即将拉开序幕。在比赛开始之前,我们不妨用 Python 来对参赛队伍的实力情况进行分析,并大胆的预测下本届世界杯的夺冠热门球队。 通过数据分析,可以发现很多有趣的结果,比如: 找出哪些队伍是首次进入世界…

OpenAI正在杀死创业公司?

图片来源:由无界AI生成 作者|李晗 朱悦 谁也无法想到,在这一轮AIGC浪潮中,一些AI公司还没来得及颠覆行业,自己却快被颠覆了。 7月12日,美国AIGC独角兽Jasper联合创始人Dave Rogenmoser在职场社交网站Linked…

重磅!谷歌面试官亲自分享:Google面试技巧

关注上方“深度学习技术前沿”,选择“星标公众号”, 资源干货,第一时间送达! 本文转载自:图灵TOPIA | 编译:安然 作者:Pablo Samuel Castro Pablo Samuel Castro是谷歌Brain的一名高级研究员&…

开奶茶店,哪里学奶茶的制作配方?

奶茶目前在国内的饮品市场上可谓是独占鳌头,由于其口味香浓,外表时尚,所以深受广大青年人、小孩们的喜爱。 随着社会的不断快速发展,越来越多的人开起了奶茶店创业,然而每天开奶茶店的人都在不断增加,那么&…

奶茶店一天盈利有多少?广州哪里有专业奶茶培训点

很多人都知道奶茶行业利润很高,但是又不了解具体的数字。想拥有一个属于自家的奶茶店的你一定很关心奶茶店的成本和收益,比如:奶茶店一天的盈利有多少,广州哪里有专业奶茶培训点?下面跟随埃德珈一起来看看。 现在在大街…

基于django奶茶店管理系统

1,项目功能: (1)采购单创建:该模块可以实现通过添加采购信息,并把采购信息录入数据库。 (2)采购单查看:该模块实现采购单的查看,查看采购的详细信息。 &am…

中顶奶茶店管理系统

中顶奶茶店管理系统功能强大,可以满足奶茶店的日常经营需求,为店里大大的减少了管理方面的压力,系统操作方便,支持全键盘操作的POS点单模式,也支持触摸屏点单模式,使操作者更加方便的进行销售管理&#xff…

数字化门店| 奶茶店智慧管理系统

奶茶如今已经成为年轻女性的常饮品,比如蜜雪冰城、奈雪的茶之类的品牌线下门店,门店量的庞大覆盖,使得每天都是人来人往,但碰上优惠活动日或节假日,很多人需要排很长的队才能买到,同时在店内坐的消费者如果…

奶茶果茶饮品店数字化转型| 奶茶店小程序 | 餐饮外卖系统

奶茶/果茶/饮品店里总是容易聚集大量年轻消费者,尤其品牌开新店或搞促销,往往会排很长的队伍,而茶饮店也会根据季节推出相应的新品或冷热饮品,以保证消费者在任何时候都能喝到应季的饮品。 年轻人是奶茶饮品店的主要消费者&#x…

微信小程序奶茶店在线点单管理系统

面对目前奶茶店林立的现状,大城市奶茶店多为连锁奶茶店他们都有统一的管理和相应的系统。但是个别小县城和小城以及城区也有不少的奶茶店多为自营,这就必须店长自己管理和采购原料。大型连锁的奶茶店管理系统就不适用于分散的小型奶茶店。小型奶茶店的管…

喝不起奶茶,咱就为奶茶店开发个会员积分收银系统

作者主页:编程指南针 简介:Java领域优质创作者、CSDN博客专家 Java项目、简历模板、学习资料、面试题库、技术互助 文末获取源码 项目编号:BS-XX-011 本系统基于SSM框架开发实现,前端使用easyui开发实现,功能强大&am…