Transformer16 ~Robotics

还是Transformer相关 ,谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。

论文 1:RT-1: Robotics Transformer for Real-World Control at Scale

  • 作者:Anthony Brohan 等

  • 论文地址:https://robotics-transformer.github.io/assets/rt1.pdf

RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。

推荐:轻松完成 700 多条指令、成功率达 97%!谷歌开源机器人领域 transformer。

论文 2:Abstract Visual Reasoning with Tangram Shapes

  • 作者:Anya Ji 等

  • 论文地址:https://arxiv.org/pdf/2211.16492.pdf

摘要:在这篇论文中,康奈尔大学等机构的研究者介绍了「KiloGram」,一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。

首先,研究者策划并数字化了 1016 个形状,创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖,提供了一个关于人类命名行为的更全面的视角。第二,该集合不是把每个七巧板当作一个单一的整体形状,而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据,反映了命名行为的高度多样性。

推荐:EMNLP 2022 最佳长论文。

论文 3:Re^3 : Generating Longer Stories With Recursive Reprompting and Revision

  • 作者:Kevin Yang 等

  • 论文地址:https://arxiv.org/pdf/2210.06774.pdf

摘要:在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。

有人说,AI 要是动起笔来,那真是没人类什么事了。但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。

 

推荐:符合人类创作过程的 AIGC:自动生成长故事的模型出现了。

论文 4:BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

  • 作者:Haiyang Liu 等

  • 论文地址:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136670605.pdf

摘要:华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。

在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表,数据集已经开源。

推荐:76 小时动捕,最大规模数字人多模态数据集开源。

论文 5:Parameter-Efficient Masking Networks

  • 作者:Yue Bai 等

  • 论文地址:https://arxiv.org/abs/2210.06699

摘要:为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。

美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。

推荐:如何提高存储、传输效率?参数集约型掩码网络效果显著。

论文 6:CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics

  • 作者:Yiren Song 等

  • 论文地址:https://arxiv.org/abs/2212.02122

摘要:2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。

针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。

推荐:首次不依赖生成模型,一句话让 AI 修图!

论文 7:Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals

  • 作者:PIOTR MIROWSKI 等

  • 论文地址:https://arxiv.org/pdf/2209.14958.pdf

摘要:你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来?DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。

Dramatron 是一个「联合写作」工具,你给它一句话描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、角色、场景描述和对话。

推荐:OpenAI ChatGPT 走红,DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本。

 whaosoft aiot http://143ai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19197.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AIGC潮流下的企业赢家之路

AIGC潮流下的企业赢家之路:〈家猫野猫〉组合成GAN大模型。 很重要的观点:〈其中训练生成型AI最有竟争力的子行业〉。AI建模师的职责:组合模型、训练模型。亦即把一群不会飞的模型巧妙组合起来,训练它然后飞上天际。如果这个创新组…

Can ChatGPT Understand Too?

背景 最近,ChatGPT受到了极大的关注,因为它可以对人类的查询产生流畅和高质量的响应。已有研究表明,ChatGPT与现有模型相比具有显著的生成能力。 动机 ChatGPT理解能力的定量分析却很少受到关注 作者主要做的事 本文通过在最流行的GLUE基…

LSTM模型实战案例:TensorFlow实现预测3位彩票号码

向AI转型的程序员都关注了这个号👇👇👇 大数据挖掘DT机器学习 公众号: datayx 使用人工智能技术来预测彩票,是这次的主题,那么预测哪种彩票呢?我们先选择简单一些的,就是排列组合少…

从风靡全球到风口,Tiktok是如何做到的?

大家好,我是瑞卡迪电子商务。我们是从2019年下半年就注意到了TikTok的风口,并在2020年初,团队就开始投入TikTok的运营及商业变现。从2019年起,围绕TikTok一系列的产品功能迭代和商业模式开放的声音一直不绝于耳,直至今…

tiktok海外版某音,分析协议构造,我们浅谈一下

大家好,我叫任雪飘,今天带大家一起学习一下海外版本的D音,这个大家不陌生吧。 在这之前先强调一下我们中国的网络安全法,一定要准时法理法规。 wss是WebSocket协议的一种通信协议的缩写。wss 和wss不同的是一个采用加密,一个直接…

如何了解(海外抖音TiKToK)与国内抖音的区别以及介绍

一、海外抖音TK平台的优势 自从抖音在中国大受欢迎后,海外也推出了海外版抖音TK平台。尽管两者都是视频分享平台,但它们在一些方面具有明显的区别和独特的优势。下面将详细介绍海外抖音TK平台的优势以及与国内抖音的区别性。 优势: 1. 多元…

常见的TikTok变现方式,你知道几种?

在众多的海外社交媒体中,TikTok以其极具特色的娱乐化短视频,吸引了庞大的用户群体。目前TikTok仍处于发展阶段,竞争压力小、营销效果显著,属于变现的红利期。那么常见的TikTok变现方式,你知道几种呢? 变现方…

跨境人看过来:为什么要使用 TikTok 进行 B2B 营销

每个月,8000 万人平均在 TikTok 上花费 24 小时。这一新机遇彻底改变了 B2C 品牌与客户互动的方式。用于 B2B 营销的 TikTok 能否释放同样的潜力? 相当多的品牌正试图自己回答这个问题。并非所有 B2B 公司都可以利用这些即时#TikTokMadeMeBuyIt B2C 转换…

如何利用ChatGPT打造热门TikTok内容?

TikTok已经成为了全球最流行的短视频平台之一,它每天都有数百万的用户发布和观看视频。 但是,如何在这个平台上发布有吸引力的内容,并吸引更多的粉丝?答案是利用ChatGPT。 ChatGPT是一种基于人工智能的语言模型,可以生…

别等ChatGPT开源了,升级版OPT开源模型来了!

源|新智元 编|Joey 昕朋 今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。 12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上线&…

微软发布「升级版」多模态大模型 Kosmos-2!新增局部理解能力,解锁实体级交互

夕小瑶科技说 原创 作者 | 小戏、ZenMoore 三个多月前,微软亚洲研究院在论文《Language Is Not All You Need: Aligning Perception with Language Models》中发布了一个强大的多模态大模型 Kosmos-1,成功将感知与语言对齐,在 ChatGPT 的多…

OpenAI居然能自动写论文?导师直言我都犯难了...

最近两个月以来,刷屏网络技术圈的莫过于chatGPT 莫属了!闲暇之余,自己也去注册了一个账号来看看它的魔力,毕竟也有很多博主抵挡不住其中的诱惑,好吧,我也抵挡不住,也就去开了openAI实验了一番&a…

ChatGPT 太火爆了,为什么不被开发者所欢迎?

可以说,ChatGPT是近几个月最受欢迎的话题之一,毕竟这个聊天机器人比它的前辈们“聪明”了很多,除了聊天之外,还会打草稿和编写代码,在某种程度上也能提高生产力。 记得 ChatGPT 最开始上线不久的时候,看到…

如何搭建公共聊天室

搭建公共聊天室 一、聊天室介绍 本聊天室主要运用了udp协议,应用于局域网范围之内,可以支持多个处于同一个局域网的主机在局域网内相互传递消息。本聊天室由一个服务器端和若干个客户端组成,由一台主机打开服务器端,其他主机通过…

实战:向人工智能看齐用Docker部署一个ChatGPT

文章目录 前言鉴赏chatgpt环境要求开始搭建云安装docker从docker仓库拉取chatgpt-web镜像创建容器并运行chatgpt-web创建容器启动chatgpt-web访问自己的chatgpt 总结 前言 目前GPT-4都官宣步入多模态大型语言模型领域了,大佬竟然还没有体验GPT么。作为一个资深搬砖…

ChatGPT | Poe AI—体验多个不同 AI 人工智能对话模型

近日,随着ChatGPT等AI产品不断推陈出新,问答平台Quora现也开放新的AI聊天机器人应用Poe,可供用户随意访问。用户可以向它提出问题,Poe从多种AI聊天机器人处获取答案,包括ChatGPT背后母公司OpenAI以及Anthropic等其他公…

MySQL 8.0原理与实战一网打尽,甲骨文数据库专家硬刚5年之作

一、MySQL 8.0势在必行 据权威数据库技术排名网站DB-Engines今年4月的最新数据,MySQL是全球最流行的开源数据库,没有之一。在所有数据库排名中,MySQL仅次于Oracle,“屈居”亚军之位。但大家从截图中可以看出,MySQL与O…

嵌入式音视频疑惑汇总

小小的脑袋里,大大的疑问,该文是博主在工作中遇见问题后,主要面向chatGPT学习的记录笔记 1、bypass hdr 是什么? “Bypass HDR” 是指绕过高动态范围(HDR)功能的一种设置。HDR 是指一种显示技术&#xff0…

40岁程序员谈修bug的心态问题

【CSDN 编者按】于程序员而言,如果说写代码是一种能力的体现,那么解决问题的能力也同等重要,排查问题的能力或许能决定你的职业生涯走的有多远。因此,常有人戏言,程序员不是写代码,而是在写 bug。本文作者是…

一次查找分子级Bug的经历,过程太酸爽了

“Debugging is like trying to find a needle in a haystack, except the needle is also made of hay.” Debug调试就像是在大片的干草堆中找针一样,只不过针也是由干草制成的。 在软件开发的世界里,偶尔会出现一些非常隐蔽的 Bug,这时候工…