读脑术!由大脑信号构建高清视频的方法实现啦,Stable Dinfusion还能这么用

夕小瑶科技说 分享
来源 | 量子位 作者 | 金磊

现在,AI可以把人类脑中的信息,用高清视频展示出来了!

例如你坐在副驾所欣赏到的沿途美景信息,AI分分钟给重建了出来:

看到过的水中的鱼儿、草原上的马儿,也不在话下:


这就是由新加坡国立大学和香港中文大学共同完成的最新研究,团队将项目取名为MinD-Video。

这波操作,宛如科幻电影《超体》中Lucy读取反派大佬记忆一般:

引得网友直呼:

推动人工智能和神经科学的前沿。

值得一提的是,大火的Stable Diffusion也在这次研究中立了不小的功劳。

大模型研究测试传送门

ChatGPT传送门(免墙,可直接测试):

https://yeschat.cn

GPT-4传送门(免墙,可直接测试,遇浏览器警告点高级/继续访问即可):

https://gpt4test.com

怎么做到的?

从大脑活动中重建人类视觉任务,尤其是功能磁共振成像技术(fMRI)这种非侵入式方法,一直是受到学界较多的关注。

因为类似这样的研究,有利于理解我们的认知过程。

但以往的研究都主要聚焦在重建静态图像,而以高清视频形式来展现的工作还是较为有限。

之所以会如此,是因为与重建一张静态图片不同,我们视觉所看到的场景、动作和物体的变化是连续、多样化的。

而fMRI这项技术的本质是测量血氧水平依赖(BOLD)信号,并且在每隔几秒钟的时间里捕捉大脑活动的快照。

相比之下,一个典型的视频每秒大约包含30帧画面,如果要用fMRI去重建一个2秒的视频,就需要呈现起码60帧。

因此,这项任务的难点就在于解码fMRI并以远高于fMRI时间分辨率的FPS恢复视频。

为了弥合图像和视频大脑解码之间差距,研究团队便提出了MinD-Video的方法。

整体来看,这个方法主要包含两大模块,它们分别做训练,然后再在一起做微调。

这个模型从大脑信号中逐步学习,在第一个模块多个阶段的过程,可以获得对语义空间的更深入理解。

具体而言,便是先利用大规模无监督学习与mask brain modeling(MBM)来学习一般的视觉fMRI特征。

然后,团队使用标注数据集的多模态提取语义相关特征,在对比语言-图像预训练(CLIP)空间中使用对比学习训练fMRI编码器。

在第二个模块中,团队通过与增强版Stable Diffusion模型的共同训练来微调学习到的特征,这个模型是专门为fMRI技术下的视频生成量身定制的。

如此方法之下,团队也与此前的诸多研究做了对比,可以明显地看到MinD-Video方法所生成的图片、视频质量要远优于其它方法。

而且在场景连续变化的过程中,也能够呈现高清、有意义的连续帧。

研究团队

这项研究的共同一作,其中一位是来自新加坡国立大学的博士生Zijiao Chen,目前在该校的神经精神疾病多模式神经成像实验室(MNNDL_Lab)。

另一位一作则是来自香港中文大学的Jiaxin Qing,就读专业是信息工程系。

除此之外,通讯作者是新加坡国立大学副教授Juan Helen ZHOU。

据了解,这次的新研究是他们团队在此前一项名为MinD-Vis的功能磁共振成像图像重建工作的延伸。

MinD-Vis已经被CVPR 2023所接收。

参考资料

[1]https://mind-video.com/
[2]https://twitter.com/ZijiaoC/status/1660470518569639937
[3]https://arxiv.org/abs/2305.11675

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21849.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能之深度学习常见应用方向你都了解吗?(文末福利)

本文导读 从零带你了解深度学习常见的7大应用方向,包括:数字识别、图像识别、图像分类、目标检测、人脸识别、文本分类、聊天机器人。 1. 数字识别 数字识别是计算机从纸质文档、照片或其他来源接收、理解并识别可读的数字的能力,目前比较受…

GPT-4“王炸”发布,背后的这些问题你想到了吗?

今天GPT-4发布,看了一下,主要有这几个方面的飞跃式提升: 强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。 除此之外,GPT-…

chatGPT-4论文导读:百年未有之大变局-(1)(转载)

声明:本文已征得原作者:荔枝海豹,同意后转载。 原文链接:https://zhuanlan.zhihu.com/p/628494696 本文按照以下框架讲解,阅读时间大约15分钟,对技术要求能力为三颗星。 什么是GPT,GPT4出现之…

文心一言的大众化理解

首先它是什么? 文心一言(类似于于chatgpt(由浮点参数表示的深度神经网络大模型)的本质)(英文名ERNIE Bot)(基于飞桨深度学习平台和文心知识增强大模型)为百度基于文心大…

谈谈对GPT发展的一些思考(产品角度)

滁州西涧 韦应物 独怜幽草涧边生,上有黄鹂深树鸣。 春潮带雨晚来急,野渡无人舟自横。 作者:良知犹存 转载授权以及围观:欢迎添加微信号:become_me 搬运一下朋友圈写的一些小文字,分享一波。 核心&#xf…

ChatGPT最实用的提示(Prompts)写法有哪些?

OpenAI在D站的官方服务器上有一个prompt-library的频道,这个频道用于给各路大神展示和讨论其创建的prompt。上面有各种用途的prompt,比如私人助手用于写邮件、写专业论文的、各类角色扮演的、学习技能的等等。很多回答中已经提到了不少这类prompt。 而为…

标题:ChatGPT精准指令:用自然语言控制计算机

人们一直期望能够用自己的自然语言来控制计算机,而ChatGPT就是这样一款可以实现这一愿望的智能系统。利用最新的自然语言处理技术,ChatGPT可以接受用户输入的自然语言指令,并在计算机上实现相应的操作。本文将为您详细介绍ChatGPT精准指令的原…

玩转ChatGPT:Custom instructions (vol. 1)

一、写在前面 据说GPT-4又被削了,前几天让TA改代码,来来回回好几次才成功。 可以看到之前3小时25条的限制,现在改成了3小时50条,可不可以理解为:以前一个指令能完成的任务,现在得两条指令? 可…

​这款「咒语」优化工具,功能有多强大?#Prompt Perfect

根据提示,写个笑话、来个新年祝词,这款 AI 工具都能做到!🙊 Prompt Perfect Prompt Perfect 是一个 AI prompt 「咒语」优化工具,它可以帮助用户为大型语言模型(LLMs)、大型模型(LMs…

编程范式[paradigm]

编程的“思想”,是一个很中国化的词汇。编程的思想,通常称为一门编程语言背后的编程范式(Programming Paradigm)。随着编程(programming)方法学和软件工程研究的深入,特别是OO技术的普及&#x…

ChatGPT一小步,NLP范式转变一大步

来源:算法邦 本文约7200字,建议阅读14分钟 在本文中,我们将仔细研究这些能力是什么,大型语言模型可以提供什么,以及它们在更广泛的 NLP/ML 任务中的潜在优势是什么。 [ 导语 ]作者符尧,yao.fued.ac.uk&…

小宁ChatGPT智能机器人上线,无需魔法注册即可使用!

​大家好,今天我要向大家介绍一款基于人工智能技术的聊天机器人——ChatGPT。ChatGPT可以与用户进行自然语言交互,回答用户的问题、提供服务、进行闲聊等,让聊天变得更有趣。 小宁ChatGPT是对接ChatGPT官方api,实现无需魔法无误差…

免费,无需魔法,媲美ChatGPT4

今天给大家介绍的AI产品是Claude,这个产品是 OpenAI 前研究副总裁 Dario Amodei 带领前公司一些员工于2021年创立的。效果据说媲美ChatGPT4,我自己感觉比GPT3.5强点,实际还是得大家自己尝试下。 注册的话需要一个企业邮箱,或者你…

chatgpt赋能python:Python反向迭代:让迭代更高效

Python 反向迭代:让迭代更高效 Python 是一种动态语言,引入了许多强大的编程概念,其中之一是迭代器。在 Python 中,迭代器是一种对象,它允许开发人员按特定顺序遍历集合。 迭代器可以帮助开发人员更高效地编写代码&am…

在哪里尝试爆火的AI绘画?16款AI绘画工具大盘点!

要说今年什么最火,一定是AI绘画。AI绘画在人工智能领域中大放异彩,彻底火了。 随着各种开放代码和模型出现,国内外各种AI工具开始争奇斗艳,今天就来给大家盘点一下国内外AI绘画工具有哪些?其中那家生成效果最好?让我…

大话Stable-Diffusion-Webui-将stable-diffusion-webui接入微信群(二)

文章目录 效果群成员发送的词条生成sd的prompt中文词条翻译为英文过滤NSFW代码效果 群成员发送的词条生成sd的prompt 上一篇内容我们已经将sd的文生图API接入了微信群,但是群成员只能通过指定关键词触发sd的调用而生成图片,但我们在实际使用sd时是可以自定义prompt的,从而使…

.NET周报 【3月第2期 2023-03-12】

国内文章 ASP.NET Core 中如何限制响应发送速率(不是调用频率) https://www.cnblogs.com/coredx/p/17195492.html ASP.NET Core 中有很多 RateLimit 组件,.NET 7 甚至推出了官方版本。不过这些组件的主要目标是限制客户端访问服务的频率&…

程序员摸鱼必备-用人工智能帮我写代码

有了ChatGPT我还写什么代码 2022年底横空出世的ChatGPT 狠狠的震惊了人类一把 简直是每个人梦寐以求的多拉A梦 既是百科达人、又是编程小帮手 还是个诗人、应用文小天才 怎么用 ta能帮程序员很多忙 比如说,需要写代码做字符串加密 我:写一个sha…

冒充人类作者,ChatGPT等滥用引担忧,一文综述AI生成文本检测方法

来源:机器之心 本文约1800字,建议阅读5分钟 大型语言模型(LLM)的出现导致其生成的文本非常复杂,几乎与人类编写的文本难以区分。本文旨在提供现有大型语言模型生成文本检测技术的概述,并加强对语言生成模型…

LLM 系列 | 15:如何用LangChain做长文档问答?

简介 西塞山前白鹭飞,桃花流水鳜鱼肥。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖酱猪蹄的小女孩。今天新开一个专题:LangChain实践。前文ChatGPT Prompt 工程和应用系列文章可以如下自取,预告一下该…