CVPR2023 | 大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了”...

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达b29b72946a3adc1e6ad7666c204de428.jpeg

丰色 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

“现在Stable Diffusion已经能重建大脑视觉信号了!”

就在昨晚,一个听起来细思极恐的“AI读脑术”研究,在网上掀起轩然大波:

7400231ceef7f8627a152923e893e1f3.png

这项研究声称,只需用fMRI(功能磁共振成像技术,相比sMRI更关注功能性信息,如脑皮层激活情况等)扫描大脑特定部位获取信号,AI就能重建出我们看到的图像!

e0f2092e4788e114f536b271ba106ae4.png

例如这是一系列人眼看到的图像,包括戴着蝴蝶结的小熊、飞机和白色钟楼:

7f61e69dc1f99e969322cc42563774ab.png

AI看了眼人脑信号后,立马就给出这样的结果,属实把该抓的重点全都抓住了:

1c391931b2ae03b4c1255e38ba3027e9.gif

再发展一步,这不就约等于哈利波特里的读心术了吗??

66ac482ce73fa55b34cc22f6de88466d.png

更有网友感到惊叹:如果说ChatGPT开放API是件大事,那这简直称得上疯狂。

734a002dd5aa6bee9b24fe22ec36db5c.png

所以,这究竟是怎么一回事?

用Stable Diffusion可视化人脑信号

这项研究来自日本大阪大学,目前已经被CVPR 2023收录:

1bf1ee66868a7eeeba9229b968ab9579.png

研究希望能从人类大脑活动中,重建高保真的真实感图像,来理解大脑、并解读计算机视觉模型和人类视觉系统之间的联系。

要知道,此前虽然有不少脑机接口研究,致力于从人类大脑活动中读取并重建信号,如意念打字等。

然而,从人类大脑活动中重建视觉信号——具有真实感的图像,仍然挑战极大。

例如这是此前UC伯克利做过的一项类似研究,复现一张人眼看到的飞机片段,但计算机重建出来的图像却几乎看不出飞机的特征:

83c4e981e3fe6b23643cef8bd00b7e6b.png
图源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

这次,研究人员重建信号选用的AI模型,是这一年多在图像生成领域地位飞升的扩散模型

当然,更准确地说是基于潜在扩散模型(LDM)——Stable Diffusion。

整体研究的思路,则是基于Stable Diffusion,打造一种以人脑活动信号为条件的去噪过程的可视化技术。

它不需要在复杂的深度学习模型上进行训练或做精细的微调,只需要做好fMRI(功能磁共振成像技术)成像到Stable Diffusion中潜在表征的简单线性映射关系就行。

它的概览框架是这样的,看起来也非常简单:

仅由1个图像编码器、1个图像解码器,外加1个语义解码器组成。

15e59c253092726c43f1ad9e2750e6a1.png

具体怎么work?

如下图所示,第一部分为本研究用到的LDM示意图。

其中ε代表图像编码器,D代表图像解码器,而τ是一个文本编码器(CLIP)。

c2beda1b86e77c54ef570250642e8e80.png

重点是解码分析,如下图所示,模型依次从大脑早期(蓝色)和较高(黄色)视觉皮层内的fMRI信号中,解码出重建图像(z)和相关文本c的潜在表征。

然后将这些潜在表征当作输入,就可以得到模型最终复现出来的图像Xzc

d0a4063f12115de50d27822c65589ed3.png

最后还没有完,如编码分析示意图,作者还构建了一个编码模型,用来预测LDM不同组件(包括图像z、文本c和zc)所对应的fMRI信号,它可以用来理解Stable Diffusion的内部过程。

5e34134d31bc160108d5f3044ea276f3.png

可以看到,采用了zc的编码模型在大脑后部视觉皮层产生的预测精确度是最高的。(zc是与c进行交叉注意的反向扩散后,z再添加噪声的潜在表征)

8712ab3ba3b093543f2d9de7281465bf.png

相比其它两者,它生成的图像既具有高语义保真度,分辨率也很高。

595a43b4912303f74e7e9cbcdd470767.png

还有用GAN重建人脸图像的

看完这项研究,已经有网友想到了细思极恐的东西:

这个AI虽然只是复制了“眼睛”所看到的东西。

但是否会有一天,AI能直接从人脑的思维、甚至是记忆中重建出图像或文字?

1696693d1b653ba86620d1174638698e.png

“语言的用处不再存在了”

023e5fc11111a37a417d970eb8004cbc.png

于是有网友进一步想到,如果能读取记忆的话,那么目击证人的证词似乎也会变得更可靠了:

a056499a26670c94c111e2ac74e2034c.png

还别说,就在去年真有一项研究基于GAN,通过fMRI收集到的大脑信号重建看到的人脸图像:

788b4ba20b8e180828088e69109df00e.png

不过,重建出来的效果似乎不怎么样……

370a61974a029935e5a01ed8141bcc50.png

显然,在人脸这种比较精细的图像生成上,AI“读脑术”还有很长一段路要走。

对于这种大脑信号重建的研究,也有网友提出了质疑。

例如,是否只是AI从训练数据集中提取出了相似的数据?

3780dbf5cd29c25cdcb34ad6440f4df2.png

对此有网友回复表示,论文中的训练数据集和测试集是分开的:

3e0a4f3386633ad0e43a3ae1fc4ccab8.png

作者们也在项目主页中表示,代码很快会开源。可以先期待一下~

7e719c070bb6442da076ff0b4d6420d2.png

作者介绍

本研究仅两位作者。

一位是2021年才刚刚成为大阪大学助理教授的Yu Takagi,他主要从事计算神经科学和人工智能的交叉研究。

最近,他同时在牛津大学人脑活动中心和东京大学心理学系利用机器学习技术,来研究复杂决策任务中的动态计算。

另一位是大阪大学教授Shinji Nishimoto,他也是日本脑信息通信融合研究中心的首席研究员。

研究方向为定量理解大脑中的视觉和认知处理,谷歌学术引用3000+次。

19b8f48d36335e9643543dfc3b334bff.png

那么,你觉得这波AI重建图像的效果如何?

项目地址:
https://sites.google.com/view/stablediffusion-with-brain/

参考链接:
[1]https://twitter.com/SmokeAwayyy/status/1631474973243236354
[2]https://twitter.com/blader/status/1631543565305405443
[3]https://news.berkeley.edu/2011/09/22/brain-movies/
[4]https://www.nature.com/articles/s41598-021-03938-w

8c387281798c90ff428348ca6c6c1557.png

outside_default.png

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16268.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023...

丰色 萧箫 发自 凹非寺量子位 | 公众号 QbitAI “现在Stable Diffusion已经能重建大脑视觉信号了!” 就在昨晚,一个听起来细思极恐的“AI读脑术”研究,在网上掀起轩然大波: 这项研究声称,只需用fMRI(功能磁…

关于ChatGPT的4大谎言!我们要看清!!

最近,ChatGPT可以说是全球最大网红了,能够编辑文本、生成图像、编写代码,甚至帮写作业、写论文等...... ChatGPT会不会替代我们?ChatGPT会不会让我们事业?作为普通人的我们,应该如何看待ChatGPT&#xff1f…

禅道配置smtp却无法发送邮件问题

大无语事件,在配置禅道smtp参数后,点击测试提示报错 如上图 SMTP 错误:无法连接到 SMTP 主机,请确认禅道机器: 1. 能ping通smtp服务器。如果不能ping通,请查看网络状态,或查看域名解析是否正确&…

chatgpt赋能python:Python发送邮件的完整指南

Python发送邮件的完整指南 如果您想通过Python发送电子邮件,则需要进行一些基本设置。例如,您需要了解SMTP服务器的详细信息,配置帐户凭据以及定义电子邮件的内容。本文将指导您完成这些步骤,并为您提供一个完整的Python代码示例…

GPT接口调用示例

GPT api接口调用demo import openai # 你自己的key openai.api_key sk-********************************completion openai.ChatCompletion.create(model"gpt-3.5-turbo",messages[{"role": "user", "content": "你叫什么名字…

2023 Chatgpt易语言源码

2023 Chatgpt易语言源码................................... Chatgpt易语言源码...............................

【方法】HTML网页调用本地Python程序

欢迎支持个人chatgpt:https://chat.immuseai.com/register?promotion-codepRE9p9DXCOBz3Z1s。注册即可使用GPT3.5和4.0。 代码已上传github 首先声明,在HTML中调用本地Python程序是十分不推荐的,一是因为网页调用本地程序的权限正在被取消&…

大咖云集,AI人才成长论坛圆满落幕!

Datawhale论坛 方向:人才成长论坛,全球人工智能开发者先锋大会 2023年2月26日晚,“2023全球人工智能开发者先锋大会”(GAIDC)落下帷幕。2月26日上午,此次大会的主要分论坛之一“AI人才成长论坛”顺利召开。…

AI 救不了好莱坞,16 万演员联合编剧上演史诗级「罢工大戏」

内容一览: 近日,美国演员工会正式加入编剧工会行列,开始举行罢工,由此,被多家媒体称为好莱坞「末日」时刻来临。值得关注的是,本次罢工的原因,除了老生常谈的薪资问题,还有一个重要的…

【2023年电工杯数学建模竞赛B题人工智能对大学生学习影响的评价】完整思路分析+完整代码

1.问题背景与描述 这道题整体还是相对简单的,比较适合新手,选的人多对应获奖数量也会多,所以不要纠结于选题,就选你看上去能做的就好 2.问题分析 2.1 问题一的分析 对附件2中所给数据进行分析和数值化处理,并给出处…

【2023年电工杯数学建模竞赛】选题分析+A题B题完整思路+代码分享

2023年电工杯B题(附带ChatGpt思路)思路已更新,请点击一下链接 【2023年电工杯数学建模竞赛B题人工智能对大学生学习影响的评价】完整思路分析完整代码(附带ChatGpt思路) 1.竞赛介绍 2.本次大赛选题分析 首先大家要清…

【数学建模】 非线性规划+二次规划

非线性规划概念和实例 如果目标函数或约束条件中包含非线性函数,就称这种规划问题为非线性规划问题。一般说来,解非线性规划要比解线性规划问题困难得多。而且,也不象线性规划有单纯形法这一通用方法,非线性规划目前还没有适于各…

【数学建模】 MATLAB 蚁群算法

蚁群算法 MATLAB–基于蚁群算法的机器人最短路径规划* https://blog.csdn.net/woai210shiyanshi/article/details/104712540?ops_request_misc%257B%2522request%255Fid%2522%253A%2522168853912916800215023827%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fa…

chatgpt赋能python:Python中怎样输入数据以及数据类型

Python中怎样输入数据以及数据类型 Python是一种高级编程语言,常用于数据处理和分析、机器学习和Web开发等任务。输入数据是Python编程中的重要环节,因此本文将介绍Python中输入数据的方法和数据类型。 什么是数据输入? 数据输入是指将数据…

数学建模比赛是时候该转型了

目录 **背景****测试一:国赛C题类型****测试一总结****测试二:国赛B题****测试二总结****结论** 背景 7 月 9 日消息,OpenAI 的语言模型 ChatGPT 最近推出了新功能:代码解释器(Code Interpreter)。这个新功…

ChatGPT为什么使用强化学习

最近出现很多ChatGPT相关论文,但基本都是讨论其使用场景和伦理问题,至于其原理,ChatGPT在其主页上介绍,它使用来自人类反馈的强化学习训练模型,方法与InstructGPT相同,只在数据收集上有细微的差别。 那么&…

技术沙龙 | 探索软件测试前沿技术及最佳实践,体验ChatGPT在测试领域中的应用!...

作为软件开发领域中至关重要的一环,软件测试的重要性日益凸显。然而,随着软件测试开发技术的不断发展,软件测试也面临着越来越多的挑战,为了更好地应对这些挑战,测试人社区将持续举办技术沙龙活动,为测试人…

【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力

Chain-of-Thought Prompting:从大模型中引导出推理能力 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》 论文地址:https://arxiv.org/pdf/2201.11903.pdf 相关博客 【自然语言处理】【ChatGPT系列】WebGPT:基于…

真正拖垮你的,是沉没成本

— 1— 沉没成本谬误 沉没成本指的是那些发生在过去,我们无法去收回或改变的付出。 这些付出,包括且不限于金钱、时间、精力、感情等等。 其实,你还会遇到很多类似情况。 不想浪费白等的时间,不愿意打车,心想再坚持…

【报名】智慧金融,以技术红利创造财富价值丨直播预告

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 随着科技的快速发展和数字化时代的到来,金融行业也正面临着前所未有的变革和机遇。在这个变革的浪潮中,智慧金融作为引领金融科技创新的关键力量,正成为行业的焦点。在数字经济和人工智能…