GPT-4来了,计算机视觉科研,何去何从?

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

作者:Mike Shou  |(已授权转载)编辑:CVer

https://zhuanlan.zhihu.com/p/616966879

最近上课被学生问,“GPT-4来了,计算机视觉何去何从?“

我有被惊到,因为这还只是本科生的课,不是研究生、博士生的课。有同学开玩笑说,CV不复存在了。虽然是玩笑,但明显大家感觉到了危机,尤其对于我们,计算机视觉科研人员。但危中有机,谁能摈弃旧的模式,迅速打开思路,勇敢创新,这就是个极好的机会。甚至这个机,还前所未有的大。毕竟ChatGPT没出来前,人人都在抱怨CV太卷,什么知乎人均CVPR投3中2。GPT-4的到来,或许是个机会,让咱换个卷法。

那何去何从呢?我下面斗胆,分享下我的2点思考。因为被GPT辐射到的,主要还是CV里的understanding任务,所以下面也主要是针对理解任务来讲的。当然,更多还是想抛砖引玉,想跟大家探讨,跟大家学习。

1/ 从做Paper,到做系统

GPT-4给CV,尤其是给多模态领域,带来的危机感从何而来?可能就是以前某些,大家习惯的发paper模式,比如对着几个benchmark刷点,可能不好用了。因为过不了多久,GPT-567可能就在这些benchmark上领先SOTA一大截,实现降维打击;甚至我们还在做paper,人家都已经有了ChatGPT插件,实现商用落地了。

这听起来很可怕,但是,如果我们看看计算机的其他领域,就会发现当下的NLP/CV,不过是在走CS其他领域,已经走过的路罢了。GPT对于NLP/CV来说,就像Google对于信息检索,就像Oracle、Azure对于数据库,语音识别各个大厂也早有自己的solution。我跟这些领域的前辈老师聊,他们分享说,他们对paper尤其是纯count paper数量的关注度会变小,反之,会看有没有做出一个系统,有technology-driven的real-world impact。

都说现在是AI的iPhone 时刻,GPT是AI时代的IOS操作系统,在其之上,会有各类app/插件,面向各个垂类的应用:教育,医疗,太空…… 这些深耕的垂类,是GPT很难全cover的;就像手机上有原装的日历、计算器等app,但更多的是第三方的app。研究怎么tune好基础大模型,研究怎么加入expert knowledge,跨学科进行合作,将是重中之重。然后需要开发一个working system,不断收集真实用户domain data,壁垒就越来越强了。

而这一条路,前期还是做基础研究,但最终会逐步地走向商业化,需要有这样的心理预期。当然在这种新模式下,我们对于一个科研人员,是否成功的评价模式,可能也会发生改变,变得更加多元。

2/ Research需要做难一点的问题

如果不太想做系统,还是想保持突突突发paper的传统模式,职业目标就是冲教职,其实也大有可为;只是需要focus在更难一些的问题,那种几年后才能解决,而不是当下就知道该怎么做的问题上。

那,什么是这样的难的问题?我是做视频的,视频理解里最难的问题,就是长视频理解。套用Jitendra Malik教授近期的评价,“Core vision problems like long range video understanding are no closer to a solution“。

过去一两年,我们在推AI Assistant这个新的方向,去年时候大家还觉得天方夜谭,现在看来技术上非常可行。这个方向是,给一段很长的instructional/tutorial视频,比如某个相机的讲解视频,某个洗衣机的讲解视频,让AI学会如何使用某个具体的相机、洗衣机,甚至能去教新用户使用。详见AssistQ,AssistSR。现在大家说GPT开始联网了,能看网页学习,我们的AI Assistant就是下一步,想让GPT不光看网页,还能看YouTube,看b站进行学习。

因为这些视频都很长,对当下GPU硬件条件很有挑战,需要有更高效的模型设计;以及视频是多模态的,讲解视频、其transcript、用户实际情况中的视频、用户跟AI的对话,这些数据相互之间的correspondence还很复杂。我们在CVPR 2023也继续在办LOVEU Workshop,聚焦长视频的理解和生成。

其他难的理解任务,还有哪些?我想还不少:比如3D的问题还很难 -- 当然有人会argue我说,这只是available的训练数据量不够;CV跟机器人的结合还很难,让AI不只是网上冲浪,而是真的在real world产生作用,比如让机器人照顾老人 -- 当然我也承认,这还depends on硬件的发展。此外,连续学习,模型攻击技术,等等我就不一一赘述了,欢迎大佬们在评论区集思广益。

结语

GPT-4的出现,有人兴奋,纷纷下场;有人悲观,打算退圈。因人而异,都能理解。我想,我属于兴奋多一些。对于被GPT赋能的未来世界,I look forward to it very much.

点击进入—>【多模态学习】微信技术交流群

最新CVPP 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看bb9ba02f266a57ab55b0fb7e39b6e1c6.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62411.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【chatGpt】关于websocket连接中对未授权的捕捉问题

目录 问题 有效提问 有效的细节提问 问题 一路上,通过简单的error进行判断弹出授权,会有很多乱弹的现象: (1)链路正常切换会断 (2)服务器没有启动会连接不上 (3)没…

Vscode 用MarkDown画流程图

效果图 start>start: 开始 input>inputoutput: 输入 operation>operation: 操作 condition>condition: 操作出错? output>inputoutput: 输出 error>operation: 请重新输入 end>end: 结束start->input input->operation operation->co…

chatgpt赋能python:Python画图设置背景颜色

Python画图设置背景颜色 在Python中使用Matplotlib和Seaborn等库来生成数据可视化图表非常方便。但是,这些图表默认使用白色背景。有时,我们需要在制作图表时更改背景颜色以匹配我们的主题或品牌标识。本文将介绍如何在Matplotlib和Seaborn中设置不同的…

chatgpt赋能Python-python3如何画图

Python3如何画图? Python是一种高级编程语言,它有着多种用途,包括数据分析和可视化。Python3是Python的最新版本,它具有更好的性能和易用性。在这篇文章中,我们将介绍如何使用Python3来画图,并探讨其优势和…

chatgpt赋能python:Python画图坐标轴大小

Python画图坐标轴大小 Python是一种广泛使用的编程语言,它在科学计算和可视化方面得到了广泛的应用。在可视化中,坐标轴的大小和比例对于展现数据的真实性和清晰性至关重要。在本文中,我们将介绍如何使用Python画图坐标轴大小,并…

“烧钱”的大模型:初探成本拆解与推理优化方法

编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。 虽然很难准确预测LLMs未来会怎么发展&#xff0…

Spring Cloud 优惠最后 1 天!

大家好,我是栈长。 关注了一段时间公众号的小伙伴都知道,栈长的 Spring Cloud 微服务课程每月都会给小伙伴搞一波活动。 61活动来了,很多小伙伴都在等 61 的活动,这次活动,福利全新升级,千万不要错过&#…

微信公众号文章是否违规怎么检测?

在写文章的时候,会遇到以下3种情况: 1、你所编辑的图文消息可能含有敏感内容,你可以继续保存或发布该图文消息(发布等待时长约3-4小时),若保存或发布后,经核实含有敏感内容的,将可能…

如何发现并分析APP个人信息收集是否违规?

移动互联网的发展以及智能终端的兴起,手机已然成为了我们生活中不可或缺的“日用品”,各种手机APP开启霸屏模式,例如常见的支付APP、聊天APP、金融APP、交通APP等,这些APP虽然给我们生活带来了便利,但是其收集的用户信…

新闻稿的制作流程:从确定新闻稿目的到将其分发给媒体

对于任何希望向媒体和公众传达具有新闻价值的信息的组织来说,新闻稿都是必不可少的工具。精心制作的新闻稿可以帮助您宣传您的业务、产品或服务,并可以产生有价值的媒体报道。在本文中,我们将指导您完成新闻稿的制作过程,从确定新…

如何写新闻稿?写好新闻稿的技巧与步骤

新闻稿是传递新闻事件和信息的重要手段,是传媒工作中不可或缺的一部分。写好一篇新闻稿可以让受众了解更多信息,进一步提高他们的关注度。以下是一些写好新闻稿的技巧和步骤,帮助你有效地传达新闻。 1、确定新闻的核心信息 在开始写新闻稿之前…

怎么向新闻媒体投稿?新闻稿投稿渠道哪个比较好

在互联网众多媒体网站中,各大小中新闻媒体网站都拥有一定的权威性和知名度,作为网 媒,这些新闻网站相比纸类报刊更容易被大众网民接触,甚至有不少人还想联系网站将新闻或 者软文投放上去。当然了,如果是个人联系媒体…

国际学校入学考试MAP语法测试题真题讲解

本月,贝赛思各校区举行了四月的入学考试,部分校区采取了线上评估模式,而4月考试流程形式题型均与3月大同小异。 非常多的家庭会选择在中学阶段转入贝赛思,并且对国际学校了解的家长肯定对MAP测试不陌生,MAP测试既作为…

高考题改成IB试题,会是什么样子?

从2019年浙江高考语文卷的一篇现代文阅读说起的,振语看过了这道题和推文作者的解读后,一时兴起,就想着能不能把它改成一道IB考题,顺带着也把这篇选文细读评点了一番。 (一)高考试题再现: 这道高…

AI开始卷高考了,英语已被卷到134分??

文 | 天于刀刀 AI 真的太卷了!不但模型之间互相卷,现在直接开始和人类学生一起卷高考了! 近期,来自 CMU 两位学者提出的重构预训练模型(reStructured Pre-training, RST)在只有 GPT-3 十六分之一参数量的情…

第一试卷网(网站)

首先,站内涵盖了有语文,数学,英语,物理,化学,政治,历史,地理,生物等等的试卷,从小学到高三的都有非常的全面。 点开需要的试卷,显示资源还是比较新…

【CSDN|每日一练】小股炒股

目录 运行结果题目描述输入描述:输出描述:示例代码结语运行结果 题目描述 已知n天后的股票行情,现在已有的本金是m, 规定只能入手一次股票和抛售一次股票。 最大收益是? 输入描述: 第一行输入整数n,m。(1<=n<=1000,1<=m<=10000) 第二行输入n个整数表示某…

5 月编程语言榜:C 再度暴涨,Scala 成功上位

&#xff08;点击上方公众号&#xff0c;可快速关注&#xff09; 转自&#xff1a;开源中国 TIOBE 刚刚发布了 5 月编程语言排行榜。Scala 经过长时间的沉淀&#xff0c;本月终于进入了 TIOBE 榜单的前 20 名。 Scala 是一种 JVM 上运行的函数式编程语言&#xff0c;可与 Java …

个人整体项目:今日诊股(今日指数)后端代码开发(day01)

&#xff08;当前开源个人项目正在开发&#xff0c;请关注个人项目专栏。需要源码请关注留言哦&#xff01;&#xff01;&#xff01;&#xff09; &#xff08;怀玉是一名一年的后端&#xff0c;前端目前不太精通&#xff0c;前端代码是直接写好的&#xff09; 首先我们先看一…

Python版股市情感分析源代码,提取投资者情绪,为决策提供参考

情绪与股市关系的研究由来已久&#xff0c;情绪是市场的一个重要影响因素已成为共识。 15年股灾时&#xff0c;亲历了一次交易灾难&#xff0c;眼见朋友的数千万在一周不到的时间内灰飞烟灭。那段时间市场的疯狂&#xff0c;让人深刻地明白&#xff1a;某些时候&#xff0c;股票…