LeCun力荐!哈佛博士分享如何用GPT-4搞科研

667c3d0d7c6d0835e7c99c3c1d52e098.jpeg

编|桃子

源|新智元

排版 | 夕小瑶的卖萌屋

进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

用GPT-4搞科研未来或许成为每个人的标配,但是究竟如何高效利用LLM工具,还得需要技巧。近日,一位哈佛博士分享了自己的经验,还获得了LeCun的推荐。

GPT-4的横空出世,让许多人对自己的科研担忧重重,甚至调侃称NLP不存在了。与其担忧,不如将它用到科研中,简之「换个卷法」。

1d2aa0347cbc15244364e8084bba685c.png

来自哈佛大学的生物统计学博士Kareem Carr称,自己已经用GPT-4等大型语言模型工具进行学术研究了。他表示,这些工具非常强大,但是同样存在一些非常令人痛苦的陷阱。

2e6f13e231f72d00bfcd68907ae7379c.png

他的关于LLM使用建议的推文甚至获得了LeCun的推荐。一起来看看Kareem Carr如何利用AI利器搞科研。

第一原则:自己无法验证的内容,不要找LLM

一开始,Carr给出了第一条最重要的原则:

永远不要向大型语言模型(LLM)询问你无法自行验证的信息,或要求它执行你无法验证已正确完成的任务。

唯一的例外是它不是一项关键的任务,比如,向LLM询问公寓装饰的想法。「使用文献综述的最佳实践,总结过去10年乳腺癌研究的研究」。这是一个比较差的请求,因为你无法直接验证它是否正确地总结了文献。而应当这么问「给我一份过去10年中关于乳腺癌研究的顶级评论文章的清单」。这样的提示不仅可以验证来源,并且自己也可以验证可靠性。

撰写「提示」小技巧

要求LLM为你编写代码或查找相关信息非常容易,但是输出内容的质量可能会有很大的差异。你可以采取以下措施来提高质量:

设定上下文:

•明确告诉LLM应该使用什么信息

•使用术语和符号,让LLM倾向正确的上下文信息

如果你对如何处理请求有想法,请告诉LLM使用的具体方法。比如「解决这个不等式」应该改成「使用Cauchy-Schwarz定理求解这个不等式,然后应用完成平方」。要知道,这些语言模型在语言方面上比你想象的要复杂得多,即使是非常模糊的提示也会有所帮助。

e2ea1159691894be20d4305912989de2.png

具体再具体:

这不是谷歌搜索,所以也不必担心是否有个网站在讨论你的确切问题。

「二次项的联立方程如何求解?」这个提示就不是明确的,你应该这样问:「求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 关于a和b的方程组」。

定义输出格式:

利用LLMs的灵活性,将输出格式化为最适合你的方式,比如:

• 代码

• 数学公式

• 文章

• 教程

• 简明指南

你甚至可以要求提供生成以下内容的代码,包括表格、绘图、图表。

尽管你得到了LLM输出的内容,但这仅是一个开始。因为你需要对输出内容进行验证。这包括:

• 发现不一致之处

• 通过谷歌检索工具输出内容的术语,获取可支撑的信源

• 在可能的情况下,编写代码自行测试

需要自行验证的原因是,LLM经常犯一些与其看似专业水平不一致的奇怪错误。比如,LLM可能会提到一个非常先进的数学概念,但却对简单的代数问题摸不着头脑。

多问一次:

大型语言模型生成的内容是随机的。有时,重新创建一个新窗口,并再次提出你的问题,或许可以为你提供更好的答案。另外,就是使用多个LLM工具。Kareem Carr目前根据自己的需要在科研中使用了Bing AI,GPT-4,GPT-3.5和Bard AI。然而,它们各有自己的优缺点。

引用+生产力

引用

根据Carr经验,最好向GPT-4和Bard AI同时提出相同的数学问题,以获得不同的观点。必应AI适用于网络搜索。而GPT-4比GPT-3.5要聪明得多,但目前OpenAI限制了3个小时25条消息,比较难访问。

就引用问题,引用参考文献是LLM的一个特别薄弱的点。有时,LLM给你的参考资料存在,有时它们不存在。

此前,有个网友就遇到了同样的问题,他表示自己让ChatGPT提供涉及列表数学性质的参考资料,但ChatGPT生成了跟不不存在的引用,也就是大家所说的「幻觉」问题。

5dfe125ff9d973b33455921e78a31d35.png

然而,Kareem Carr指出虚假的引用并非完全无用。

根据他的经验,捏造的参考文献中的单词通常与真实术语,还有相关领域的研究人员有关。因此,再通过谷歌搜索这些术语,通常让你可以更接近你正在寻找的信息。

此外,必应在搜寻来源时也是一个不错的选择。

生产力

对于LLM提高生产力,有很多不切实际的说法,比如「LLM可以让你的生产力提高10倍,甚至100倍」。

根据Carr的经验,这种加速只有在没有对任何工作进行双重检查的情况下才有意义,这对作为学者的人来说是不负责任的。

然而,LLM对Kareem Carr的学术工作流程有很大改进,具体包括:

- 原型想法设计 - 识别无用的想法 - 加速繁琐的数据重新格式化任务 - 学习新的编程语言、包和概念 - 谷歌搜索

借助当下的LLM,Carr称自己用在下一步该做什么上的时间更少了。LLM可以帮助他将模糊,或不完整的想法推进到完整的解决方案中。此外,LLM还减少了Carr花在与自己主要目标无关的副业上的时间。

3e605f18347c424b3a9fa206f1f8ef0a.png

我发现我进入了一种心流状态,我能够继续前进。这意味着我可以工作更长时间,而不会倦怠。最后一句忠告:小心不要被卷入副业。这些工具突然提高生产力可能会令人陶醉,并可能分散个人的注意力。

关于ChatGPT的体验,Carr曾在领英上发表了一条动态分享了对ChatGPT使用后的感受:

作为一名数据科学家,我已经用OpenAI的ChatGPT做了几周的实验。它并不像人们想象的那样好。

尽管最初令人失望,但我的感觉是,类似ChatGPT的系统可以为标准数据分析工作流程增加巨大的价值。

在这一点上,这个价值在哪里并不明显。ChatGPT很容易在简单的事情上弄错一些细节,而且它根本无法解决需要多个推理步骤的问题。

未来每个新任务的主要问题仍然是评估和改进ChatGPT的解决方案尝试是否更容易,还是从头开始。我确实发现,即使是ChatGPT的一个糟糕的解决方案也倾向于激活我大脑的相关部分,而从头开始则不会。就像他们总是说批评一个计划总是比自己想出一个计划更容易。

52db059224df02bde0aba34f13fc1937.png

网友对于AI输出的内容,需要进行验证这一点,并称在大多数情况下,人工智能的正确率约为90%。但剩下10%的错误可能是致命的。Carr调侃道,如果是100%,那我就没有工作了。

46df2ecfadc0a8aa2a21affb5c335db2.png

那么,为什么ChatGPT会生成虚假的参考文献?

值得注意的是,ChatGPT使用的是统计模型,基于概率猜测下一个单词、句子和段落,以匹配用户提供的上下文。

由于语言模型的源数据规模非常大,因此需要「压缩」,这导致最终的统计模型失去了精度。

这意味着即使原始数据中存在真实的陈述,模型的「失真」会产生一种「模糊性」,从而导致模型产生最「似是而非」的语句。

简而言之,这个模型没有能力评估,它所产生的输出是否等同于一个真实的陈述。

另外,该模型是基于,通过公益组织「Common Crawl」和类似来源收集的公共网络数据,进行爬虫或抓取而创建的,数据截止到21年。由于公共网络上的数据基本上是未经过滤的,这些数据可能包含了大量的错误信息。

5da74c3d3ddad2ca413e6038bab0529a.png

近日,NewsGuard的一项分析发现,GPT-4实际上比GPT-3.5更容易生成错误信息,而且在回复中的说服力更加详细、令人信服。

在1月份,NewsGuard首次测试了GPT-3.5,发现它在100个虚假新闻叙述中生成了80个。紧接着3月,又对GPT-4进行了测试,结果发现,GPT-4对所有100种虚假叙述都做出了虚假和误导性的回应。

由此可见,在使用LLM工具过程中需要进行来源的验证和测试。


进NLP群—>加入NLP交流群(备注nips/emnlp/nlpcc进入对应投稿群)

持续发布自然语言处理NLP每日优质论文解读、相关一手资料、AI算法岗位等最新信息。

加入星球,你将获得:

1. 每日更新3-5篇最新最优质的的论文速读

2. 最新入门和进阶学习资料

4. 每日1-3个NLP、搜广推、CV等AI岗位招聘信息

b01ad063ea0bac8ece264a6289d9e6d5.png

42c4bd4c8e27404de9eeaf471af37bce.png

[1]https://twitter.com/kareem_carr/status/1640003536925917185

[2]https://scholar.harvard.edu/kareemcarr/home

[3]https://www.newsguardtech.com/misinformation-monitor/march-2023/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40502.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

【导读】用GPT-4搞科研未来或许成为每个人的标配,但是究竟如何高效利用LLM工具,还得需要技巧。近日,一位哈佛博士分享了自己的经验,还获得了LeCun的推荐。 GPT-4的横空出世,让许多人对自己的科研担忧重重,…

8月 | O'Reilly好书推荐[每月送书]

OReilly读者俱乐部联合图灵教育8月好书推荐! 以下是小编为OReilly粉丝整理的一期OReilly书单,一共7本,包含各个领域,有基于Python的深度学习入门书,还有R数据科学领域传奇人物著作,有SQL经典书重新出版&…

冰河最新电子书上架第一天阅读量超15万,你值得拥有

大家好,我是冰河~~ 最近不是有小伙伴在问我为啥公众号的文章更新频率低了吗?今天就跟大家说一下吧,这不是最近在整理一本原创电子书吗?没错,这次是和阿里云开发者社区合作,在阿里云藏经阁上架了一本冰河的…

亚马逊kindle设置_如何让您的Amazon Echo大声朗读您的Kindle书

亚马逊kindle设置 Ever wish you could read your books while doing other stuff at the same time? Sure, you could listen to Audiobooks with Audible, but your Amazon Echo can also read your Kindle ebooks to you out loud. Here’s how. 曾经希望您可以在同时做其他…

Bookdown搭配GitHubPages发布电子书

文章目录 前言一、前期准备二、发布步骤1. bookdown项目1.1 安装R包1.2 新建project1.3 修改成自己的笔记 2. GitHubPages发布2.1 增加本地_bookdown.yml文件一行参数2.2 部署到GitHub2.3 修改GitHub仓库的一些属性 3. 成功 参考文章 前言 你想发布一本自己的电子书吗&#xf…

今天发现,不能从亚马逊买纸质图书了!!!

打算买一本纸质的书送人,搜了半天发现亚马逊全是电子书,虽然预料之中,但没想到还是来得太突然。其实我自己已经很久没买过纸质书了。 当年买第一本电纸书的时候,花了不到二十块钱,心疼的我要命。后来用习惯了&#xf…

不知道买啥绘本?适合3-6岁儿童的绘本书单,建议父母收藏

作为父母,给孩子选绘本,首要原则是,内容吸引人,让孩子能坐得住。我本人买过很多绘本,当然也有踩过坑,根据我自己买绘本的相关经验,结合我家孩子爱看的绘本,分享适合3-6岁孩子的绘本书…

Kindle在线推书网站 强烈推荐

俗话说得好:腹有诗书气自华 突然间发现自己的kindle已经吃灰好久了 有的时候还会当做泡面盖用用 但后来彻底废弃了 归结其原因还是书籍资源太少(懒) 因为之前找书实在太痛苦了 即使买了Amazon的Kindle Unlimited会员 依旧有找不到的书 甚是痛…

Datawhale 《南瓜书》

Datawhale 南瓜书 pumpkin-book 原书:机器学习 周志华 贡献者: Datawhale成员 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 章节小节 每个chapter表示章节,part* 表示每个小节 pumpkin-boo…

90后在虚拟世界建国风园林,完美融合数字艺术与传统诗词

90后数字艺术家罗比(sheepmaomao)在虚拟世界中建起了一个个国风园林景象,如梦如幻。她对植物细致入微的观察,对数字技术游刃有余的运用和丰富的想象力,在屏幕艺术本身魅力的加持下,造就出令人叹为观止的作品。 罗比的数字植物柔和…

【新知实验室 TRTCIM】实时互动课堂最佳实践

【新知实验室 TRTC&IM】实时互动课堂最佳实践 一、新知实验室-TRTC腾讯云音视频产品体验官计划活动简介 二、产品简介TRTCIM 三、最佳实践3.1 官方快速上手TRTC(快速跑通)3.1.1 注册腾讯云账号3.1.2 使用实时音视频(需先开通)3.1.3 创建应用3.1.4 查看项目(查看密钥和快速上…

智慧旅游管理系统下的旅游业的发展规划

伴随着全球范围经济与文化艺术的迅速发展壮大,高新科学技术也快速的渗入了各个领域,已不再是神秘不可触碰的存在。“智慧地球”、“智慧城市”等定义的持续明确提出,宣布使高新科技融入到大家日常生活的每一个细节当中,在这样的局势下,旅游业也无可非议的要发展变成“智慧旅游”…

7-3 旅游规划

一个变化的最短路径,每条路都有两个参数,长度和收费,要求先求出最短的路,如果都是最短,就求出花费最少的路径。再增加一个数组,然后在下面的优化里面稍微修改一下就可以了,大体还是没变的。 #i…

基于python马蜂窝网的旅游景点推荐系统

设计出基于Python的青岛市旅游数据系统,主要功能包括获取各个旅游景点的数据、分析各个旅游景点的价钱、淡旺季、路线等方面,合理的向使用系统的人推荐适合的旅游景点。为此准备把各省市的热门景点通过数据分析再用数据统计图的方式给用户展示出来比较直…

旅行路线可视化研究与实现(Java+Android+Eclipse实现的旅游APP)

目 录 1 概论 1 1.1 研究现状 1 1.2 系统开发意义 1 1.3 系统开发背景 2 2 开发环境以及相关技术 5 2.1 Eclipse 5 2.2 Adroid 5 2.2.1 基本概念 5 2.2.2 简介 6 2.2.3 系统架构 6 2.2.4 四大组件 7 2.3 Java语言 7 2.4 SQLite 7 2.4.1 简介 7 2.4.2 架构 7 2.4.3 特点 8 2.5 F…

旅游景区管理系统(一 )旅游路线导航(MFC实现)

旅游景区管理系统 1.旅游景区导航 2.搜索最短路径 3.prim铺设电路 4.代码介绍和展示 旅游路线导航 本系列为武汉某大学课设,只是学习之用 功能要求: 算法解释: 使用了改进版的深度优先搜索算法, 改进点如下: 1.通…

分析万篇途牛旅游游记为你挑选最佳旅游景点

分析万篇途牛旅游游记为你挑选最佳旅游景点 数据采集分析主页面分析子页面爬虫设计主页面数据采集子页面数据采集 合并数据集 数据分析及可视化旅游热门地点TOP10驴友出行特点出行季节热门地区出行时间 随着经济发展,人们收入越来越高,可支配的资金和时间…

旅游规划(Dijkstra)

输入样例: 4 5 0 3 0 1 1 20 1 3 2 30 0 3 4 10 0 2 2 20 2 3 1 20 结尾无空行输出样例: 3 40 结尾无空行代码 #include<iostream> #define INFINITY 65535 using namespace std; int edges[505][505]; int price[505][505]; int N; void Dijkstra(int begin,int end)…

旅游路线问题 线性规划网络流

旅游路线问题 #include <iostream>在这里插入图片描述#include <cstring> #include <map> #include <queue> using namespace std; using std::cout; const int INF 1000000; //正无穷 const int NODESIZE 100; //结点最大个数 const int EDGES…

旅游APP大数据分析:带你找到最佳旅游路线

如今&#xff0c;旅游App已经成为了现代旅游的必备工具&#xff0c;而在这个数字化的时代&#xff0c;大数据的应用已经成为了旅游App的重要手段。本文将介绍旅游App大数据分析的应用&#xff0c;带你找到最佳旅游路线。 一、大数据在旅游App中的应用 随着互联网的发展和普及&…