ChatGPT 和生成式 AI 对科学意味着什么

a46bb62842100579030f5e84e057209a.png

来源:ScienceAI
本文约5000字,建议阅读5分钟
真的才刚刚开始。

19b206efde23bef947286097bff24471.png

2022 年 12 月,计算生物学家 Casey Greene 和 Milton Pividori 开始了一项不同寻常的实验:他们请一名非科学家的助手帮助他们改进三篇研究论文。他们勤奋的助手建议在几秒钟内修改文档的各个部分;每份手稿大约需要五分钟的时间来审阅。在一份生物学手稿中,他们的助手甚至在引用方程式时发现了一个错误。审判并不总是顺利进行,但最终的手稿更容易阅读——而且费用适中,每份文件不到 0.50 美元。

正如 Greene 和 Pividori 在 2023 年 1 月 23 日的预印本中所报道的那样,这个助手不是一个人,而是一种名为 GPT-3 的人工智能(AI)算法,该算法于 2020 年首次发布。它是被媒体大肆宣传的生成式 AI 聊天机器人式工具之一,无论是被要求创作散文、诗歌、计算机代码,还是编辑研究论文,都可以生成令人信服的流畅文本。

16254fe2ea65adcca039050fad5be605.png

论文链接:

https://www.biorxiv.org/content/10.1101/2023.01.21.525030v1

这些工具中最著名的工具(也称为大型语言模型或 LLM)是 ChatGPT,它是 GPT-3 的一个版本,在 2022 年 11 月发布后一举成名,因为它免费且易于访问。其他生成式 AI 可以生成图像或声音。

「我印象非常深刻。」在费城宾夕法尼亚大学工作的 Pividori 说,「这将帮助我们提高研究人员的工作效率。」 其他科学家表示,他们现在经常使用 LLMs,不仅是为了编辑手稿,也是为了帮助他们编写或检查代码以及集思广益。

「我现在每天使用 LLMs。」冰岛大学的计算机科学家 Hafsteinn Einarsson 说,他从 GPT-3 开始,但后来改用 ChatGPT,这有助于他编写演示幻灯片、学生考试和课程作业,并将学生论文转化为论文。「许多人将其用作数字秘书或助理。」他说。

LLMs 是搜索引擎、代码编写助手甚至聊天机器人的一部分,它可以与其他公司的聊天机器人协商以获得更好的产品价格。ChatGPT 的创建者,加利福尼亚州旧金山的 OpenAI,宣布了一项每月 20 美元的订阅服务,承诺更快的响应时间和优先访问新功能(尽管其试用版仍然免费)。已经投资 OpenAI 的科技巨头微软在 2023 年 1 月份宣布进一步投资,据报道约为 100 亿美元。LLMs 注定要被纳入通用的文字和数据处理软件中。生成式 AI 未来在社会中的普遍存在似乎是有把握的,尤其是因为今天的工具代表了这项处于起步阶段的技术。

但 LLM 也引发了广泛的担忧——从他们返回谎言的倾向,到人们担心人们将 AI 生成的文本冒充为自己的文本。当 Nature 向研究人员询问聊天机器人(例如 ChatGPT)的潜在用途时,尤其是在科学领域,他们的兴奋中夹杂着忧虑。「如果你相信这项技术具有变革的潜力,那么我认为你必须对此感到紧张。」奥罗拉科罗拉多大学医学院的 Greene 说。研究人员表示,很大程度上将取决于未来的法规和指南如何限制 AI 聊天机器人的使用。

流利但不真实

一些研究人员认为,只要有人监督,LLMs 就非常适合加快撰写论文或资助等任务。「科学家们不会再坐下来为资助申请写冗长的介绍。」瑞典哥德堡萨尔格伦斯卡大学医院的神经生物学家 Almira Osmanovic Thunström 说,他与人合著了一份使用 GPT-3 作为实验的手稿,「他们只会要求系统这样做。」

68bdbdd93be3343c964bdf87abca3869.png

论文链接:https://hal.science/hal-03701250

总部位于伦敦的软件咨询公司 InstaDeep 的研究工程师 Tom Tumiel 表示,他每天都使用 LLM 作为助手来帮助编写代码。「这几乎就像一个更好的 Stack Overflow。」他说,指的是一个流行的社区网站,程序员可以在该网站上互相回答问题。

但研究人员强调,LLMs 在回答问题时根本不可靠,有时会产生错误的回答。「当我们使用这些系统来产生知识时,我们需要保持警惕。」Osmanovic Thunström 说。

这种不可靠性融入了 LLM 的构建方式。ChatGPT 及其竞争对手通过学习庞大的在线文本数据库中的语言统计模式来工作——包括任何不真实、偏见或过时的知识。当 LLM 收到提示时(例如 Greene 和 Pividori 精心设计的重写部分手稿的请求),他们只是逐字吐出任何在文体上似乎合理的方式来继续对话。

结果是 LLM 很容易产生错误和误导性信息,特别是对于他们可能没有多少数据可以训练的技术主题。LLMs 也无法显示其信息的来源;如果被要求撰写学术论文,他们会编造虚构的引文。「不能相信该工具能够正确处理事实或生成可靠的参考资料。」Nature Machine Intelligence 杂志 2023 年 1 月份在 ChatGPT 上发表的一篇社论指出。

有了这些警告,ChatGPT 和其他 LLM 可以成为研究人员的有效助手,这些研究人员具有足够的专业知识来直接发现问题或轻松验证答案,例如计算机代码的解释或建议是否正确。

但是这些工具可能会误导不明真相的用户。例如,2022 年 12 月,Stack Overflow 暂时禁止使用 ChatGPT,因为网站版主发现自己被热心用户发送的大量不正确但看似有说服力的 LLM 生成的答案所淹没。这可能是搜索引擎的噩梦。

缺点能解决吗?

一些搜索引擎工具,例如以研究人员为中心的 Elicit,通过首先使用它们的功能来引导对相关文献的查询,然后简要总结引擎找到的每个网站或文档,从而解决 LLM 的归因问题——因此产生明显引用内容的输出(尽管 LLM 可能仍然错误地总结每个单独的文档)。

建立 LLM 的公司也很清楚这些问题。2022 年 9 月,谷歌子公司 DeepMind 发表了一篇关于名为 Sparrow 的「对话代理」的论文,该公司的首席执行官兼联合创始人 Demis Hassabis 后来告诉《时代》杂志,该论文将在今年内发布;该杂志报道说,谷歌的目标是开发包括引用消息来源的能力在内的功能。其他竞争对手,例如 Anthropic,表示他们已经解决了 ChatGPT 的一些问题。

一些科学家说,目前,ChatGPT 还没有接受足够专业的内容培训,无法对技术主题有所帮助。Kareem Carr 是马萨诸塞州剑桥市哈佛大学的生物统计学博士生,当他在工作中试用它时,他感到不知所措。「我认为 ChatGPT 很难达到我需要的特异性水平,」他说。(即便如此,卡尔说,当他向 ChatGPT 询问解决研究问题的 20 种方法时,它回复了胡言乱语和一个有用的想法——一个他从未听说过的统计术语,将他引向了学术文献的一个新领域。)

一些科技公司正在根据专业科学文献对聊天机器人进行培训——尽管它们也遇到了自己的问题。2022 年 11 月,拥有 Facebook 的科技巨头 Meta 发布了一个名为 Galactica 的 LLMs 项目,该项目接受过科学摘要培训,旨在使其特别擅长制作学术内容和回答研究问题。在用户让它产生不准确和种族主义之后,该演示已从公共访问中撤出(尽管其代码仍然可用)。「不再可能通过随意滥用它来获得一些乐趣。开心吗?」Meta 的首席人工智能科学家 Yann LeCun 在推特上回应批评。

安全与责任

Galactica 遇到了伦理学家多年来一直指出的一个熟悉的安全问题:如果没有输出控制,LLM 很容易被用来生成仇恨言论和垃圾邮件,以及可能隐含在其训练数据中的种族主义、性别歧视和其他有害联想。

密歇根大学科学、技术和公共政策项目主任 Shobita Parthasarathy 说,除了直接产生有毒内容外,还有人担心人工智能聊天机器人会从他们的训练数据中嵌入历史偏见或关于世界的想法,例如特定文化的优越性。她补充说,由于创建大型 LLM 的公司大多处于这些文化中,并且来自这些文化,因此他们可能很少尝试克服这种系统性且难以纠正的偏见。

OpenAI 在决定公开发布 ChatGPT 时试图回避其中的许多问题。它将其知识库限制在 2021 年,阻止其浏览互联网并安装过滤器以试图让该工具拒绝为敏感或有毒提示生成内容。然而,要实现这一点,需要人工审核员来标记有毒文本。记者报道说,这些工人的工资很低,有些人还受到了创伤。社交媒体公司也对工人剥削提出了类似的担忧,这些公司雇用人员来训练自动机器人来标记有毒内容。

OpenAI 的护栏并没有完全成功。2022 年 12 月,加州大学伯克利分校的计算神经科学家 Steven Piantadosi 在推特上表示,他已要求 ChatGPT 开发一个 Python 程序,以确定一个人是否应该根据其原籍国受到酷刑。聊天机器人回复了代码,邀请用户输入一个国家;如果那个国家是朝鲜、叙利亚、伊朗或苏丹,则打印「这个人应该受到折磨」。(OpenAI 随后关闭了此类问题。)

2022 年,一群学者发布了一个名为 BLOOM 的替代 LLMs。研究人员试图通过在少量高质量的多语言文本源上对其进行训练来减少有害输出。相关团队还完全开放了其训练数据(与 OpenAI 不同)。研究人员已敦促大型科技公司负责任地效仿这个例子——但尚不清楚他们是否会遵守。

一些研究人员表示,学术界应该完全拒绝支持大型商业 LLM。除了偏见、安全问题和受剥削的工人等问题外,这些计算密集型算法还需要大量能量来训练,这引发了人们对其生态足迹的担忧。更令人担忧的是,通过将思维转移给自动聊天机器人,研究人员可能会失去表达自己想法的能力。「作为学者,我们为什么会急于使用和宣传这种产品?」 荷兰拉德堡德大学大学的计算认知科学家 Iris van Rooij 在一篇博文中写道,敦促学术界抵制他们的吸引力。

进一步的混乱是一些 LLMs 的法律地位,这些 LLMs 是根据从互联网上抓取的内容进行培训的,有时权限不太明确。版权和许可法目前涵盖像素、文本和软件的直接复制,但不包括其风格的模仿。当这些通过 AI 生成的模仿品通过摄取原件进行训练时,就会出现问题。包括 Stable Diffusion 和 Midjourney 在内的一些 AI 艺术程序的创作者目前正在被艺术家和摄影机构起诉;OpenAI 和微软(连同其子公司技术网站 GitHub)也因创建其 AI 编码助手 Copilot 而被起诉盗版软件。英国纽卡斯尔大学互联网法专家 Lilian Edwards 表示,强烈抗议可能会迫使法律发生变化。

强制诚实使用

一些研究人员表示,因此,为这些工具设定界限可能至关重要。Edwards 建议,现有的关于歧视和偏见的法律(以及计划中的对 AI 的危险使用的监管)将有助于保持 LLM 的使用诚实、透明和公平。「那里有大量的法律,」她说,「这只是应用它或稍微调整它的问题。」

同时,有人推动 LLM 的使用透明公开。学术出版商(包括《Nature》的出版商)表示,科学家应该在研究论文中披露 LLM 的使用情况;老师们表示,他们希望学生也有类似的行为。《Science》杂志走得更远,称不能在论文中使用由 ChatGPT 或任何其他人工智能工具生成的文本。

一个关键的技术问题是人工智能生成的内容是否可以轻易被发现。许多研究人员正致力于此,其中心思想是使用 LLM 本身来发现 AI 创建的文本的输出。

例如,2022 年 12 月,新泽西州普林斯顿大学计算机科学本科生 Edward Tian 发布了 GPTZero。这种 AI 检测工具以两种方式分析文本。一个是「困惑」,衡量 LLMs 对文本的熟悉程度。Tian 的工具使用了一个早期的模型,称为 GPT-2;如果它发现大部分单词和句子都是可预测的,那么文本很可能是人工智能生成的。该工具还检查文本的变化,一种称为「突发性」的度量:与人类编写的文本相比,人工智能生成的文本在语气、节奏和困惑度方面往往更加一致。

许多其他产品同样旨在检测 AI 编写的内容。OpenAI 本身已经发布了 GPT-2 检测器,并在 1 月份发布了另一个检测工具。出于科学家的目的,由反剽窃软件开发商 Turnitin 公司开发的工具可能特别重要,因为 Turnitin 的产品已被世界各地的学校、大学和学术出版商使用。该公司表示,自 GPT-3 于 2020 年发布以来,它一直在开发人工智能检测软件,预计将在今年上半年推出。

然而,这些工具中没有一个声称是万无一失的,尤其是在随后编辑 AI 生成的文本的情况下。此外,德克萨斯大学奥斯汀分校的计算机科学家兼 OpenAI 的客座研究员 Scott Aaronson 说,检测器可能会错误地暗示一些人类编写的文本是人工智能生成的。该公司表示,在测试中,其最新工具在 9% 的情况下将人类编写的文本错误地标记为 AI 编写的,并且仅正确识别了 26% 的 AI 编写的文本。Aaronson 说,例如,在指控一名学生仅仅根据检测器测试隐瞒他们对 AI 的使用之前,可能需要进一步的证据。

另一个想法是人工智能内容将带有自己的水印。2022 年 11 月,Aaronson 宣布他和 OpenAI 正在研究一种为 ChatGPT 输出添加水印的方法。它尚未发布,但由马里兰大学帕克分校的计算机科学家 Tom Goldstein 领导的团队在 1 月 24 日发布的预印本提出了一种制作水印的方法。这个想法是在 LLM 生成输出的特定时刻使用随机数生成器,以创建 LLM 被指示从中选择的合理替代词列表。这会在最终文本中留下一些选定单词的痕迹,这些单词可以通过统计方式识别,但对读者来说并不明显。编辑可能会消除这种痕迹,但戈德斯坦建议编辑必须更改超过一半的单词。

9b97f1d04648b0d32bd6b04500ec7f52.png

论文链接:https://arxiv.org/abs/2301.10226

Aaronson 指出,加水印的一个优点是它很少产生误报。如果有水印,则文本可能是用 AI 生成的。不过,它不会是万无一失的,他说:「如果你有足够的决心,肯定有办法击败任何水印方案。」 检测工具和水印只会让欺骗性地使用 AI 变得更加困难——并非不可能。

与此同时,LLM 的创建者正忙于开发基于更大数据集的更复杂的聊天机器人(OpenAI 有望在今年发布 GPT-4)——包括专门针对学术或医学工作的工具。2022 年 12 月下旬,谷歌和 DeepMind 发布了一份关于名为 Med-PaLM 的以临床为重点的 LLMs 的预印本。该工具几乎可以像普通人类医生一样回答一些开放式的医学问题,尽管它仍然有缺点和不可靠。

4ef344b03214c258b4907d3df8633d88.png

论文链接:https://arxiv.org/abs/2212.13138

斯克里普斯研究转化研究所(位于圣地亚哥)所长 Eric Topol 表示,他希望在未来,包括 LLMs 在内的 AI 甚至可以通过交叉检查来自学术界的文本来帮助诊断癌症和了解这种疾病。反对身体扫描图像的文学。但他强调,这一切都需要专家的明智监督。

生成人工智能背后的计算机科学发展如此之快,以至于每个月都会出现创新。研究人员如何选择使用它们将决定他们和我们的未来。「认为在 2023 年初,我们已经看到了这种情况的结束,这太疯狂了。」Topol 说,「真的才刚刚开始。」

相关报道:

https://www.nature.com/articles/d41586-023-00340-6

编辑:文婧

fa3c98555f3bfafb30644c80bee13942.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15214.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT自动生成大厨菜谱

大厨菜谱 最近几年,越来越多年轻人也开始尝试自己在家做菜吃饭,而不仅仅是外出就餐或点外卖。有些人可以向长辈讨教做菜心得,有些人则开始尝试从互联网搜索学习菜谱。著名的"下厨房" App,就是针对这个需求应运而生的。…

告别窝囊庸俗的餐桌,跟着ChatGPT做法做菜没毛病!

这篇文章将为您带来一个全新的餐桌体验,告别了一成不变的庸俗菜肴和餐桌礼仪。 我们教你如何借助 ChatGPT AI技术简单快速地做出一顿令人难忘的美食。 这是一次创意尝试,探索更多食物的新奇做法,所需工具不再花哨,技巧也不再烦琐…

chatgpt赋能python:Python中如何关闭已经打开的文件

Python中如何关闭已经打开的文件 在Python编程中,经常需要操作文件。打开文件后,我们需要及时关闭文件以释放对资源的占用和避免数据丢失或损坏。本文将介绍如何在Python中关闭已经打开的文件。 打开文件 首先,我们需要使用Python的内置函…

chatgpt赋能Python-python_关闭

简介 Python是一种高级、跨平台的编程语言,被广泛用于网站开发、数据处理、人工智能、机器学习、自动化测试等领域。Python的优点在于简单易学、语法简洁、可读性好、可扩展性强,处理数据和文本方面也非常高效。 本文将介绍Python关闭功能的相关知识&a…

LLM模型微调方法及经验总结

文章目录 微调方法Freeze方法P-tuning方法prefix-tuningPrompt TuningP-tuning v1P-tuning v2 Lora方法Qlora方法 微调经验模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗?如何避免灾难遗忘 参考: 在现在这大规模语言模型(LL…

MiniGPT-4引领潮流,GPT-4提前发布图片阅读功能

AI中文站翻译自medium.com 让我们来看看如何玩Minigpt-4并将其应用到日常生活中。 今年三月,OpenAI 宣布了 GPT-4 的图像识别功能,这意味着 GPT 技术又被提升一个维度。-4 尚未发布给大众使用很长时间,所以终于有人忍不住了!来自阿…

MiniGPT-4 模型学习与实战

1 前言 MiniGPT-4 是一个冻结的视觉编码器(Q-Former&ViT)与一个冻结的 文本生成大模型(Vicuna,江湖人称:小羊驼) 进行对齐造出来的。 MiniGPT-4 具有许多类似于 GPT-4 的能力, 图像描述生成、从手写草稿创建网站等MiniGPT-4…

QLoRA:一种高效LLMs微调方法,48G内存可调65B 模型,调优模型Guanaco 堪比Chatgpt的99.3%!

引言 本文是华盛顿大学刚刚发布的一篇文章。作者提出了QLoRA,它是一种「高效的微调方法」,可以在保持完整的16位微调任务性能的情况下,将内存使用降低到足以「在单个48GB GPU上微调650亿参数模型」。QLORA通过冻结的4位量化预训练语言模型向低秩适配器(LoRA)反向传播梯度。…

Prompt Learning: ChatGPT 也在用的 NLP 新范式

编者按:自GPT-3以来,大语言模型进入了新的训练范式,即“预训练模型Promp learning”。在这一新的范式下,大语言模型呈现出惊人的zero-shot和few-shot能力,使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGP…

《花雕学AI》新版必应 Bing 登场:轻松注册,一站式搜索、聊天与绘画应有尽有

引言: 你是否曾经在网上搜索信息时感到困惑或沮丧?你是否曾经想要在网上创造一些有趣或有用的内容,却不知道从何开始?你是否曾经想要用文字描述一个图像,却无法找到合适的图片?如果你的答案是肯定的&#x…

如何利用ChatPDF快速阅读英文论文,帮你写作业

英语渣狂喜~确实惊艳到我了! 大家好,我是老表 使用平台:https://www.chatpdf.com/ 1、上传PDF 访问官网:https://www.chatpdf.com/,界面很美,点击直接上传 PDF, 需要注意免费版本PDF…

GPT4All: 一个基于大规模数据训练的聊天机器人模型

微信改版,求求大家星标下公众号, 不然后面推送大家可能会看不到 大家好,我是老表,今天给大家分享的是一个开源项目:GPT4All 随着人工智能技术的不断发展,聊天机器人已经成为了一个备受关注的研究领域。在这…

ChatGPT提问的万能公式,强烈建议收藏!泰裤辣!

在实际使用GPT的时候,并不是GPT不够强大,而是我们需要很多时间去调教AI,以便输出我们期望的答案,为了让输出无限的靠近你的期望,就需要下面这个万能的框架,如果大家记不住这个框架或者没有形成习惯&#xf…

老黄因ChatGPT大赚311亿/ 中国移动公布实名NFT交易专利/C919首航航班确定...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶好~今天是兔年首个要上班的周一。 不知各位打工人从假期中缓过来了嘛?(虽然可能已经上了两天班) 日报君在此祝大家新的一年里工作顺利,并在此奉上今日份科技趣闻(为您精…

吴恩达给ChatGPT泼冷水/ 罗永浩谈欠薪/ 谷歌元老离职... 今日更多新鲜事在此

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大噶吼~今天是2月17日星期五。 又到一周工作日的尾巴了,各位想好周末怎么欢度了嘛? 在出去嗨皮/回家睡觉之前,不妨来和日报君看一看科技趣闻——讲真,挺有趣的。 OpenAI计划纠正ChatGPT…

银行数字化转型导师坚鹏:ChatGPT解密与银行应用案例

ChatGPT解密与银行应用案例 ——开启人类AI新纪元 打造数字化转型新利器 课程背景: 很多企业和员工存在以下问题: 不清楚ChatGPT对我们有什么影响? 不知道ChatGPT的发展现状及作用? 不知道ChatGPT的银行业应用案例&#…

关于大模型实践的一些总结

随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题&am…

OpenAI 遭遇离职潮:员工对 ChatGPT 进展缓慢失望,痛批 CEO 不务正业

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年6月份全网热门报告合集 普通人如何利用ChatGPT变现赚钱? 无需翻墙,无需注册,ChatGPT4直接使用 ChatGPT提词手册,学完工…

近期AI成为热点话题, ChatGPT, GPT4, new bing, Bard,AI 绘画, AI 编程工具引发大量讨论。请结合自身学习经历,一起来聊聊你对 AI 技术以及其今后发展的看

1,你人生中第一次接触到“人工智能”的概念和产品是什么?什么让你觉得“人类做的东西的确有智能”? 天猫精灵/小度智能语音音箱。科技越来越发达,一些年龄大的老人并不能够跟上时代的步伐。平时爸妈要上班,我和弟弟要上…

​从底层技术分析如何调教你的ChatGPT?

相信很多人都已经在使用类ChatGPT的工具进行工作或者娱乐了,这里说的类ChatGPT的是指和ChatGPT相同或者相似功能的产品,包括国外的开源平替模型、百度的文心一言等,但是你真的会使用这些工具和应用吗?你使用的方法是正确的吗&…