ChatGPT官宣数学能力再升级,网友:终于精通十以内加减法了

e73228aa15298c11ae3f47c45ae00e14.png

来源:机器之心
本文约3000字,建议阅读5分钟
随着 ChatGPT 热度一直不减,OpenAI 持续拓展其能力。同时,ChatGPT 的竞品不断涌现,如何更准确检测其生成文本也成为了近来学界的一大研究课题。

自 ChatGPT 发布以来,它的能力不断被人们解锁,比如写神经网络、做智能音箱。人们在试用中慢慢发现,数学能力是 ChatGPT 的一大短板,连简单的「鸡兔同笼」题都能算错。

大概是考虑到了这一点,ChatGPT 近日宣布了一次重要更新:提升了「真实性」和「数学能力」。

3a32597f39ec4e782a8739421c6a67b2.png

本次是 ChatGPT 自去年 11 月推出以来的第三次更新,但由于「更新说明」过于模糊,人们还需要经历一个对新能力的探索过程。

几日前,计算机科学家、Wolfram 语言之父 Stephen Wolfram 将理工科神器 Wolfram|Alpha 与 ChatGPT 结合起来,为后者注入超强计算知识实现互补,效果相当不错。

那么,这次更新之后的 ChatGPT 数学能力可与其一战吗?

看起来…… 对比的结果不尽如人意:

0827c7d5d25c6eb30a54041d2316e49a.png

「只能说神经网络不是用来干这个的」,Sebastian Raschka 都觉得无奈了。

还有人发现,升级后的 ChatGPT「脾气逐渐暴躁」:

7ad63993a07bf467e8aa6cad0812a019.png

「你数学是哪位老师教的?」面对一道十以内加减法的题目,它的语气像极了辅导孩子作业的家长。

这也许是「偶然现象」?看来数学是真难。

不管怎么说,我们可以期待一波后续的有趣 Demo 了。

太卷了:ChatGPT 和它的竞争者们

「未来 6 到 12 个月将带来实验的爆炸式增长,一旦公司能够使用 OpenAI 的 API 在 ChatGPT 之上构建。出现的杀手级用例可能是围绕生成式 AI 对知识管理的影响。」

5facae0035c047cb14a03e139963a601.png

Nicola Morini Bianzino。

在最近的一次公开活动上,安永全球首席技术官 Nicola Morini Bianzino 表示,目前还没出现在企业中使用 ChatGPT 的「杀手级」用例。但这种状态可能很快就会改变,他预测未来 6 到 12 个月将带来大量实验,尤其是当公司能够使用 OpenAI 的 API 在 ChatGPT 上构建之后。

Bianzino 将生成式 AI 对知识管理的影响描述为「AI 的辩证法」。「知识公司倾向于以一种非常扁平的二维方式存储知识,这使得访问、互动和对话变得困难。我们在 20、30、40 年前尝试构建专家系统。这并不是很顺利,因为它们太死板了。我认为这项技术有望克服专家系统存在的许多问题。」Nicola Morini Bianzino 表示。

与此同时,ChatGPT 的竞争者们也不断涌现,这个赛道变得越来越「卷」。从 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、谷歌公司的 LaMDA 到 Character AI,每天似乎都有新竞争者步入赛场。

Anthropic 是一家旧金山的初创公司,由几位离开 OpenAI 的研究人员于 2021 年创立。公司成立不到一年后就宣布了高达 5.8 亿美元的融资,上周五还被报道即将增加 3 亿美元融资。

这家公司开发了一个名为「Claude」的 AI 聊天机器人,目前通过 Slack 集成在封闭测试版中可用,据报道它与 ChatGPT 相似,甚至有一些改进。Anthropic 描述自身的使命为「致力于构建可靠、可解释和可操纵的 AI 系统」。

DeepMind 同样是这条赛道上不可忽视的力量。这家公司在 9 月份的一篇论文中介绍了 「Sparrow」,被誉为「朝着创建更安全、偏差更小的机器学习系统迈出的重要一步」。Sparrow 是「一种有用的对话智能体,可以降低不安全和不适当答案的风险」,旨在「与用户交谈、回答问题并在有助于查找证据」。 

不过,DeepMind 的安全研究员、 Sparrow 论文的主要作者 Geoffrey Irving 表示,DeepMind 认为 Sparrow 是一个基于研究的概念验证模型,尚未准备好部署。

在两周前的《时代周刊》文章中,该公司的首席执行官兼联合创始人 Demis Hassabis 表示,DeepMind 正在考虑在 2023 年的某个时候发布其聊天机器人 Sparrow 的「私人测试版」。如此一来,公司就可以开发基于强化学习的功能,比如引用来源 —— 这是 ChatGPT 所没有的能力。

再说到谷歌的 LaMDA,这一模型曾在去年夏天引发过热议 —— 谷歌工程师 Blake Lemoine 因声称 LaMDA 具有感知能力而被解雇。

即使不像 Lemoine 认为的那样,LaMDA 仍被认为是 ChatGPT 最大的竞争对手之一。谷歌在 2021 年发布的博客文章中表示,LaMDA 的对话技巧「已经酝酿多年」。与 ChatGPT 一样,LaMDA 建立在 Transformer 架构之上,也接受过对话方面的训练。

根据谷歌的说法,「在训练期间,LaMDA 发现了一些将开放式对话与其他形式的语言区分开来的细微差别。」

《纽约时报》在 1 月 20 日的一篇报道中提到,谷歌创始人 Larry Page 和 Sergey Brin 上个月会见了公司高管,讨论了 ChatGPT 可能对谷歌 1490 亿美元的搜索业务构成的威胁。谷歌发言人在一份声明中表示:「我们继续在内部测试我们的 AI 技术,以确保它有用且安全,我们期待尽快与外部分享更多经验。」

另外一位颇具实力的玩家则是 Character AI,这家公司由 Transformer 论文作者之一 Noam Shazeer 创办,逐渐为人熟知。

该公司推出的 AI 聊天机器人技术允许用户与任何人聊天或进行角色扮演,比如模仿伊丽莎白女王和莎士比亚等历史人物。目前该技术是免费使用的,Character 正在「研究用户如何与之互动,然后再制定具体的创收计划。」

传百度将发布类似 ChatGPT 的聊天机器人

更能引起国内 AI 从业者关注的是,据路透社、彭博社等多家外媒报道称,百度公司计划在 3 月份推出类似于 OpenAI 的 ChatGPT 的人工智能聊天机器人服务。

消息人士称,百度计划在用户提出搜索请求时整合聊天机器人生成的结果,而不仅仅是链接。「该工具尚未命名,将嵌入在主搜索服务中,用户将返回对话风格的搜索结果。」

在去年 12 月在一次内部讨论中,百度 CEO 李彦宏曾分享自己对 ChatGPT 的看法:「把这么酷的技术变成人人需要的产品」才是最难的,希望百度新的一年「至少能有一个高成长、有创新的业务,真正的 above and beyond our expectation」。

而据《科创板日报》1 月 30 日报道,百度内部确有推出类似 ChatGPT 聊天机器人的规划,但具体时间并不精确。百度 CEO 李彦宏对于该项目的定位是「引领搜索体验的代际变革」。他在内部指出,相关技术已达到临界点,百度在其中有较大的机会。

检测利器:让大型语言模型生成的文本无处隐藏

ChatGPT 的能力纵然强大,但同时它在学校作业、论文发表等领域的滥用已经引发了人们广泛的担忧。因此,学界开始探索检测 ChatGPT 等大型语言模型(LLM)生成文本的方法和工具。

马里兰大学几位研究者对 ChatGPT 等语言模型输出的水印进行了研究。在论文《A Watermark for Large Language Models》,他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问语言模型的 API 或参数。

本文方法可以检测到比较短的合成文本(少至 25 个 tokens),同时使得人类文本在统计学上不可能被标记为机器生成。

bedbc9b05c5a889c1fa5c97e934904cc.png

论文地址:https://arxiv.org/pdf/2301.10226v1.pdf

斯坦福大学几位研究者在论文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,证明了从 LLM 中采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察结果,他们定义了一个基于曲率的新标准,来判断一段文章是否由给定的 LLM 生成。

研究者将他们的方法称为 DetectGPT,它不需要训练单独的分类器、收集真实或生成段落的数据集以及显式地为生成文本加水印。DetectGPT 仅使用感兴趣模型计算的对数概率和另一通用预训练语言模型(如 T5)生成段落的随机扰动。

结果发现,DetectGPT 比当前模型样本检测的零样本方法更具辨别力,尤其是将 20B 参数 GPT-NeoX 生成的假新闻报道检测从最强零样本基线的 0.81 AUROC 提升到了 0.95 AUROC。未来将公布代码和数据。

bd56d20dad753907305ceb2bcd79e447.png

DetectGPT 检测 GPT-3 生成文本的示意图。

论文地址:https://arxiv.org/abs/2301.11305

除了以论文形式展现的检测方案,也有个人推出了强大的检测工具。比如一位来自 Hive AI、致力于 ChatGPT 检测器研究的 ML 工程师,其方案能够识别 ChatGPT、GPT-3 和其他流行 AI 引擎生成的文本。

从内部基准测试结果来看,该方案效果明显优于 GPTZero 和 OpenAI GPT2 Output Detector 等类似方法。在内部数据集上,模型平衡准确率 > 99%,而 GPTZero 的准确率约为 60%,OpenAI GPT2 Output Detector 的准确率为 84%。

3283a93fb74906106fbace33a79cc8aa.jpeg

Demo 地址:https://hivemoderation.com/ai-generated-content-detection

最后,GPTZero 也迎来了更新 ——GPTZeroX,一个专为教育者打造的全新 AI 检测模型。该模型可以混合处理 AI 生成和人类文本,并突出显示最有可能由 AI 生成的文本部分。此外构建了一个 pipeline 来处理 PDF、Word 和.txt 格式的文件批量上传,从而轻松运行多个文件。

3119b0d2b45227c7794d78c34af14199.jpeg

Demo 地址:

https://gptzero.substack.com/p/gptzerox

总之,随着 AI 生成文本检测工具的日益丰富和日加完善,ChatGPT 等大型语言模型在应用时势必会越来越正规,帮助人们更高效地释放 AI 的能力。

参考链接:

《百度进军 ChatGPT 李彦宏:相关技术已达到临界点》 (https://mp.weixin.qq.com/s/1WZDu8aVcAUoHZfxjiMh7A)

https://mp.weixin.qq.com/s/URO054sLrNtVKryyv0TxGA

https://venturebeat.com/ai/who-will-compete-with-chatgpt-meet-the-contenders-the-ai-beat/

https://venturebeat-com.cdn.ampproject.org/c/s/venturebeat.com/ai/chatgpts-killer-enterprise-use-case-will-be-managing-knowledge-says-ey-cto/amp/

编辑:文婧

b2b4eecd7c7e82adb3ab33757882ca0d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9801.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

太卷了,前后端程序员都开始学习ChatGPT开发偷偷赚米了

最近发现身边的做开发的程序员朋友,都在学习ChatGPT开发,一个做后端的朋友告诉我,学习ChatGPT开发只用两三天时间就够了。更神奇的是,连做前端开发的小伙伴也开始学起了ChatGPT开发。我想说,这么卷,你们老板…

微信小程序获取手机号功能将收费

我是卢松松,点点上面的头像,欢迎关注我哦! 据知情人士透露,继企业微信加好友数量需要收费后,“小程序获取手机号组件”即将迎来升级并开启“收费”模式。下图是价格表: 升级前后组件的样式对比&#xff…

微信小程序开发费用一览表 微信小程序制作费用是多少钱

总的来说,微信小程序定制开发的报价影响因素有功能繁简程度、开发技术难以程度、人工成本以及开发周期、项目整体服务类目的多少,一般的报价分析都是从这个几方面去入手。 1、对开发需求方案的分析 2、对技术实现方案的分析 3、开发团队的人工成本投入 …

小程序开发费用一览表,如果你也想要用低成本制作出自己的小程序,来了解一下!

近几年来微信小程序的发展的十分的迅速,越来越多的用户对小程序已经非常熟悉,同时很多商家都看到了小程序的商机,其中小程序商城更是受到众多用户和商家的欢迎。 制作小程序商城主要的方式有两种,一种是源码定制开发,一…

花3万买的大学申请文书,竟和ChatGPT写的一样?

正值高考毕业季,留学出国又成热门话题。眼下,选学校、写申请书是不少学生头等大事。在AI如火如荼的今年,这个老行当却有了新变化。 当学生纷纷用AI写申请书,留学机构开始缩减业务,中介用AI写文书“糊弄”学生&#xf…

ChatGPT智能生成论文,“灰色行业”正在经受打击

自从ChatGPT于去年发布以来,各种关于人工智能的讨论就层出不穷,其中的焦点之一就是人工智能会取代哪些职业。而最近一个大家比较熟悉的职业就受到了ChatGPT的影响,它就是“灰色行业”——代写。 虽然代写行业一直被视为作弊行为,欧…

上下文-Context

Context的作用和意义 Golang这个语言最大的一个优势就是拥有一个高并发利器:goroutine,它是有Golang语言实现的协程,有了它就可以实现高并发请求,但有了大量的协程后,就会带来一些问题,比如: …

【HelloKitty团队项目】Beta阶段项目展示

项目内容这个作业属于哪个课程2023北航软件工程这个作业的要求在哪里团队项目-Beta阶段项目展示我在这个课程的目标是学习软件工程技术,完成团队开发流程这个作业在哪个具体方面帮助我实现目标Beta阶段开发 (一)项目亮点 一、项目管理 团队…

对垃圾收集器一脸懵B,看这篇就对了|金三银四系列

本文详解了7种垃圾收集器,文章很干,适合用来面试前复习。建议收藏再看! 点击上方“后端开发技术”,选择“设为星标” ,优质资源及时送达 上一篇文章讲了垃圾回收算法,它是内存回收的方法论,垃圾…

【HelloKitty团队项目】Alpha阶段项目展示

项目内容这个作业属于哪个课程2023北航软件工程这个作业的要求在哪里团队项目-Alpha阶段项目展示我在这个课程的目标是学习软件工程技术,完成团队开发流程这个作业在哪个具体方面帮助我实现目标Alpha阶段开发 一、项目亮点 项目管理 团队是如何进行项目管理的&am…

springboot使用aop切面统一处理查询不同接口中接收的请求体,实现多条件分页查询

目录 需求描述 前端ajax请求调用查询接口示例 准备工作 引入相关依赖 实体类 controller层 service层接口 service层实现类 mapper层 mapper.xml中的selectAll复杂动态sql 控制层切面 工具类MyUtils 通用类DataVO 发送请求查看响应结果 ajax请求体 响应内容 关…

chatgpt赋能python:Python如何阻止弹窗

Python如何阻止弹窗 Python是一种高级编程语言,它具有广泛的应用和丰富的库。它还可以被用于开发自动化程序,包括阻止弹窗。在本文中,我们将介绍如何使用Python阻止弹出窗口,并探讨防止弹窗的原因。 为什么要防止弹窗&#xff1…

MySQL - 各种超时时间 - 学习与探究

1.应用场景 主要用于学习与探究MySQL各种超时时间,应用在合适的场景下. 2.学习/操作 1.文档阅读 https://wen.geekr.dev/ chatgpt & 官方文档 & 其他资料 2.整理输出 2.1 是什么 MySQL中有多个超时时间,以下是其中的几个: connect_…

大语言模型 AI 辅助编码使用过程体验报告(Github Copilot、Cursor)

编码感受和评估 在过去一周多的时间里,我在 ChatGPT 的协助下,生成了做一个简单编辑器的产品文档、技术方案文档,然后在这个基础上,进行程序的编码。 使用的工具纪要 为了更全面地感受 AI IDE 对研发过程的影响,我特…

产品设计师使用ChatGPT的十大妙招

掌握ChatGPT 提示列表,将大大提高产品设计师的效率。 微信搜索关注《Java学研大本营》,加入读者群,分享更多精彩 OpenAI 的 ChatGPT 无处不在,人们将其用于各种各样的事情,从作业作弊到构建产品。最近开始使用 ChatGPT 来摆脱空白…

postman接口报文返回:系统异常

场景:在做python脚本参数化时,同样的请求报文,在postman里可以发送成功,但是发给同事做自动化跑接口时,却返回"系统异常"。 今天在做Jmeter时,发现又出现了同样的问题。 原因:因为没…

postman能请求到后端接口,.HttpMessageNotReadableException: I/O error while reading input message; nested exce

postman能请求到后端接口,.但是前端发送请求,怎么请求,后端接口都没响应.... 前端项目是vue-element-admin 报错信息: HttpMessageNotReadableException: I/O error while reading input message; nested exception is org.apache.catalina…

关于POST发送数据过大,发送请求发生错误问题的原因及办法。

问题来自于生产的一个批量处理提交操作,当POST请求提交的数据量过大时,就会产生错误,发生例如:超时、504等等现象。惊讶之余,并不着急解决BUG,更想弄清楚为什么POST请求会出现这种情况,第一反应…

使用postman发送post请求,却报错不支持get请求的原因

场景复现 可以看到我们postman发出的确实是post请求,message却报错这个接口不支持get请求,说明服务器实际上收到的是一个get请求。 产生原因分析 如果我们访问的是线上的接口,线上的nginx一般都会对http访问做一个302重定向,跳转…

postman,浏览器测试接口正常,HttpClient 调用就报错

一次奔溃的经历 事情是这样的:第三方提供了一个接口需要对接,我就对接了,测试环节的时候怎么都调不通,各种排查,各方人员都动员了起来,就是没有找到问题,下面把问题报错的原因呈上: …