真假之争?网友点燃讯飞星火质疑热点,我们深度实测给您答案!

【导读】「ChatGPT」之战,科大讯飞星火认知大模型「姗姗来迟」。不过,有没有一种可能,后发先至,走得更远?

最近几天,科大讯飞刚刚发布的星火大模型实火。

各种说法甚嚣尘上,有人吐槽称生成结果太「离谱」,甚至还有人说是它是「套壳」OpenAI的ChatGPT!

对此,星火表示:「和OpenAl没有关系,我是由科大讯飞优秀的人工智能科学家工程师和语言学家等组成的团队自主研发的。」

说实话,对网上流传的一些关于星火套壳的图,并不让人意外。

毕竟通过特定prompt的引导或者直接在线p图,去调教LLM去生成各种「定制」的答案,不是啥难事。

实测:有惊喜但也会「翻车」

既然大家都很好奇星火的实力到底如何,模型又已经开放公测,那不如我们来个现场实录。

先让它用鲁迅的口吻写一段emo的话。

诶?居然很不错。

此外,星火认知大模型在鸡兔同笼等小学数学题上,表现也还是比较亮眼的。

接下来的几道题都一次做对了。一般来说,数学能力一定程度上代表着大模型的智慧水平,讯飞星火确实挺聪明的。

近来,斯坦福最新论文称,大模型的贡献能力竟是海市蜃楼引发了不少争议。简言之,是因为人为修改了「达标」的评价标准,由此给人一种「涌现」的错觉。

对此,星火认知大模型怎么评价?

可以说,回答得比较客观。

偷得浮生半日闲。「gap day」的出现像是车辆的刹车踏板,于是我们问了星火关于「gap day」的问题。

职场人要工作与生活平衡,星火还是很懂「gap day」的。

又到了每年开榴莲的时候,为啥榴莲产量那么高,还要卖的贼贵?

星火认知大模型从生长周期、采摘人力、运输成本等方面分析的头头是道。

话说,不知你是否开到了报恩榴莲。

「翻车」实录

当然,星火除了让人眼前一亮的表现,也有不少翻车的时刻。

比如问问它,「挖呀挖呀挖」是什么梗?

额......翻车了。

实际上,这是一位ID名为「桃子老师」的某短视频APP用户在五一期间上传的一段手指谣儿歌「挖呀挖呀挖」。

在迅速走红之后,不少人都被这首歌的旋律洗脑。

由此,「挖呀挖呀挖」便成为一种流行语,代表着一种朴素、有趣、童真的情感表达。

当然,预训练大语言模型接不住最新的梗,也是意料之中的。

那么,考验知识积累的题,表现又会如何呢?

很遗憾,回答错误。

实际上,这首词出自宋代欧阳修的《生查子·元夕》,讲的是正月十五元宵节。

大意是:「与佳人相约在黄昏之后,在月上柳梢头之时同叙衷肠。」

大模型的通病

对于讯飞星火认知大模型,科大讯飞董事长刘庆峰直言,目前大模型依然存在不少待攻克的技术缺陷。

这些问题具体就包括:

问题1:新知识难以及时更新

问题2:事实类问答容易「张冠李戴」

问题3:史实、传统典籍等容易「编造情节」

不过,这些倒不是「星火」一个模型的问题。

即便是当红炸子鸡ChatGPT,也逃不掉胡言乱语、信息滞后等问题。

在ChatGPT还没联网之前,它的知识是根据过去的数据进行训练和更新的,训练数据截止到了2021年9月。

因自身知识信息无法自更新,对于ChatGPT给的回复无法紧跟时代,也不难理解。

另外,对于大模型「幻觉」问题,OpenAI联合创始人兼研究员John Schulman在一次演讲中曾提到大致可以分为两种类型:

1. 「模式完成行为」,语言模型无法表达自己的不确定性,无法质疑提示中的前提,或者继续之前犯的错误。

2. 模型猜测错误。

其实,语言模型代表一种知识图谱,该图谱将训练数据中的事实存储在自己的网络中。

而微调可以理解为「学习一个函数」,能够在知识图谱上操作并输出token预测。

比如,微调数据集中,如果有包含「星球大战是什么片?」这个问题,以及「科幻」这个答案。

要是这一信息在原始训练数据中存在,那么模型就不会学习新信息,而是学习一种行为——输出答案。而这种微调也被称为「行为克隆」。

如果「星球大战是什么片?」这一问题的答案不是原始训练数据的一部分。即便不知道,模型也会学习正确答案。

但问题是,使用这些不在知识图谱中的答案进行微调,就会让模型学会编造答案,即产生所谓的「幻觉」。

相反,要是用不正确的答案去训练模型,就会导致模型知识网络隐瞒信息。

比如,问它勾三股四弦五是什么?

可见,刚刚提到的这些问题,基本上就是当前许多大模型的通病。

对此,刘庆峰表示,「我们都有非常明确的方法来改进它。」

据称,科大讯飞计划要在6、8、10月节点上升级几个版本:

第一阶段:6月9日,突破开放式问答,多轮对话、数学能力加强;第二阶段:8月15日,代码能力提升,多模态交互能力开放给客户;第三阶段:10月24日,星火在中文通用能力超过ChatGPT,英文能做到相当水平。

网传「套壳」?

现在的大型语言模型,你要是故意去「引导」,就会遇到很多让人「啼笑皆非」的问题。

就比如,当小编让ChatGPT讲一个「曹操三顾茅庐」的故事,ChatGPT还真被带跑偏了。

不过,后来又纠正成了刘备,可能根据已有的训练数据,再次扳回来了。

可以看到,你的prompt引导很重要。要说这类的模型翻车,可能就是我们特定训练的结果。

其实,上面解释到的LLM产生幻觉的原因,就会知道这样答案被生成出来并不意外。

有时,甚至都不需要引导,改一下页面参数即可。

这不,ChatGPT也「承认」自己是谷歌开发的了。

而且吧,按照OpenAI现在这个收费方式,要真是「套壳」的话,说不定能把科大讯飞用到「破产」。(手动狗头)

问题怎么解决

那么如何克服这些缺点,让类ChatGPT模型拥有「无限」知识?

世界万千,每天永无止境的信息流,我们不断用新数据训练大型语言模型也不切实际。

此外,一些还是私密,且无法可访问的数据。

仅仅依靠LLM的训练数据集,来预测特定问题的下一组字符,并不总能得到正确的答案,反而会看到更多「幻觉」问题。

要知道,一旦模型达到了较高的理解水平,用更多的数据训练更大的模型可能不会带来显著的改善。

相反,为LLM提供实时的、相关的数据来进行解释和理解,可以让其发挥更大的价值。

在这一点上,OpenAI推出的代码解释器和插件,便弥补了ChatGPT一些弱点。

那么,如何让大模型的通病得到改善,可以试着从token、矢量存储、提示入手。

众所周知,GPT-4的上下文长度为8k,即最多可以使用提示符总数8192,大约是10页的文本。

正是token的限制,我们无法将几百个大型文档直接放到LLM的提示中,让其从中进行推断。

目前,测试版的GPT-4最大已经支持32k文本长度,token数为32768个,这也意味着上下文直接扩大4倍。

此外,矢量储存有能够为AI创建「记忆」或知识库的能力,可以在人与大模型交互时引用大量文档、历史聊天对话甚至代码。

提示就很好理解了,在对话时,直接告诉模型「如果你不知道答案,就说不知道,不要试图编造一个答案」。

这样做有助于减轻「幻觉」,以防止LLM 在上下文中没有明确提供必要数据时编造答案。

几乎最晚推出

ChatGPT诞生后,在国内外开启了一场大模型竞速赛。

从4月开始,国内大厂依次发布了一系列类ChatGPT大模型。

或许有许多人感到不解:人工智能第一股的科大讯飞,为什么不是最早推出类ChatGPT大模型呢?

的确,从时间节点上看,讯飞是比较晚的。

但,也只是看起来晚。

从讯飞的整个发展过程中来看,大模型仅仅是人工智能历程中的一个阶段。

2014年,讯飞就启动讯飞超脑,一直在进行着认知智能技术的攻关和储备。

面向未来十年,讯飞在2022年提出讯飞超脑2030计划,让机器懂知识、善学习、能进化,让机器人走进每个家庭,解决中国老年社会的问题。

正是长期坚定AI赛道,科大讯飞才能快速打造出技术实力具有优势的国产大模型,并且最有希望在中国率先实现智慧涌现。

为什么科大讯飞的大模型能做到官宣即落地,并且迭代速度如此之快?

去年12月份,讯飞就已经开始筹备大模型的相关工作,能在数个月内,就取得如此快速的进步 ,也是基于深厚的积累。

除此之外,讯飞还通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类481个细分任务类型。这使得讯飞能在科学的评测体系中,脚踏实地、系统地、科学地发展大模型。

所以说,看起来虽然晚,实际上未来可能会走得很远。

已有落地产品

上文说过,跟许多大模型比起来,讯飞星火认知大模型的差异就在于,会更垂一点,其他的大模型发得早,但在接入产品这一块,并不是很完备。但讯飞已有成型的C端和B端落地应用产品。

听见会写

以讯飞听见为例,在星火认知大模型的加持下,讯飞听见不仅可以快速将音频内容转写成文稿,还可以选择不同类型,包括工作待办、工作计划、品宣文案等。

小编找来了科大讯飞当天发布会的部分音频进行了实测,并选择了「新闻稿件」和「工作总结」。

这是就音频,星火给出的「新闻稿件」和「工作总结」。

导入音频后,在转写完成后,还可以选择对内容进行摘要总结、语篇规整,还有内容导出。

全文摘要如下:

在规整结果上,有趣的是,听见还会主动帮你去掉「废话」,甚至有些话还帮忙改写更通顺了。

从产业角度看,大模型+应用,才是大模型商业化的必经之路。

最初,OpenAI在商业化落地上,也是没有明确的具体路径的。

随后,从摩根士丹利让OpenAI定制的专属GPT-4及私有服务器,以及专为金融从头构建的500亿参数大语言模型BloombergGPT都可以看出,不同行业、不同业务场景中,对AI接入应用的需求,都呈现出碎片化、多样化的特点。

明确了大模型+应用的优势,为了进一步提高大模型在细分行业的实用性,科大讯飞选择了采用「1+N」架构。

其中「1」是通用认知智能大模型算法研发及高效训练底座平台,「N」是应用于教育、医疗、人机交互、办公、翻译、工业等多个行业领域的专用大模型版本。

最近的发布会上,科大讯飞已经亮相的「N」,即是首批获「星火」加持的产品矩阵,包括讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智能座舱、讯飞数字员工等应用成果。

由于科大讯飞已拥有智能录音笔、翻译笔、智能办公本、AI学习机等诸多C端产品,将大模型能力下放到这些产品矩阵中,无疑会达到令人深刻的规模效应。

当然,星火能燎原也不能仅靠讯飞一己之力,据了解,讯飞还联合开发者推动大模型应用落地,共建人工智能「星火」生态。

首批来自36个行业的3000余家企业开发者将接入星火大模型,这很有一番春风吹星火的燎原之势,新一轮的产业变革也正因此在蓬勃发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18348.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

传苹果开发ChatGPT类的AI产品;iPhone 15 Pro系列或将涨价;PyTorch 2.0 发布 |极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

Python · 无限画板(零)· 简介

项目 GitHub 地址 免费线上示例产品 该示例产品的源代码 封面图对应的项目的源代码 需求 | 方案 在上一篇文章(用 Python 打造 AIGC 的「操作系统」)里,我提到过这个 Python 无限画板的项目 —— carefree-drawboard 🎨&…

open AI图形生成模型【体验地址+项目源码】

大家都在顾着用ChatGPT玩聊天,但是它不能生成图形,因此这里介绍一款它的图形生成模型。 文章目录 介绍项目地址演示效果项目源码和使用说明 介绍 DALLE 模型采用了一种名为 “Simplified Attention” 的新技术,使得模型可以更好地处理不同模态…

chatgpt赋能python:Python动态画图:提高数据可视化效果的最佳方法

Python动态画图: 提高数据可视化效果的最佳方法 引言 无论是数据分析、科学研究、教育还是商业领域,都需要可视化工具来传达数据。Python 可能是最流行的数据可视化工具之一,其扩展库matplotlib、Seaborn和Bokeh等都能提供强大的绘图能力。但是&#x…

chatgpt赋能Python-python_numpy画图

Python Numpy画图:快速绘制高质量的数据可视化 Python语言不仅在数据科学和人工智能领域得到广泛应用,还被广泛用于数据可视化方面。NumPy是一个Python的科学计算库,提供了高性能的多维数组对象和广播功能,被广泛应用于数据科学、…

chatgpt赋能python:Python画图教程:如何设置画布颜色

Python 画图教程:如何设置画布颜色 Python 是一种高级的编程语言,可以用于多种用途。Python 也是绘制图形和可视化数据的强大工具。在 Python 中,可以使用众多的绘图库来制作各种图形。然而,在进行图形绘制时,有时我们…

chatgpt赋能python:Python画图设置颜色详解

Python画图设置颜色详解 Python拥有非常强大的画图能力,可以使用Python库绘制各种图表。在画图时,设置颜色是非常重要的一个步骤。在本文中,我们将通过介绍Python画图设置颜色的方法和技巧,让您掌握Python画图的颜色设置&#xf…

OPEN AI接入MidJourney 画图支持GPT4中文智能优化效果惊艳

OPEN AI 平台 开放免费AI聚合服务平台,提供应用程序一键接入AI画图,对话的能力。 目前已经支持GPT3和GPT4普通对话和流式对话。 支持GPT画图和MidJourney 画图。 后续还会接入更多功能 在线接入案例演示体验 这里主要展示一下MJ的强大的画图功能 关于平…

传奇新传 1.76原版。

你是否还记得当年的蜈蚣洞,当年的攻城战。传奇新传,再创永恒经典。采用1.76原版设置,没有那么多花里胡哨的东西。让你体验05年真正的传奇,升级快,装备好爆。传奇新传属于耐玩公益服。裙子860708433

为啥计算机考研复试线那么高,2021年为什么考研成绩普遍更高?

复试线400是什么概念? 不是说平均分达到400,平均分400也许你390也能上,但是复试线400就直接给你宣判了死刑,这个时候你只能调剂,但是! 一个专业的复试线400可想而知这个专业热度肯定不低,想调剂…

复旦计算机考研复试要口试吗,复试的正确打开方式|复旦篇

原标题:复试的正确打开方式|复旦篇 初试已经结束,复试还会远吗?今天为你推送的是复旦复试全指南,作为考研的结束站,如何准备复试很关键。报考复旦的小伙伴,要时刻关注【复旦大学新闻学院-招生】和【复旦大学…

对话凯文·凯利:AI 会取代人的 90% 技能,并放大剩余的 10%

采访 | 邹欣,CSDN 副总裁 作者 | 王启隆 责编 | 唐小引 出品 | 《新程序员》编辑部 5000 天后,你都会做些什么? 是和 AI 助手一起编程,还是让生活完全由 AI 掌控,自己坐享其成?如果到时候还要上班&#…

腾讯回应进军类 ChatGPT;Meta 新语言模型能运行在单张显卡上;OpenAI 创始人提出新摩尔定律|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

巴比特 | 元宇宙每日必读:阿里版ChatGPT“通义千问”官宣邀测,科大讯飞大模型将于5月6日发布,中文大模型的竞争开始了?...

摘要:今日,阿里云宣布其大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试。在近日召开的人工智能大模型发展论坛上,科大讯飞副总裁、研究院执行院长刘聪透露:科大讯飞“1N 认知智能大模型”…

元宇宙+教育,正在引发哪些剧烈变革?机会在哪里?丨圆桌实录

图片来源:由无界AI绘画工具生成 2月23日,温州元宇宙创新中心为2023年第一批申请入驻的项目企业举办了签约仪式。温州临境网络科技有限公司、温州好玩文化产业有限公司、温州云兮科技有限公司(筹)等企业完成签约。这意味着&#xf…

聊聊开发者如何抓住ChatGPT这波红利?

因公众号更改推送规则,请点“在看”并加“星标”第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0、2T架构师学习资料干货分 上一篇:ChatGPT研究框架(80页PPT,附下载)…

ChatGPT从入门到精通,引入AIGC时代变更,一站式掌握办公自动化/爬虫/数据分析和可视

课程名称适应人群 ChatGPT从入门到精通,一站式掌握办公自动化/爬虫/数据分析和可视 点击上述名称,学习完整视频 全面AI时代就在转角,道路已经铺好了“局外人”or“先行者”就在此刻等你决定 1、对ChatGPT感兴趣并希望有人手把手教学的新手 …

Notepad2 巧妙替换回车换行符

如上图,利用 \r\n,并选中“对反斜杠“\”进行转义”,将回车换行符替换成逗号。还可利用此法在每一行的前面、后面添加特定的字符。

iOS 键盘回车键(换行、回车符)修改

UITextField 和 UITextView 如图修改键盘 开源地址,可点击查看 UIReturnKeyDefault UIReturnKeyGo UIReturnKeyGoogle UIReturnKeyJoin UIReturnKeyNext UIReturnKeyRoute UIReturnKeySearch UIReturnKeySend 加粗样式 UIReturnKeyDone UIRetur…

[oeasy]python0040_换行与回车的不同_通用换行符_universal_newlines

换行回车 回忆上次内容 区分概念 terminal终端 主机网络中 最终的 端点 TeleTYpewriter 电传打印机终端硬件 shell 终端硬件基础上的 软件壳子 Console 控制台 主机旁边 的 控制面板 存储文件 的 时候 我 在文件里 打了回车\n系统 将0x0a存入字节 进文件换行 自动就有 回车…