随着文心一言、通义千问等国内顶尖级ChatGPT大模型相继问世,具有语言理解和生成能力的人工智能正在引领行业创新发展。作为人工智能公司中的佼佼者,科大讯飞也开始加入到这场竞争中来。
4月20日,科大讯飞宣布即将于5月6日正式发布其最新的“星火”认知大模型,并在当晚的业绩说明会上详细披露了该模型的最新进展。此举引起了全行业的高度关注。据悉,“星火”围绕着“知识问答、代码编程、数理推算、创意联想、语言翻译”等一系列实用场景展开研发,在海量文本、代码和知识学习的基础上,可以实现在自然对话方式下的用户需求理解与任务执行。
而就在几天后,科大讯飞“星火”认知大模型开启内测通道,我也是有幸拿到内测名额,下面我来实测,中国版ChatGPT“星火”,到底会有什么样的体验呢?
首先,如何体验内测大模型呢?
1.通过多御浏览器搜索“科大讯飞”,直接进入体验页面,这样对于我来说是比较方便的。
2.可以输入网站(https://xinghuo.xfyun.cn/)进入官方网站。
奥数题测试:
我特地找了很多道奥数题来测试,包括最火的鸡兔同笼的问题。它的反应极快,解题思路非常清晰,整个计算过程全面展示,这样快速的反应对比于很多搜题软件真的快得太多了。
写作能力测试:
“写作能力”是大模型必备得一项基本能力,由于最近宝马mini冰淇淋事件在网络上被网友们谴责,我针对这件事向它提问有关问题,它回答得很规范,并且能够全面了解到这件事的始末,还能够进一步帮助我细化问题。文本写作能力较强,整个过程下来体系完整。
不过,在某写作品的完成度还是有待加强的,比如我要求它写出一首表达奶茶超好喝的七言律诗,虽然他能够按照标准的格式写出来,但是其中的韵律并不能称得上是真正的诗人。
日常问题测试:
我提问了一些生活中的问题,比如“如何做一份鱼香肉丝”、“洗洁精能够用来洗水果吗”,星火给出的答案不仅列出了详细的步骤和方法,还“贴心”地附加了各种提醒,结构十分完整。
此外,我还特地问了下“关于男/女性需不需要做家务”这件事,他回答得很中肯,在性别问题上它的立场是尊重男女平等的,并没有制造性别对立的逻辑。
代码问题测试:
和ChatGPT一样,“星火”也可以生成代码,如下图所示生成的“淄博美食”爬虫程序。至于能否运行,还得专业的技术人员来评判一下哈哈哈
逻辑问题测试:
使用过国内几个AI,它们在推理逻辑问题上是比较容易翻车的,但是让我意外的是,星火大模型的表现还是不错的,并没有被问题绕进去。
网络热梗问题测试:
最后,我决定针对“星火”询问较为新鲜的网络热梗,看其是否能够回答。
我发现面对一些网络中的“梗词”,“星火”还不能很好地理解。但是等五月正式发布时迭代得应该会修复这类问题。
通过一系列测评,我发现“星火”大模型的整体表现非常优秀。特别是在日常应用和学习工作中,“星火”表现十分稳定,展现了出色的性能和潜力,为国产大模型领域注入了新鲜血液。
值得期待的是,“星火”将于5月6日正式发布,这无疑会给众多日常用户带来更加惊喜的使用体验。作为行业的“新军”,“星火”大模型拥有着巨大的潜力和前景,将助力推动人工智能技术的应用与发展。相信未来,“星火”将成为用户不可或缺、信赖的智能助手和伙伴。