文 | 大力财经
今年最热门的话题当属OpenAI发布ChatGPT 3.5版本,全球用户对此纷纷追捧。在国内领域,百度、阿里巴巴、字节跳动、360、腾讯和科大讯飞等厂商纷纷推出大型模型,加入“百模大战”的竞赛。
大模型在自然语言处理领域可以显著提高文本分类、问答系统和机器翻译等任务的性能。然而,训练和部署大型模型需要大量计算资源和时间,因此对其性能和可靠性的评估显得尤为重要。
作为国内最有前途的大语言模型产品之一,科大讯飞星火大模型引起了大力财经的注意。本文将对这款大模型进行评测,为相关研究人员和从业人员提供参考。
从用户体验来看,科大讯飞星火大模型是笔者目前使用过的最好的国产AI语言模型之一。其表现令人惊艳且让人惊讶。
首先,星火大模型的词汇量达到了惊人的亿万级别,使其能够处理各种复杂的语言场景,给出令人满意的回答。而且,它的回答不仅仅是简单的关键词提取,而是完整流畅的句子输出,颇具“真人感”,让人难以相信这些内容是由一个AI模型生成的。
其次,星火大模型的能力非常强大。它不仅能够进行基础任务如文本分类、情感分析、问答系统等,还能进行高级任务如文本生成、翻译和摘要。在文本生成方面,它可以根据用户输入的主题或关键词生成符合要求的文章或段落。在翻译方面,讯飞星火APP支持9种语言文本、语音和图片翻译,完全可以满足用户的日常需求。在摘要方面,它能够自动对一篇文章进行关键内容提取,帮助用户快速获取文章的核心内容。
总之,如果你需要一款强大的AI助手,不妨试试科大讯飞星火大模型。相信它一定不会令你失望。
是不是在担心,自己没法用好这个AI小助手?
很简单!星火大模型的工程师们已经为你写好了各种提示词、预设了各种使用场景。只需要发出指令,你想要的回答便会如期涌现~
讯飞星火认知大模型指令集 https://xinghuo.xfyun.cn/instruction
赶紧用起来!我们在评测大型语言模型时,会考虑以下几个维度:
1.流畅度:生成文本时的流畅度,是否能够快速地响应输入并输出文本。
2.可懂度:输出的文本是否易于理解,是否符合语言习惯,是否存在语法错误等。
3.语感:输出的文本是否具有语感,即是否能够表达出合理的情感色彩和语气。
4.情感表现力:输出文本时是否能够准确地表达出输入文本所包含的情感。
5.韵律控制:在输出文本时是否能够控制韵律和节奏,即是否具有音乐感的文本。
6.场景适用性:是否适用于特定的应用场景,如对话生成、文本分类、问答等。
7.知识准确性:在输出文本时是否具有准确的知识,能够避免出现错误的信息。
8.多语言支持:是否支持多种语言的输入和输出,以及在不同语言上的表现如何。
- 产品布局、内容管理和用户引导:
页面的布局分为了沉浸式和纯净版本。
进入之后的欢迎词,很有亲和力。
您好,我是讯飞星火认知大模型
能够学习和理解人类的语言,进行多轮对话
回答问题,高效便捷地帮助人们获取信息、知识和灵感
百度文心一言的欢迎词,文字较多,人们没有那么多的专注力去阅读。
2.星火大模型给了六个“推荐助手”提示词,在右上角可以进行点换一批,用户体验方面较为人性化,可以持续地点击换一批,一直到自己想要的功能。
3.从布局和内容管理上与ChatGPT类似,但在用户引导上明显胜过一筹,更适合中国刚刚接触GPT产品的普通用户,丰富的业务场景模板让新手更易上手。
星火大模型的问答快速、流畅,且准确。
行文流水,颇有才情,展现了孩童的欢悦,又不乏文化浸润,应该是一篇高分小作文。作为国内的内容服务商,速度是即问即答,没有ChatGPT常见的卡顿。
4.是否具备一定的常识?提问了鲁迅和周树人的问题,回答正确。
这个问题往往是作为区别GPT3.5和4.0的标准测试案例。恭喜讯飞星火,可以说,它在一定程度上拥有了超越3.5的水平。
5.在逻辑和推理方面,提问了一个树上还有几只鸟的问题:
对比chatGPT4.0测了几个类似的话题,答案都基本正确一致,水平不相上下。
6.数学应用题
尚有欠缺,犯了和chatGPT3.5一样的错误,但chatGPT4.0给出了正确的答案。
7.编程能力,请用C语言写编程,
可以说,科大讯飞星火大模型在编程方面和ChatGPT一样出色,会成为程序员的好帮手。
8.语言的泛化能力,比如对古代汉语的理解和表达。
给讯飞星火输入一段古语,它会用现代语言解释,输入“继续”会给你继解答,如果不满意,还可以点击,“重新回答”,即可输出一段新的解答。这一点很人性化,一直回答到你满意为止。
道德经的经典句子:道可道,非常道;名可名,非常名。给进行各个角度的解答,从语言的局限,二元对立,自然法则,无为而治,个人修养的角度进行了解释,还可以限制多少字数的解答。继续多轮对话,请用英文进行解释一下。
星火大模型,在此对话中,秒输出了英文的解答。
9. 写短视频的脚本文案。提示词是:你现在是一个视频创作者,写一个短视频的脚本文案,关键词是如何看待马斯克和比尔盖茨访华的,字数限制在1000字以内。
星火大模型很详细的给了一个视频的拍摄方案,从开场画面的旁白,到画面切换,马斯克的访问上海工厂参观和员工对话,这些细节星火大模型都会自动分析,不用额外输入信息。还有比尔盖茨的清华大学演讲,这个是三年前的日程安排,星火大模型都是知道的。它还展示了高铁、火箭等中国高速发展的代表性元素。可以说,星火大模型的知识储备丰富,写脚本文案很靠谱。
- 语言模型的参数规模和成长性。在问到星火大模型什么时候超过ChatGPT?这个答案算是满意,谁也不得罪。
据官宣,科大讯飞的大模型使用了超过1700亿个参数,这些参数来源于数十亿的语言数据集。这个数量级的数据量可以让模型更好地学习语言规律和模式,从而提高其理解和生成语言的能力。与之相比,ChatGPT-3.5模型拥有1.5万亿个参数,但是覆盖了全球主要语言,汉语不到其中10%的数据量,我们有理由相信,在这个数据基础上,星火大模型比OpenAI“更懂中文”。
在科大讯飞24周年庆上,科大讯飞董事长刘庆峰表示,讯飞不仅要致敬和追赶OpenAI,更要在源头上做自主创新,目前已在类脑智能、神经网络大模型、博弈智能等方面探索通用人工智能的更多潜在路径和前沿交叉研究机会。
咱们也试试让星火参与PPT的制作。
提示词是:你现在是一个营销总监,要对公司的APP进行推广,请写一份PPT大纲。
星火大模型完整地输出了一份营销总监的PPT大纲。按照这份大纲,对应到具体公司具体产品,相信可以很快做出一份执行方案。
- 周末在家里做饭,不知道怎么做菜,可以让星火大模型来进行指导。比如问一个红烧肉的做法。
虽然“适量”让人些许无措,但用量多少在做菜的过程中见仁见智,好在星火大模型提供了烹饪所需的食材和详细步骤。在操作层面,按照这个步骤指导,便可以轻松地完成一道菜。
- 再写一份减肥瘦身计划吧!
提示词是:你现在是我的健身教练,我要瘦身10斤,请给我制定一份减肥计划。
星火大模型化身为我的健身教练,给我制定了12周的减肥计划,写出了具体可执行的运动项目和运动时长。每一周的安排都很详细,很丰富,细化到了各类运动的时长和动作次数,感觉靠谱!
- 再写一个嘉许别人的话,比如孩子考试的成绩这次很好,怎么表扬一下孩子。
在孩子成绩考得很好的情况下,给了我5条嘉许的方式方法。
在孩子成绩考砸了的情况下,关于怎么嘉许和激励孩子,星火大模型给了5条的比较积极的鼓励方法,包括怎么和孩子进行对话、对话的内容范畴。可以说是很具体,很有帮助,很有启发。
15.与国内其他中文大语言模型的横向比较
从真格基金、SuperCLUE的两个测试集来看,讯飞星火在两种评测集合上均在国内第一梯队。附图是真格基金和 SuperCLUE的测试数据。
总结:
作为一个ChatGPT的深度沉迷用户,盼望账户审核已久,好不容易通过了,必须是一顿操作猛如虎,连续几个小时,几个主流模型对照着玩了一遍。
首先,大力财经认为,科大讯飞星火大模型之所以可能成为国内最有可能超过ChatGPT中文效果的天选之子,一方面是因为中科大在理工科方面的强大人才基础和务实精神,另一方面是因为讯飞在中文自然语言处理上的长期耕耘。其次,大模型本身已经不是什么秘密,讯飞星火在中文赛道上凭借其实力和底蕴,一定能够在细节上取得胜利。目前,国内的系列对比测试也明显预示了这一趋势。
评测结果表明,科大讯飞星火大模型在流畅度、可懂度和语感方面均表现出色。相较于以往的模型,科大讯飞星火大模型在这些方面有了显著提升。
portant;">总的来说,科大讯飞星火大模型是一款非常出色的AI语言模型。它的表现让我惊艳,也让我对AI技术在语言领域的应用充满了信心。
来源 科大讯飞星火大模型评测:从职场到日常生活,样样精通-新科技-资讯-头部财经