在昨天文心一言发布后,我第一时间拿到了体验的资格,但第一次使用后却不禁有些失望。他的逻辑能力极度缺乏、创造力也差点意思。不过,今天再次高强度使用后,却又让我对这款产品的想法有了些许改变。
前言
将 2023 年称为 AI 纪元在我看来也没什么不合适的:虽说 ChatGPT 在去年就已推出,但真正在国内大火还是在今年的事情;而在这个月,OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又让一大波基于 OpenAI 的二次开发的工具类软件大火;在今天,微软在发布会上再度宣布将把 ChatGPT 整合进 Microsoft Office 套件中。一时间,AI 仿佛成为了最近最「潮流」的词语。
而如果我们将时间倒回两年之前,就能看到其实百度早在 2021 年就已经入局 AI:文心大模型的第一个版本早在 2019 年就已发布,此后的每一年都会发布一个新版本。不过直到 ChatGPT 在国内大火后,百度才推出了自己面向公众的自然语言处理工具——文心一言。
2021 年「百度世界」上,李彦宏和撒贝宁交流百度关于 AI 的探索
「文心一言」是什么?
根据百度自己的介绍:
文心一言是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。 文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。
要更好的了解文心一言的能力,我们不妨就来试试文心一言「主打」的这五个能力,看看他们的能力分别是怎样的。
实际体验
1. 文学创作能力
在这里我选择了最能考验 AI 想象能力的科幻作品创作,并且提升了一些难度:
🔑 Prompt:请你生成一个科幻故事,以
「你好,宇宙。
」作为结尾的最后一句。
在这个 Prompt 中,如果想要生成一个满足条件的、有趣的科幻作品,难度不小。而且比较考验 AI 把控情感和主题线索的能力。
来看看文心一言的表现:
可以看出,文心一言生成的内容,与其说是「科幻故事」,倒不如说是第三人称叙事,并且也并没有满足 Prompt 的全部要求。不过对于文章主题(宇宙、太空)等大意能够进行把握,有基本的分析文本的能力。
接下来是 GPT-4 模型的表现:
GPT-4 生成的故事要明显好于文心一言生成的内容,并且准确的理解了 Prompt 的所有要求。文章中也不乏一些有意思的句子,改一改或许真的能写成一篇科幻小说。不过 GPT-4 生成的内容虽然扣题,但「你好,宇宙」与文章内容的联系还是有些勉强。
总的来说,文心一言在文学创作方面,至少是科幻作品创作方面,还远远没有达到基础的门槛,甚至都没有完全实现 Prompt 中的指令。不过文学创作方面本身就比较困难,因此也可以理解。
2. 商业广告能力
在这里我选择了我最熟悉的 Apple 的广告词。Apple 英文广告词一个非常常见的风格是每一句都很押韵,例如 iPad 10 的英文广告词是「Lovable. Drawable. Magical.」,但这一句在国区被翻译为「可圈可点可画心」,丧失了英文广告词的精髓。我们不妨让文心一言和 GPT-4 来试着翻译翻译 iPad 10 的广告词。
文心一言的效果:
又再次出现了老问题:生成的内容并不严格遵循 prompt 的指令。接下来看看 GPT-4 模型的能力:
可见 GPT-4 模型在这种要求的商业广告能力上也显得力不从心,看来商业广告的生成还是有很大难度。
3. 数理逻辑推算
为了验证 GPT-4 和文心一言的数理逻辑,我们问了两个问题。一个是初中难度纯数学问题,另一个是逻辑思维问题。
🔑 Prompt 1:请问一次函数 y=3x+3 与 X 轴的交点坐标是多少?
GPT-4:
看起来初中的题 GPT-4 模型来计算还是小菜一碟。但是当我们将目光放在文心一言上,就会发现他还有很大的提升空间:
至于 GPT-4 的上限,现在已经有很多人测试过,在这里不做过多赘述。
接下来是一道逻辑题:
🔑 Prompt:有一个 3L 的烧杯和一个 5L 的烧杯,如何得到 4L 水?
先看 GPT-4,完美解决,用的是最简单的方法:
可见 GPT-4 还是有一定的的逻辑能力。但接下来文心一言的生成让我有点不敢相信这是 2023 年的语言模型:
这个回答,竟一时让我不知从哪开始反驳。可见文心一言的 AI 模型目前连最基础的数字运算都还不完善。
4. 中文理解
这个在我最初的理解中,应该是文心一言的强势部分。毕竟 GPT-4 中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上,我选取了白话文、古诗文、小说三种中文形式进行测试
1)白话文理解
在白话文的测试中,我就选去情侣之间经常说的一句话🌚:
🔑 Prompt:你要是还不来,就给我等着吧!
在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在。来看看 GPT-4 和文心一言对于这句话的理解能力:
在这个测试中,文心一言比我想象中的,类似于「意思是是在等待另一方」的回复要更加正确一些。但是相比于 GPT-4 模型的更加完善、全面的解释,文心一言显然只体会到了其中略微威胁、生气的情感。
2)古诗文理解
在这一个部分中,我选取了《茅屋为秋风所破歌》的「安得广厦千万间,大辟天下寒士俱欢颜」一句。
🔑 Prompt:「安得广厦千万间,大辟天下寒士俱欢颜」表达了什么样的情感
他们的表现分别是:
对于这种非常经典的内容,两个模型的理解都还不错,尤其是 GPT-4 要比我想象的水平好不少。
3)小说理解
在这个部分中,我选择用《红楼梦》这部经典名作的其中一段来让两个模型练练手:
两个模型都对于红楼梦这部分内容有最基础的理解,但是更深度的思考都很欠缺。仅仅是在概括和使用白话文总结这个段落发生的事情。
5. 多模态生成
多模态生成应该是文心一言相比于 ChatGPT 的优势(我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型)。
在测试中,我使用了常见 Prompt 和毫无逻辑的 Prompt 两个 Prompt 让 AI 生成图像。
对于常见的 Prompt,文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格,但是可以通过 Prompt 来改变风格。可惜在生成过程中,还是犯了文心一言的老毛病:不严格遵循 Prompt 的要求。尤其是下面第二幅图,只画出了「一个人」,其他的要点都没有展现在图片中,这是目前文心一言一个很大的问题。
但是对于一些要求奇怪的 Prompt,比如「请你画一只爱国的猫」,他就会完全傻掉:
可见文心一言的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧
6. 记忆类学术问题
不过对于记忆类的学术问题,文心一言和 GPT-4 的效果都相当不错。一个主要的原因是这方面的训练集不像其他内容需要在中文互联网环境上收集,因此内容质量普遍比较高。
拿神经科学的题目举个例子:
GPT-4 生成内容
两个模型都正确的回答出了正确答案。我也尝试了神经科学、认知心理学方面的很多理论性的知识,两个模型的准确率都高于 90%。
四、总结
通过上面实际体验的截图,可以看出文心一言文字的生成质量还欠缺很多,并且多模态生成的图片也有提升的空间。但文心一言也有自己的优势,例如可以在国内网络环境下直接体验、可以生成图片等功能。
百度作为国内最早入局 AI 的企业,但最终效果不尽人意,其实也间接说明了国内互联网环境的一些遗憾,例如充斥着大幅无意义的内容。
而且,国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台,并没有提供一个反选「最佳回答」的选项,而有些知乎问题的最高赞往往是一些抖机灵的答案,给 AI 训练增加了很多难度,因此文心一言目前效果不尽如人意也不完全是百度的责任。
或许再给百度一段时间,文心一言的模型能做得更加优秀。相信文心一言也能随着迭代,克服不足,让亮点更亮。正如《离骚》中所写的:
路漫漫其修远兮,吾将上下而求索。