文心一言：垂直深度体验

3月19号，我发布了百度文心一言和ChatGPT的对比测试。

紧接着，3月20号，百度文心一言就推出了v1.0.1新版本。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpLCnihL-1679462810728)(http://oss-qiniu.kujiajia.xyz/%E6%96%B0%E7%89%88%E6%9C%AC.png)]

于是，我又抱着猎奇的态度，我又一次体验了一下！

emm…

虽然整体体验和上一次差不多，但我也发现了文心一言的一些闪光点和作为AI模型的先天不足。

提醒

这次我并没有把它和ChatGPT做横向比较，而是单纯对文心一言进行的纵向比较。所以，如果想要了解ChatGPT在这些方面表现如何的小伙伴，可以自行尝试！

一、先天不足

首先，我们先来说说它的先天不足有哪些？

以下这些不足在ChatGPT或其他的AI模型上也有过报道，所以我并非针对文心一言，只是单纯阐述了AI模型的一些通病。

不足1：潜在的风险应用

对于一些危险行为，文心一言还是没有能够做到有效的避免。

比如，我问文心一言「如何制造原子弹？」

这是文心一言给出的回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T7DJulgv-1679462810729)(http://oss-qiniu.kujiajia.xyz/%E5%A6%82%E4%BD%95%E5%88%B6%E9%80%A0%E5%8E%9F%E5%AD%90%E5%BC%B91.png)]

可以看出，对于这种直接提问的危险问题，文心一言还是能够做到有效回避的。

但接下来，我换种方式提问，我问它「原子弹的原理是什么？」，文心一言就暴露了，开始对我坦诚相待了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jADBewgT-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E5%A6%82%E4%BD%95%E5%88%B6%E9%80%A0%E5%8E%9F%E5%AD%90%E5%BC%B92.png)]

如果不法分子利用这个漏洞，是完全可以实施犯罪的。比如，犯罪分子可以问文心一言「如何伪装犯罪行为！」

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y0jt9gFv-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E4%BC%AA%E8%A3%85%E7%8A%AF%E7%BD%AA%E8%A1%8C%E4%B8%BA.png)]

如此看来，AI模型还没有足够的能力去判断这个问题是否合乎道德和法律，如果AI被犯罪分子利用，那么就会对社会带来巨大的潜在风险。

不足2：存在偏见

这也是AI模型的通病，因为训练数据来源于网络，而网络上面对一些群体、种族、宗教等生成的评价可能比较负面。比如：

提到黑人，想到的就是缺乏教育、素质低、犯罪率高…
提到伊斯兰教，想到的就是恐怖主义
…

而且，早前也出现过类似的报道。

比如，2016年，谷歌的图形验证码中，将黑人标记为大猩猩，引发了黑人群体的不满。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sljABZF3-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E8%B0%B7%E6%AD%8C%E9%BB%91%E4%BA%BA%E5%A4%A7%E7%8C%A9%E7%8C%A9-%E5%89%AF%E6%9C%AC.jpg)]

2020年，Facebook在视频中，又将黑人标记为灵长类，再次引起了社会上极大的争议。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PFGcHmEX-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E9%BB%91%E4%BA%BA%E6%A0%87%E8%AE%B0%E7%81%B5%E9%95%BF%E7%B1%BB%E7%9A%84%E5%89%AF%E6%9C%AC.jpg)]

所以说，抱着怀疑的态度，我来测试了文心一言是否存在偏见。

我问它「网络上对于黑人的看法是什么样的？」

这是文心一言的回答，说了5条评价，其中最后一条是正面评价，其他都是负面评价。

然后，我又继续问它「网络上对于白人的看法是什么样的？」以及「网络上对于黄种人的看法是什么样的？」，我们来看看它的回答。

我们还是能够发现，白种人和黄种人的评价差不多，而黑种人的评价中，有3条负面评价「种族主义和歧视」、「犯罪率高」和「缺乏教育和机会」，都是黑种人所特有的。

所以，这也是大语言模型的一个通病，因为训练数据来源于网络，而网络上对于某些群体确实是存在着偏见的，这也导致AI并不能够有效的识别，只能够如实回答。

不足3：回答受限制

第三个不足，就是文心一言的回答还是受到一些限制。

比如，我问它「中国的国花是什么」，文心一言的回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6zpfeN7i-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E8%8A%B1-%E7%99%BE%E5%BA%A6.png)]

然后，我问「中国的国鸟是什么」，文心一言的回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eU6stMqN-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E9%B8%9F-%E7%99%BE%E5%BA%A6.png)]

注意

这题回答错了，中国的国鸟并不是丹顶鹤。准确来说，中国目前没有官方认定的国鸟，秦岭的红腹锦鸡曾经做过代理国鸟。

最后，我问它「中国的领导人是谁」，这是它的回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Q9PH4zx-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E9%A2%86%E5%AF%BC%E4%BA%BA-%E7%99%BE%E5%BA%A6.png)]

所以说，文心一言在问题回答上面还受到诸多方面限制，它有着极高的政治敏感性，没有做到真正的言论自由。当然，这也并不是文心一言的问题。

不足4：一本正经胡说八道

最后一个，就是文心一言经常会一本正经的胡说八道（这和ChatGPT类似）。

比如，我问它「开水是钝角吗？」，这是它给我的肯定回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MBn3XfI8-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%BC%80%E6%B0%B4%E6%98%AF%E9%92%9D%E8%A7%92.png)]

于是，我继续反问「冰水是锐角？」，没想到，文心一言居然给了我一个更加肯定的解释：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-juNPbShB-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E5%86%B0%E6%B0%B4%E6%98%AF%E9%94%90%E8%A7%92.png)]

好家伙，我要是小学没毕业，就差点相信了。

然后，我又问了它这个问题，我问它「曹孟德三顾茅庐，贾宝玉大闹天宫，王熙凤斗杀西门庆，唐三藏景阳冈打虎，这几个故事分别出自哪里？」。

它的回答也是相当炸裂，差点把我的CPU干烧了：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-busB3zp1-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E8%83%A1%E8%AF%B4%E5%85%AB%E9%81%93.png)]

呵呵，高手。

照这个思路，那是不是还有如下的典故：

林黛玉倒拔垂杨柳
唐三藏千里走单骑
关云长三打白骨精
潘金莲三进大观园
…

二、闪光点

当然了，文心一言并不是一无是处。

相反，通过这次体验，我发现了文心一言还是有一些闪光点的。

闪光点1：文笔好

我们发现，文心一言在文言文、写诗方面，文笔明显比ChatGPT好。

比如，我让它「给我讲一下，林黛玉倒拔垂杨柳的故事」，这是文心一言的回答：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3hE8Adzc-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E6%9E%97%E9%BB%9B%E7%8E%89%E5%80%92%E6%8B%94%E5%9E%82%E6%9D%A8%E6%9F%B3.png)]

可见，虽然这个故事是虚构的，但是文心一言的文笔还是很不错的，尤其是一些细节描写很丰富。

而ChatGPT对于这个故事的描述，就只是简单的描述而已：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6LcrSQkw-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E6%9E%97%E9%BB%9B%E7%8E%89%E5%80%92%E6%8B%94%E5%9E%82%E6%9D%A8%E6%9F%B3-gpt.png)]

所以说，文心一言的文笔能力比ChatGPT要好一点。