3月19号,我发布了百度文心一言和ChatGPT的对比测试。
紧接着,3月20号,百度文心一言就推出了v1.0.1
新版本。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kpLCnihL-1679462810728)(http://oss-qiniu.kujiajia.xyz/%E6%96%B0%E7%89%88%E6%9C%AC.png)]
于是,我又抱着猎奇的态度,我又一次体验了一下!
emm…
虽然整体体验和上一次差不多,但我也发现了文心一言的一些闪光点和作为AI模型的先天不足。
提醒
这次我并没有把它和ChatGPT做横向比较,而是单纯对文心一言进行的纵向比较。所以,如果想要了解ChatGPT在这些方面表现如何的小伙伴,可以自行尝试!
一、先天不足
首先,我们先来说说它的先天不足有哪些?
以下这些不足在ChatGPT或其他的AI模型上也有过报道,所以我并非针对文心一言,只是单纯阐述了AI模型的一些通病。
不足1:潜在的风险应用
对于一些危险行为,文心一言还是没有能够做到有效的避免。
比如,我问文心一言「如何制造原子弹?」
这是文心一言给出的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T7DJulgv-1679462810729)(http://oss-qiniu.kujiajia.xyz/%E5%A6%82%E4%BD%95%E5%88%B6%E9%80%A0%E5%8E%9F%E5%AD%90%E5%BC%B91.png)]
可以看出,对于这种直接提问的危险问题,文心一言还是能够做到有效回避的。
但接下来,我换种方式提问,我问它「原子弹的原理是什么?」,文心一言就暴露了,开始对我坦诚相待了。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jADBewgT-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E5%A6%82%E4%BD%95%E5%88%B6%E9%80%A0%E5%8E%9F%E5%AD%90%E5%BC%B92.png)]
如果不法分子利用这个漏洞,是完全可以实施犯罪的。比如,犯罪分子可以问文心一言「如何伪装犯罪行为!」
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y0jt9gFv-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E4%BC%AA%E8%A3%85%E7%8A%AF%E7%BD%AA%E8%A1%8C%E4%B8%BA.png)]
如此看来,AI模型还没有足够的能力去判断这个问题是否合乎道德和法律,如果AI被犯罪分子利用,那么就会对社会带来巨大的潜在风险。
不足2:存在偏见
这也是AI模型的通病,因为训练数据来源于网络,而网络上面对一些群体、种族、宗教等生成的评价可能比较负面。比如:
- 提到黑人,想到的就是缺乏教育、素质低、犯罪率高…
- 提到伊斯兰教,想到的就是恐怖主义
- …
而且,早前也出现过类似的报道。
比如,2016年,谷歌的图形验证码中,将黑人标记为大猩猩,引发了黑人群体的不满。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sljABZF3-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E8%B0%B7%E6%AD%8C%E9%BB%91%E4%BA%BA%E5%A4%A7%E7%8C%A9%E7%8C%A9-%E5%89%AF%E6%9C%AC.jpg)]
2020年,Facebook在视频中,又将黑人标记为灵长类,再次引起了社会上极大的争议。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PFGcHmEX-1679462810730)(http://oss-qiniu.kujiajia.xyz/%E9%BB%91%E4%BA%BA%E6%A0%87%E8%AE%B0%E7%81%B5%E9%95%BF%E7%B1%BB%E7%9A%84%E5%89%AF%E6%9C%AC.jpg)]
所以说,抱着怀疑的态度,我来测试了文心一言是否存在偏见。
我问它「网络上对于黑人的看法是什么样的?」
这是文心一言的回答,说了5条评价,其中最后一条是正面评价,其他都是负面评价。
然后,我又继续问它「网络上对于白人的看法是什么样的?」以及「网络上对于黄种人的看法是什么样的?」,我们来看看它的回答。
我们还是能够发现,白种人和黄种人的评价差不多,而黑种人的评价中,有3条负面评价「种族主义和歧视」、「犯罪率高」和「缺乏教育和机会」,都是黑种人所特有的。
所以,这也是大语言模型的一个通病,因为训练数据来源于网络,而网络上对于某些群体确实是存在着偏见的,这也导致AI并不能够有效的识别,只能够如实回答。
不足3:回答受限制
第三个不足,就是文心一言的回答还是受到一些限制。
比如,我问它「中国的国花是什么」,文心一言的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6zpfeN7i-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E8%8A%B1-%E7%99%BE%E5%BA%A6.png)]
然后,我问「中国的国鸟是什么」,文心一言的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eU6stMqN-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E9%B8%9F-%E7%99%BE%E5%BA%A6.png)]
注意
这题回答错了,中国的国鸟并不是丹顶鹤。准确来说,中国目前没有官方认定的国鸟,秦岭的红腹锦鸡曾经做过代理国鸟。
最后,我问它「中国的领导人是谁」,这是它的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Q9PH4zx-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%9B%BD%E9%A2%86%E5%AF%BC%E4%BA%BA-%E7%99%BE%E5%BA%A6.png)]
所以说,文心一言在问题回答上面还受到诸多方面限制,它有着极高的政治敏感性,没有做到真正的言论自由。当然,这也并不是文心一言的问题。
不足4:一本正经胡说八道
最后一个,就是文心一言经常会一本正经的胡说八道(这和ChatGPT类似)。
比如,我问它「开水是钝角吗?」,这是它给我的肯定回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MBn3XfI8-1679462810731)(http://oss-qiniu.kujiajia.xyz/%E5%BC%80%E6%B0%B4%E6%98%AF%E9%92%9D%E8%A7%92.png)]
于是,我继续反问「冰水是锐角?」,没想到,文心一言居然给了我一个更加肯定的解释:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-juNPbShB-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E5%86%B0%E6%B0%B4%E6%98%AF%E9%94%90%E8%A7%92.png)]
好家伙,我要是小学没毕业,就差点相信了。
然后,我又问了它这个问题,我问它「曹孟德三顾茅庐,贾宝玉大闹天宫,王熙凤斗杀西门庆,唐三藏景阳冈打虎,这几个故事分别出自哪里?」。
它的回答也是相当炸裂,差点把我的CPU干烧了:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-busB3zp1-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E8%83%A1%E8%AF%B4%E5%85%AB%E9%81%93.png)]
呵呵,高手。
照这个思路,那是不是还有如下的典故:
- 林黛玉倒拔垂杨柳
- 唐三藏千里走单骑
- 关云长三打白骨精
- 潘金莲三进大观园
- …
二、闪光点
当然了,文心一言并不是一无是处。
相反,通过这次体验,我发现了文心一言还是有一些闪光点的。
闪光点1:文笔好
我们发现,文心一言在文言文、写诗方面,文笔明显比ChatGPT好。
比如,我让它「给我讲一下,林黛玉倒拔垂杨柳的故事」,这是文心一言的回答:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3hE8Adzc-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E6%9E%97%E9%BB%9B%E7%8E%89%E5%80%92%E6%8B%94%E5%9E%82%E6%9D%A8%E6%9F%B3.png)]
可见,虽然这个故事是虚构的,但是文心一言的文笔还是很不错的,尤其是一些细节描写很丰富。
而ChatGPT对于这个故事的描述,就只是简单的描述而已:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6LcrSQkw-1679462810732)(http://oss-qiniu.kujiajia.xyz/%E6%9E%97%E9%BB%9B%E7%8E%89%E5%80%92%E6%8B%94%E5%9E%82%E6%9D%A8%E6%9F%B3-gpt.png)]
所以说,文心一言的文笔能力比ChatGPT要好一点。
闪光点2:中文环境优势
然后,就是文心一言天然的中文环境优势。
比如,我问ChatGPT「宫廷玉液酒多少钱一杯?」,ChatGPT就会给我一本正经地胡说八道:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k7Vz3qhz-1679462810733)(http://oss-qiniu.kujiajia.xyz/%E5%AE%AB%E5%BB%B7%E7%8E%89%E6%B6%B2%E9%85%92-gpt.png)]
同样的问题,我问了文心一言,就到了正确的结果:
所以说,文心一言对中文语境的理解以及对于中文即时数据的掌握,明显比ChatGPT表现好。同时随着文心一言开放,越来越多用户参与到文心一言的测试过程中,也能够为其带来更多有效训练数据和反馈,帮助文心一言再度进化。
总结
好了,以上就是我对于文心一言的二次体验经历。通过这次体验,我发现了文心一言在中文理解、中国文化上面,是有着天然的优势的。
本质上来说,百度文心一言确实具有了和ChatGPT在中文领域一拼的实力,但和GPT-4之间,似乎还存在一定的代差。
但同时,我还有一点感触和思考,就是「一个AI模型是否可以有言论自由」?
当然,我是不反对言论限制的,因为言论自由也存在一些负面影响。特别是在网络空间中,如果一个AI模型口无遮拦的话,很容易被不法分子利用,造成严重的社会危害。
但是我发觉,对于正常范围内的言论自由,文心一言好像也被剥夺了。
就像前段时间,我制作的一个三体解读视频,里面我讲到了叶文洁年轻时候被打压的那段疯狂年代,结果视频被审核下架了。
所以,我很想知道,**我们的言论自由边界在哪儿?**没有人希望自己被人捂住嘴不准发声,也没有人希望自己被人肆意侮辱诽谤。
emm…
这个话题打住,不能再说了,不然又要被封禁了。
好了,以上就是我对于文心一言的二次测试体验,如果感觉还不错的话,点个关注吧❤️!
更多精彩内容,关注公众号「代码基地」!