对比体验 ChatGPT,聊聊文心一言的优缺点

在昨天文心一言发布后,我第一时间拿到了体验的资格,但第一次使用后却不禁有些失望。他的逻辑能力极度缺乏、创造力也差点意思。不过,今天再次高强度使用后,却又让我对这款产品的想法有了些许改变。

前言

将 2023 年称为 AI 纪元在我看来也没什么不合适的:虽说 ChatGPT 在去年就已推出,但真正在国内大火还是在今年的事情;而在这个月,OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型,又让一大波基于 OpenAI 的二次开发的工具类软件大火;在今天,微软在发布会上再度宣布将把 ChatGPT 整合进 Microsoft Office 套件中。一时间,AI 仿佛成为了最近最「潮流」的词语。

而如果我们将时间倒回两年之前,就能看到其实百度早在 2021 年就已经入局 AI:文心大模型的第一个版本早在 2019 年就已发布,此后的每一年都会发布一个新版本。不过直到 ChatGPT 在国内大火后,百度才推出了自己面向公众的自然语言处理工具——文心一言。

2021 年「百度世界」上,李彦宏和撒贝宁交流百度关于 AI 的探索

「文心一言」是什么?

根据百度自己的介绍:

文心一言是百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型,基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。 文心一言有五大能力,文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

要更好的了解文心一言的能力,我们不妨就来试试文心一言「主打」的这五个能力,看看他们的能力分别是怎样的。

实际体验

1. 文学创作能力

在这里我选择了最能考验 AI 想象能力的科幻作品创作,并且提升了一些难度:

🔑 Prompt:请你生成一个科幻故事,以你好,宇宙。作为结尾的最后一句。

在这个 Prompt 中,如果想要生成一个满足条件的、有趣的科幻作品,难度不小。而且比较考验 AI 把控情感和主题线索的能力。

来看看文心一言的表现:

可以看出,文心一言生成的内容,与其说是「科幻故事」,倒不如说是第三人称叙事,并且也并没有满足 Prompt 的全部要求。不过对于文章主题(宇宙、太空)等大意能够进行把握,有基本的分析文本的能力。

接下来是 GPT-4 模型的表现:

GPT-4 生成的故事要明显好于文心一言生成的内容,并且准确的理解了 Prompt 的所有要求。文章中也不乏一些有意思的句子,改一改或许真的能写成一篇科幻小说。不过 GPT-4 生成的内容虽然扣题,但「你好,宇宙」与文章内容的联系还是有些勉强。

总的来说,文心一言在文学创作方面,至少是科幻作品创作方面,还远远没有达到基础的门槛,甚至都没有完全实现 Prompt 中的指令。不过文学创作方面本身就比较困难,因此也可以理解。

2. 商业广告能力

在这里我选择了我最熟悉的 Apple 的广告词。Apple 英文广告词一个非常常见的风格是每一句都很押韵,例如 iPad 10 的英文广告词是「Lovable. Drawable. Magical.」,但这一句在国区被翻译为「可圈可点可画心」,丧失了英文广告词的精髓。我们不妨让文心一言和 GPT-4 来试着翻译翻译 iPad 10 的广告词。

文心一言的效果:

又再次出现了老问题:生成的内容并不严格遵循 prompt 的指令。接下来看看 GPT-4 模型的能力:

可见 GPT-4 模型在这种要求的商业广告能力上也显得力不从心,看来商业广告的生成还是有很大难度。

3. 数理逻辑推算

为了验证 GPT-4 和文心一言的数理逻辑,我们问了两个问题。一个是初中难度纯数学问题,另一个是逻辑思维问题。

🔑 Prompt 1:请问一次函数 y=3x+3 与 X 轴的交点坐标是多少?

GPT-4:

看起来初中的题 GPT-4 模型来计算还是小菜一碟。但是当我们将目光放在文心一言上,就会发现他还有很大的提升空间:

至于 GPT-4 的上限,现在已经有很多人测试过,在这里不做过多赘述。

接下来是一道逻辑题:

🔑 Prompt:有一个 3L 的烧杯和一个 5L 的烧杯,如何得到 4L 水?

先看 GPT-4,完美解决,用的是最简单的方法:

可见 GPT-4 还是有一定的的逻辑能力。但接下来文心一言的生成让我有点不敢相信这是 2023 年的语言模型:

这个回答,竟一时让我不知从哪开始反驳。可见文心一言的 AI 模型目前连最基础的数字运算都还不完善。

4. 中文理解

这个在我最初的理解中,应该是文心一言的强势部分。毕竟 GPT-4 中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上,我选取了白话文、古诗文、小说三种中文形式进行测试

1)白话文理解

在白话文的测试中,我就选去情侣之间经常说的一句话🌚:

 🔑 Prompt:你要是还不来,就给我等着吧!

在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在。来看看 GPT-4 和文心一言对于这句话的理解能力:

在这个测试中,文心一言比我想象中的,类似于「意思是是在等待另一方」的回复要更加正确一些。但是相比于 GPT-4 模型的更加完善、全面的解释,文心一言显然只体会到了其中略微威胁、生气的情感。

2)古诗文理解

在这一个部分中,我选取了《茅屋为秋风所破歌》的「安得广厦千万间,大辟天下寒士俱欢颜」一句。

🔑 Prompt:「安得广厦千万间,大辟天下寒士俱欢颜」表达了什么样的情感

他们的表现分别是:

对于这种非常经典的内容,两个模型的理解都还不错,尤其是 GPT-4 要比我想象的水平好不少。

3)小说理解

在这个部分中,我选择用《红楼梦》这部经典名作的其中一段来让两个模型练练手:

两个模型都对于红楼梦这部分内容有最基础的理解,但是更深度的思考都很欠缺。仅仅是在概括和使用白话文总结这个段落发生的事情。

5. 多模态生成

多模态生成应该是文心一言相比于 ChatGPT 的优势(我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型)。

在测试中,我使用了常见 Prompt 和毫无逻辑的 Prompt 两个 Prompt 让 AI 生成图像。

对于常见的 Prompt,文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格,但是可以通过 Prompt 来改变风格。可惜在生成过程中,还是犯了文心一言的老毛病:不严格遵循 Prompt 的要求。尤其是下面第二幅图,只画出了「一个人」,其他的要点都没有展现在图片中,这是目前文心一言一个很大的问题。

但是对于一些要求奇怪的 Prompt,比如「请你画一只爱国的猫」,他就会完全傻掉:

可见文心一言的多模态生成还有很多提升的空间。至少先让生成的画作能严格符合 Prompt 的要求吧

6. 记忆类学术问题

不过对于记忆类的学术问题,文心一言和 GPT-4 的效果都相当不错。一个主要的原因是这方面的训练集不像其他内容需要在中文互联网环境上收集,因此内容质量普遍比较高。

拿神经科学的题目举个例子:

GPT-4 生成内容

两个模型都正确的回答出了正确答案。我也尝试了神经科学、认知心理学方面的很多理论性的知识,两个模型的准确率都高于 90%。

四、总结

通过上面实际体验的截图,可以看出文心一言文字的生成质量还欠缺很多,并且多模态生成的图片也有提升的空间。但文心一言也有自己的优势,例如可以在国内网络环境下直接体验、可以生成图片等功能。

百度作为国内最早入局 AI 的企业,但最终效果不尽人意,其实也间接说明了国内互联网环境的一些遗憾,例如充斥着大幅无意义的内容。

而且,国内互联网很难提供一个合格的训练环境。例如知乎作为国内最大的问答平台,并没有提供一个反选「最佳回答」的选项,而有些知乎问题的最高赞往往是一些抖机灵的答案,给 AI 训练增加了很多难度,因此文心一言目前效果不尽如人意也不完全是百度的责任。

或许再给百度一段时间,文心一言的模型能做得更加优秀。相信文心一言也能随着迭代,克服不足,让亮点更亮。正如《离骚》中所写的:

路漫漫其修远兮,吾将上下而求索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11013.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊 ChatGPT 的逻辑架构与赚钱模式

先讲讲 ChatGPT 这一波 AI 浪潮的技术架构,再聊聊一些已经被市场验证可行的个人盈利模型。 一图胜千言,上图囊括了当下 AI 生成式逻辑,不管哪个产品、框架还是产品都可以找到自己的位置,抽象出来后跟一般的技术架构也没什么两样&a…

ChatGPT-4:恐怖的AI再度进化,可识别图像内容

近日,OpenAI公司发布了一款新的AI技术——ChatGPT-4,它是一种基于自然语言处理的深度学习模型,可以识别图像内容并生成相应的文字描述。ChatGPT-4的发布,标志着人工智能技术再度进化,令人恐惧。 ChatGPT-4是OpenAI公…

ChatGPT再度封号; 英伟达市值暴涨超2000亿美元

🚀 英伟达市值暴涨超2000亿美元,或将成为第一家市值破万亿美元的芯片公司 摘要:英伟达市值在一天内暴涨超2000亿美元,即将成为第一家市值破万亿美元的芯片公司。这一涨幅创下历史最大单日涨幅纪录, 背后原因是英伟达…

百川智能发布开源中英文大模型;GitHub调查显示92%的程序员使用AI编码工具;第一季度中国云服务支出增长6%丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 百川智能发布开源中英文大模型 6月15日,百川智能公司推出了70亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B在C-Eval、AGIEval和Gaokao中文权威评测榜单上,超过了ChatGLM-6…

谷歌地图推出、暴雪公司成立 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 8 日,在 1999 年的今天,中国少年科学院成立。24 年前,来自北京、上海、江苏等地的 13 名少年科技爱好者从领导和专家的…

谁是全球芯片行业的“麒麟才子”?得之可得天下!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 自从半导体技术问世以来,美国一直是该行业的领先者。它在设计、制造和市场营销方面拥有深厚的技术和经验,在全球芯片市场中占据着重要地位。与此同时,中国在过去几十年里取得了巨大的发展…

3秒即可克隆人声,母亲险些被AI“女儿”诈骗100万美元!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 破防了,接到“女儿”的求救电话,竟不能相信自己的耳朵! 今年年初,美国亚利桑那州的 Jennifer DeStefano 就遇到了“耳听为虚”的骗局。 据…

GPT-4 挑战当老板,目标:用 100 美元生成 100000 美元!

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 几周之前,品牌设计师兼作家 Jackson Greathouse Fall 的 Twitter 粉丝还不到 4000 人。 现如今,他已拥有 10.8 万的粉丝量,迅速吸粉的背后只因为他突发奇想——“我准…

GPT-4 已经可以独立创业了,感觉自己在追剧,一个人就是一家公司

Datawhale干货 编辑:大数据文摘,来源:CSDNnews 几周之前,品牌设计师兼作家 Jackson Greathouse Fall 的 Twitter 粉丝还不到 4000 人。 现如今,他已拥有 10.8 万的粉丝量,迅速吸粉的背后只因为他突发奇想—…

AI独立开发者:一周涨粉8万赚2W美元;推特#HustleGPT GPT-4创业挑战;即刻#AIHackathon创业者在行动 | ShowMeAI周刊

👀日报&周刊合辑 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 这是ShowMeAI周刊的第7期。聚焦AI领域本周热点,及其在各圈层泛起的涟漪;拆解AI独立开发者的盈利案例,关注中美AIG…

一步一步把废旧的电脑变成一个高端的路由器,可优雅的访问最火的chatgpt,包含详细过程及快捷脚本(一)

一步一步把废旧的电脑变成一个高端的路由器,可优雅的访问最火的chatgpt,包含详细过程及快捷脚本。 1、准备 这里的电脑可以是笔记本电脑或者台式电脑,台式电脑如果没有无线网卡,可以自己到网上买一个外接无线网卡,USB接口的那种,大概30米左右,这样用起来更方便。之后通…

ChatGPT-4下周要来了

昨天的一则新闻引起了轰动,微软德国首席技术官 Andreas Braun 在最近一次名为“AI in Focus — Digital Kickoff”的活动中透露了这一消息。根据 Braun 的说法,“我们将在下周推出 GPT-4……我们将拥有多模态模型,它们将提供完全不同的可能性…

1月22号

https://acs.jxnu.edu.cn/problem/ICPCJX2020J 分离游戏 描述 爱丽丝和鲍勃喜欢切纸,但是他们只有一张新纸,他们都想要,但是他们不愿切开这张纸,所以他们决定通过游戏决定纸归属,爱丽丝找到了一张有N*M个网格的久方形…

苹果头显这把火,能点亮元宇宙暗夜吗?

编辑I王靖 撰文|赵晋杰 接任乔布斯12年后,库克终于迎来了真正属于自己的One more thing时刻,寄希望于用MR(增强现实)开启后iPhone时代。 在6月6日凌晨的苹果全球开发者大会(WWDC)上,这款MR设备被…

独家专访BlockCity区块城市徐志翔:DAO是未来元宇宙的核心

转载说明: 最近随着ChatGPT的出圈,整个AIGC领域倍受关注,唱衰媒体人的声音也开始不绝于耳,但看到这样有质量的长文,我想也不是每个媒体人都将会被AI替代吧。 本文来自前瞻《元宇宙观察》专栏记者采访,作…

穷途末路的阿里中台

观点| Mr.K 主笔| Wendy.L 来源| 技术领导力(ID:jishulingdaoli) 对于关注K哥公众号多年的朋友来说,“中台”早就是老生常谈的东西了,如果你还不知道它是什么,可以看看之前的中台文章先恶补一下。 关于中台,这些年翻…

审视HR SaaS:谁在成为中国的 “IBM+ Workday”?

在国内的商业环境下,未来,梳理流程等咨询管理能力,或将成为HR SaaS厂商的重要竞争力,国内HR SaaS在“IBM Workday”的模式下,或将迎来新一轮增长。 作者|斗斗 编辑|皮爷 出品|产业家 2023年,HR SaaS 正式…

阿里云回应裁员7%,只是正常岗位优化;Bing将成为OpenAI默认搜索引擎;​nginx 1.25.0发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

张一鸣布局AI大模型,字节跳动能否领跑百模大战?

字节跳动创始人张一鸣在卸任CEO两年后,选择在香港成立了一个个人投资基金,主要聚焦科技投资,尤其是AI领域。他对AI大模型有着浓厚的兴趣和热情,曾经公开发表表示字节跳动无法错过AGI,并且熬夜看OpenAI的论文。字节跳动…

我的ChatGPT学习笔记002

大家好啊,我是了不起! 前一段时间ChatGPT突然火爆,大佬们纷纷下场。我也跟着努力学习,做了一些笔记。 下面将陆续放出笔记,共享给小伙伴们!这是放出的第二篇,和小伙伴们与时俱进哈~~ 笔记二&…