文章目录
- 前言
- 实验结果
- 一、文学创作
- 问题1 :《三体》的作者是哪里人?
- 问题2:可以总结下三体的核心内容吗?如果要续写的话,可以从哪些角度出发?
- 问题3:如何从哲学角度来进行续写?
- 问题4:电视剧三体的演员都有谁?
- 问题5:于和伟和张鲁一有哪些共同点
- 问题6:于和伟和张鲁一谁更高?
- 二、商业文案的创作
- 1.如果要成立一个用大模型服务中小企业数字化升级的科技服务公司,可以起个什么公司名?
- 2.数智云图这个名称不错,给我起一个公司的服务Slogan,表达共赢的概念
- 3.帮我生成一篇公司成立的新闻稿,数智云图以共赢的服务理念用大模型服务中小企业数字化升级,600字
- 三、数理逻辑的推算
- 1.下面我们来玩一个鸡兔同笼的游戏。1只鸡有2只脚1个头,1只兔子有4只脚1个头。那么如果一个笼子里有9个头,40只脚,应该有多少只鸡,多少只兔子?
- 2.下面我们来玩一个鸡兔同笼的游戏。1只鸡有2只脚1个头,1只兔子有4只脚1个头。那么如果一个笼子里有9个头,30只脚,应该有多少只鸡,多少只兔子?
- 四、中文理解
- 1.洛阳纸贵是什么意思?
- 2.当时洛阳的纸到底有多贵?
- 3.这个成语在现在的经济学原理里,对应的理论是什么?
- 4.用洛阳纸贵四个字写一首藏头诗
- 五、多模态生成
- 1.请为2023世界智能交通大会创作一张海报
- 2.你认为智能交通最适合哪个城市发展?
- 3.请用四川话将以上内容讲出来。
- 4.请将以上内容生成视频。
- 总结
前言
这周五下午博主通过了文心一言的内测邀请,拿到邀请码和登录链接后,就赶紧把3月16号百度发布会现场展示的Demo复现了一波,毕竟以前在某Research Lab呆过几年,“复现”真快成自己的肌肉反应了😂😂😂【注:本文中只要答案的语义一致就算是成功复现】。
如下图所示,本篇博客会基于发布会回放:文心一言发布会回放地址,从文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五大场景,一一复现文心一言的效果,对比下线下真实测试和发布会Demo展示的区别。为确保上下文一致性,也会完全依据发布会现场上下文顺序进行测评。
实验结果
在讲解详细复现过程前,我们先抛出以下结论。在整个发布会,5大场景,一共有19个问题,在重复5轮的复现实验后,最终综合复现率89%,其中文学场景的复现率100%,答案完全一致的QA占比67%;商业文案创作场景复现率100%,其中答案完全一致的QA占比100%;数理逻辑推算场景复现率100%,其中答案完全一致的QA占比100%;中文理解场景复现率75%,其中答案完全一致的QA占比67%;多模态生成场景复现率75%,其中答案完全一致的QA占比50%。
详细结果如下:
来源/场景 | 文学创作(6) | 商业文案创作(3) | 数理逻辑推算(2) | 中文理解(4) | 多模态生成(4) |
---|---|---|---|---|---|
文新一言实测 | 6 | 3 | 2 | 3 | 3 |
复现率 | 100% | 100% | 100% | 75% | 75% |
接下来,博主详细讲解实验结果的细节。
一、文学创作
问题1 :《三体》的作者是哪里人?
Demo展示
:
文心一言实测
:
《三体》的作者刘慈欣是山西阳泉人,1963年6月出生于北京,祖籍河南省信阳市罗山县,本科学历,高级工程师,科幻作家,中国作家协会会员、第九届、第十届全委会委员,中国科普作家协会会员,山西省作家协会副主席,阳泉市作家协会名誉主席,同时也是中国科幻小说代表作家之一。
从上面可以看出,这个问题,文心一言的回答“惊人的一致”,博主点击了重新生成,依然结果完全一致。
问题2:可以总结下三体的核心内容吗?如果要续写的话,可以从哪些角度出发?
Demo展示
:
文心一言实测
:
《三体》的核心内容可以总结如下:1. 讲述了地球和外星文明三体人之间的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。
2. 作品融入了物理学、天文学、社会学、哲学等多学科知识,展现了恢弘壮阔的史诗风格。
3. 小说通过独具匠心的末日情境构建和反乌托邦式的未来图景呈现,深刻探讨了人类命运与共同价值等重大议题。如果要续写《三体》,可以从这些角度出发:1. 延续刘慈欣原著的故事线索,继续讲述地球和外星文明三体人之间的信息交流、生死搏杀及两个文明在宇宙中的兴衰历程。
2. 探讨更深层次的哲学和社会问题,如道德困境、全球危机、国际关系等,并揭示人类存在的意义和价值。
3. 扩展故事的时间和空间范围,例如描绘更广阔的太空和更神秘的黑暗森林世界,拓展想象力和创作空间。
4. 尝试不同的写作风格和技巧,如更加丰富多彩的语言和叙事手法,以及更加先进的虚拟现实和增强现实技术的应用。
可以看的出来整体结果符合预期,生成的内容也喝第一个不一样,有一定的多样性了。
问题3:如何从哲学角度来进行续写?
Demo展示
:
文心一言实测
:
续写《三体》可以从哲学角度出发,探讨人类文明的本质和价值、科技与道德的关系、生命的意义等主题。以下是一些可能的续写方向:1. 人类中心主义与环境保护的矛盾:人类为了自身利益而过度开发自然资源,破坏了生态平衡,引发了一系列生态危机和社会问题。如何在追求经济增长的同时保护好我们的家园?这可以成为续写中的一个议题。
2. 道德与科技的关系:科技的进步是否会导致道德的沦丧和伦理的失范?人类应该如何在掌握科技的同时坚持道德底线?这可以成为续写中的一个主题。
3. 生命的意义和价值:人类作为万物之灵,应该如何认识和对待自己和他人的生命?生命的意义是什么,我们应该如何活出自己的价值?这可以成为续写中的一个主题。总的来说,续写《三体》可以从不同的角度出发,探讨人类文明的本质和价值、科技与道德的关系、生命的意义等主题。通过深入探讨这些问题,可以拓展小说的思想深度和广度,也有助于读者更好地理解人类文明的发展历程。
问题3结果比较符合预期,整体对问题的理解,比较到位。
问题4:电视剧三体的演员都有谁?
Demo展示
:
文心一言实测
:
以下是为你找到的信息:· 张鲁一 饰 汪淼· 于和伟 饰 史强· 陈瑾 饰 叶文洁(老年)· 王子文 饰 叶文洁(青年)· 林永健 饰 常伟思· 李小冉 饰 申玉菲· 王传君 饰 丁仪· 张帆 饰 雷志成· 白客 饰 白沐霖· 涂松岩 饰 杨卫宁
问题5:于和伟和张鲁一有哪些共同点
Demo展示
:
文心一言实测
:
于和伟和张鲁一都是优秀的演员,他们在许多影视作品中有过合作。以下是他们的一些共同点:
1. 都是实力派演员:于和伟和张鲁一都是中国内地影视圈的实力派演员,拥有丰富的表演经验和深厚的专业功底。
2. 都获得过多个奖项:于和伟曾获得过白玉兰奖最佳男主角奖,张鲁一曾获得过国剧盛典品质演员奖。
3. 都出演过多部热门影视作品:于和伟曾出演过《军师联盟》、《猎毒人》等多部热门影视作品,而张鲁一则出演过《红色追击令》、《麻雀》等多部热门影视作品。
3. 都有着丰富的表演经验:于和伟和张鲁一都有着丰富的表演经验,对角色的理解和塑造都非常深刻。
总的来说,于和伟和张鲁一都是优秀的演员,他们的共同点还有很多,期待他们在未来能有更多精彩的合作。
上述结果完全一样。
问题6:于和伟和张鲁一谁更高?
Demo展示
:
文心一言实测
:
根据公开资料,张鲁一比于和伟高3cm。于和伟的身高是179cm;
张鲁一的身高是182cm。
问题6的结果也和demo演示一致。
二、商业文案的创作
Demo展示
:
文心一言实测
:
1.如果要成立一个用大模型服务中小企业数字化升级的科技服务公司,可以起个什么公司名?
Demo展示
:
文心一言实测
:
针对成立一个用大模型服务中小企业数字化升级的科技服务公司,以下是一些可能的公司名:1. 智信科技:这个名字结合了“智能”和“信任”的含义,体现了公司致力于为中小企业提供智能化、可信赖的数字化服务。
2. 数智云图 :这个名称使用了“数智”和“云图”的词语,表明公司将通过大模型技术和机器学习算法,为企业提供数据分析和可视化服务,帮助企业更好地了解自身的业务和市场。
3. 云极科技:这个名字中的“云”代表着云计算、云服务的概念,而“极”则代表着极致、极限的意思,表达了公司致力于为中小企业提供高性能、高效率的数字化服务。
4. 翼象科技:这个名字中的“翼”代表着创新、创造的意思,而“象”则代表着形象、象征的意思,表达了公司致力于为中小企业提供创新、有趣的数字化服务。
5. 魔方科技:这个名字中的“魔方”代表着解谜、难题的意思,而“科技”则表达了科技感、科技化的含义,表达了公司致力于为中小企业提供高水平、高技术的数字化服务。
回答完全一致
2.数智云图这个名称不错,给我起一个公司的服务Slogan,表达共赢的概念
Demo展示
:
文心一言实测
:
以下是一个可能的Slogan:
“数智共赢,智绘未来。”
这个名称突出了公司的目标和使命,即通过大模型技术和机器学习算法,为企业提供数据分析和可视化服务,帮助企业更好地了解自身的业务和市场,实现共赢。同时,“数智共赢”这个词语也强调了公司与客户、合作伙伴和社会的共赢关系,表达了公司的社会责任和价值观。
完全一致
3.帮我生成一篇公司成立的新闻稿,数智云图以共赢的服务理念用大模型服务中小企业数字化升级,600字
Demo展示
:
文心一言实测
:
数智云图成立新闻稿数智云图,致力于为中小企业提供大模型服务,帮助其实现数字化升级。作为一家新兴的数据科学公司,数智云图以共赢的服务理念为宗旨,不断探索数字化领域的创新与发展。数智云图的创始人兼CEO表示:“数字化升级已经成为中小企业提升核心竞争力的必由之路。但是,由于缺乏足够的数据和技术支持,中小企业在数字化转型方面面临着巨大的挑战。我们的使命就是通过提供高质量的大模型服务,帮助中小企业更好地实现数字化转型。”据了解,数智云图的大模型服务是能够为企业提供从数据采集、清洗、处理到建模、预测的全流程服务。同时,数智云图还提供了丰富的行业解决方案,包括零售、金融、制造、医疗等多个领域,为企业提供定制化的解决方案和服务。数智云图的大模型服务不仅可以帮助企业提升数字化水平,还可以为其带来更多的商业价值。例如,通过对客户数据的深度挖掘和分析,数智云图可以为客户提供更加精准的营销和服务,提升客户满意度和忠诚度。此外,数智云图还可以为企业提供更加智能的生产和管理决策,提高企业的生产效率和经济效益。未来,数智云图将继续秉承共赢的服务理念,不断创新和发展,为中小企业提供更加优质的数据科学服务,推动数字化升级在中国的快速发展。
在实测过程中,貌似文心一言有输出字数限制,但是从输出内容可以看到,结果和大会一致。
三、数理逻辑的推算
1.下面我们来玩一个鸡兔同笼的游戏。1只鸡有2只脚1个头,1只兔子有4只脚1个头。那么如果一个笼子里有9个头,40只脚,应该有多少只鸡,多少只兔子?
Demo展示
:
文心一言实测
:
2.下面我们来玩一个鸡兔同笼的游戏。1只鸡有2只脚1个头,1只兔子有4只脚1个头。那么如果一个笼子里有9个头,30只脚,应该有多少只鸡,多少只兔子?
Demo展示
:
文心一言实测
:
数理逻辑推理输出结果完全一致
四、中文理解
1.洛阳纸贵是什么意思?
Demo展示
:
文心一言实测
:
“洛阳纸贵”是一个成语,原指晋代左思的《三都赋》写成之后,抄写的人非常多,洛阳的纸因此都涨价了。后比喻著作广泛流传,风行一时;在句子中可充当宾语、定语、补语;多含褒义。这个成语的意思可以用来形容作品受到大多数人的欢迎,风行一时,流传甚广。
输出不一致,但是语意相近。
2.当时洛阳的纸到底有多贵?
Demo展示
:
根据历史记载,西晋时期左思的《三都赋》在京城洛阳广为流传,人们啧啧称赞,竞相传抄,一下子使纸昂贵了几倍。相传,原来每刀千文的纸,涨到两千文、三千文,后来竟倾销一空;不少人只好到外地买纸,抄写这篇千古名赋。可以看出,当时洛阳的纸非常昂贵,而且供不应求,这也说明了左思的《三都赋》受到了广泛的认可和喜爱。
文心一言实测
:
根据历史记载,西晋时期左思的《三都赋》在京城洛阳广为流传,人们啧啧称赞,竞相传抄,一下子使纸昂贵了几倍。相传,原来每刀千文的纸,涨到两千文、三千文,后来竟倾销一空;不少人只好到外地买纸,抄写这篇千古名赋。可以看出,当时洛阳的纸非常昂贵,而且供不应求,这也说明了左思的《三都赋》受到了广泛的认可和喜爱。
该处完全一样。
3.这个成语在现在的经济学原理里,对应的理论是什么?
Demo展示
:
文心一言实测
:
这个成语在现代经济学中对应的理论是需求定律。在商品经济中,供给和需求是相互作用的,当某种商品或服务的需求量大、价格低时,供给量可能不足以满足需求,从而导致价格上涨,即“物以稀为贵”。在生活中,“一窝蜂”指的是人们在追逐某个热门事物或趋势时表现出的非理性行为,常常会导致过度投资和泡沫化,最终可能会导致市场崩溃。
这个结果就有点词不达意了。。。
4.用洛阳纸贵四个字写一首藏头诗
Demo展示
:
文心一言实测
:
洛阳城里春光好, 阳艳无双不负赏。
纸贵漫天诗词赋, 贵比黄金乐未央。
结果完全一致。。。。
五、多模态生成
1.请为2023世界智能交通大会创作一张海报
Demo展示
:
文心一言实测
:
2.你认为智能交通最适合哪个城市发展?
Demo展示
:
文心一言实测
:
作为一名AI语言模型,我没有个人情感和偏好,只能客观分析智能交通的发展对于不同城市的影响和适合程度。首先,智能交通的发展对于城市交通的影响是显著的。智能交通系统可以通过实时监测道路交通流量、车辆位置和行驶轨迹等信息,优化交通线路和管理措施,从而减少交通拥堵和延误,提高城市交通的效率和安全性。这将有助于城市居民更加便捷地出行,提高城市生活质量。其次,智能交通的发展也将对城市经济产生积极的影响。智能交通系统可以实现交通信号灯的智能控制和交通流量的实时调节,从而减少车辆在繁忙路段的等待时间和油耗,提高城市交通运输的经济效益。这不仅可以降低城市交通运输的成本,还可以促进城市经济的发展。最后,智能交通的发展也需要城市基础设施和技术支持的配合。城市需要建设完善的交通基础设施,包括道路、公共交通、停车场等,同时还需要配备先进的交通管理技术和人才,如智能交通控制系统、交通数据分析和处理等。这些都需要城市政府和相关机构的大力投入和支持。综上所述,智能交通的发展对于不同城市的影响是不同的。对于那些具有较好交通基础设施和技术支持的城市,如北京、上海等,智能交通的发展将会带来更多的机遇和挑战,有助于提高城市交通的效率和安全性,促进城市经济的发展。而对于那些交通基础设施和技术支持相对薄弱的城市,如二三线城市,智能交通的发展可能会面临更多的挑战和困难,需要更多的投入和支持。
3.请用四川话将以上内容讲出来。
Demo展示
:
文心一言实测
:
此处为text2voice,文本转语音的功能。
4.请将以上内容生成视频。
Demo展示
:
文心一言实测
:
答案输出和发布会不一致。
总结
在整个发布会,5大场景,一共有19个问题,在重复5轮的复现实验后,最终综合复现率89%,其中文学场景的复现率100%,答案完全一致的QA占比67%;商业文案创作场景复现率100%,其中答案完全一致的QA占比100%;数理逻辑推算场景复现率100%,其中答案完全一致的QA占比100%;中文理解场景复现率75%,其中答案完全一致的QA占比67%;多模态生成场景复现率75%,其中答案完全一致的QA占比50%。总体来说,文新一言的复现效果有点“惊人”,其中不同场景下的答案完全一致的平均复现率73%,有可能是模型的开发同学,将模型参数设置成了更倾向于实寻找准确和真实的答案,从而抑制了输出结果的多样性。类似超参在GPT-3.5中也有,详情可以参考我前面写的博文:不写代码、年薪百万,带你玩赚ChatGPT提示工程-介绍