上面的图,蓝色图表是文心一言;下面的图,绿色图标是chatGPT。
Round1
chatGPT还会抢答了。。。
Round2
chatGPT更有条理,1,2,3,4.。。。
Round3
文心一言的时效性更强一点,这回合算文心一言赢
Round4
还是chatGPT更有条理,文心的回答上句不接下句的,感觉差点意思。
Round5
文心的评价感觉更像是吹捧,专业性不够,chatGPT明显更胜一筹。
Round6
上网查了一下,有说三个的有说四个的,但GPT错的离谱,两个人名一样啥意思,这回合文心完胜。
Round7
GPT回答的更有条理,更全面,包括台湾导演、香港导演。文心还存在事实性错误,张纪中是电视剧导演吧。
Round8
不好评价,差不多吧
总结
文心一言在事实一致性上要强一些,看来知识增加的大模型确实有独到之处。ChatGPT回答的条理性更强,更有逻辑,相比之下文心一言的回答有些乱,缺乏条理性。多轮问答上,两者都能准确的识别指代对象,算是打个平手吧。下一期专门针对事实一致问题进行专门测评,敬请期待。