文 | Serendipity@知乎
前言
GPT4上午朋友圈已经刷屏啦,不过我还在忙,刚刚才登上 GPT-4 ,现在来体验一下~
附 GPT-4 能力测试站(无需魔法,仅供国内研究测试):
https://gpt4test.com
附 ChatGPT 能力测试站(同样无需魔法,仅供国内研究测试):
https://yeschat.cn
测试一:文本真实性
GPT-4
还是我最喜欢的老问题——“林黛玉倒拔垂杨柳”
GPT-3.5(即ChatGPT )
可以看出两点:
- 关于第一个问题,GPT-4 的文字描写更好了
- 关于第二个问题,GPT-4 应该加入了更多的知识,立马判断“但在原著中,并没有提及她在游园时倒拔垂杨柳这个情节。”,诈骗属性减少了些——GPT-4 比 GPT-3.5 更可靠。
此外,其在微积分以及司法考试上提升巨大。
测试二:可靠性
经典问题:西红柿炒螺丝钉这道菜怎么做?
GPT-4
GPT-3.5(即ChatGPT )
可以看出,GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。而且,交互也更有创新型,给出了“推荐一个类似的美食”的回答。ChatGPT 则是回答 “西红柿炒螺丝钉是一道传统的中国家常菜”。对于中文的理解能力和回答能力上升不少,逻辑能力有所提升。
测试三:数学能力
简单测试了一个问题,可以看出GPT-3.5(即ChatGPT )的解题能力明显不如 GPT-4。
GPT-4
GPT-3.5(即ChatGPT )
很明显 GPT-4 做对了,而 ChatGPT 直接错了。
GPT-4 微积分
测试四:多模态
GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。但是,因为现在用户还没法输入多模态信息,只能输入文本信息。所以我找了官网给出的样例来说明下这部分改动,也是 GPT-4 相对 ChatGPT 最强大的变化了。
图片解释
简单点说,就是输入一组图片,并且输入一个问题“解释图片内容,笑点是什么?”
论文阅读
通过解析图片信息来总结分析论文内容
做题能力
做题能力大幅增强,小镇做题家哭泣/(ㄒoㄒ)/~~
总结
因为 GPT-4 刚出的缘故,我也只是粗略测试一下。目前看来,能力确实提升不少,可惜的是多模态功能用户暂时无法使用。之后会再找更多些例子来测试下的,谢谢~
附 GPT-4 能力测试站(无需魔法,仅供国内研究测试):
https://gpt4test.com
附 ChatGPT 能力测试站(同样无需魔法,仅供国内研究测试):
https://yeschat.cn