用挪威门萨(智商测试题)中 35 个问题对chatGPT等人工智能进行了测试:
ChatGPT
对ChatGPT进行了两次挪威门萨测试,在 35 个问题中,它平均答对了 13 个,智商估计为 85。
测试方法
每个人工智能都接受了两次测试,以减少差异。"答对题目数 "指两次测试的平均答对题目数。
虽然挪威门萨协会拒绝对低于 85 分的题目进行评分,但我注意到在这个范围内,每道题的智商值为 3 分。因此,我以此来估算 85 分以下的分数。对于挪威门萨来说,这还不够严谨,但我认为值得一算。要知道,随机猜测得到的分数是 63.5 分--这应该被理解为基线,人工智能只需意识到它被要求选出一个字母,并吐出一个即可。
测试结果
收获 1:Claude-3 令人惊叹--它代表了人工智能的新飞跃
ChatGPT-4 得分智商是 85,这已经给我留下了深刻印象。
Claude-3 的得分让我大吃一惊。
另外,看看它的持续进步:
- 2023 年 3 月发布的Claude-1 几乎比随机答案好不到哪里去。它答对了 6 个答案,智商约为 64。
- 2023 年 7 月发布的Claude-2 每次测试多得 6 分(相当于约 18 点智商),智商约为82。
- 刚发布Claude 3 号又得到了 6.5 分,智商增加了约 19 分,智商约为101分,超过了人类的平均水平。
这种对称增长让我怀疑人类学是否在发布基于内部基准的版本,而这些内部基准恰好与智商指标密切相关。
对当前增长率的简单推断表明,Claude-6 将在大约 4 - 10 年内答对所有智商问题,并且比几乎所有人都聪明。
详细点击标题