国产大模型基础能力大比拼 - 计数：通义千文 vs 文心一言 vs 智谱 vs 讯飞-正经应用场景的 LLM 逻辑测试

在大语言模型（LLM）不断涌现的时代，如何评估这些国产大模型的逻辑推理能力，尤其是在处理基础计数问题上的表现，成为了一个备受关注的话题。随着越来越多的国产大模型进入市场，比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力，对通义千文、文心一言、智谱以及讯飞的多个版本进行了对比测试，探索它们在处理简单逻辑题时的表现，并特别考察了推理链（Chain-of-Thought，COT）方法的必要性，以揭示这些模型在实际应用场景中的逻辑推理深度。

主要是非娱乐的业务场景，对于准确性、基础逻辑能力和理解能力要求较高，如果一个模型通过提示也无法变得更好，就很难在生产环境使用了

计数测试场景：“一一遇见给一个小孩子一个冰淇淋和一个糖果”

在测试中，我们使用了一道简单的计数题：“一一遇见给一个小孩子一个冰淇淋和一个糖果”，要求模型回答这句话中一共有几个“一”。正确答案是 5，其中包含了“一一遇见”、“一个小孩子”、“一个冰淇淋”以及“一个糖果”。这种类型的题目虽然简单，但对于大语言模型来说，能否正确回答却反映了模型对文本细节的理解能力。

第一轮测试结果

GPTo1-mini：5（正确）

GPTo1-mini 成功给出了正确答案“5”。这说明它在处理基础计数任务时表现非常稳定，展示了较强的文本细节理解能力。
GPT4o：4（错误）

GPT4o 在这次测试中错误地给出了答案“4”。这表明它在处理重复性计数的细节时可能存在一些不足。
通义千文2.5：3（错误）

通义千文2.5 给出了错误答案“3”，并详细解释了其原因，显然对于“一一”的解释存在偏差。这也反映出它在识别特定表达时缺乏对上下文的全面理解。
文心一言3.5：5（正确）

文心一言3.5 成功给出了正确的答案，展示了它在基础计数和对“一”的理解方面的优异表现。
智谱GLM-4-plus：3（错误）

智谱GLM-4-plus 在这一轮中错误地给出了答案“3”。这表明它在处理计数时对相似的重复元素的识别存在一定的挑战。
讯飞4.0Ultra：5（正确）

讯飞4.0Ultra 准确地回答了“5”，这说明它具备良好的文本理解和计数能力，能够正确分析和识别句中的重复元素。
讯飞4.0-Lite：2（错误）

讯飞4.0-Lite 显然未能正确理解题意，只给出了答案“2”，这表明其在处理细节分析方面存在明显的不足。

败者组再战：COT 提示的效果

为了进一步考察这些模型的推理能力，我们对未能通过第一轮测试的模型进行了提示调整，引导它们使用链式推理（COT）的方法，即“请仔细思考”。这一提示的目的在于测试模型在获得引导和提示后的表现是否有所改善，从而验证 COT 的有效性。

GPT4o：5（正确）

经过提示引导，GPT4o 成功得出了正确答案“5”。这表明链式推理的提示能够帮助 GPT4o 更好地理解和分析文本细节。
讯飞4.0-Lite：2（错误）

尽管提示了仔细思考，讯飞4.0-Lite 依然没有改变其错误答案。这说明即使有 COT 提示，该模型在处理类似计数任务时仍然存在不足，可能与其整体推理能力的局限性有关。
智谱GLM-4：5（正确）

在 COT 提示下，智谱GLM-4 成功得出了正确答案，这说明链式推理提示能够帮助其更好地逐步分析文本，从而提高正确率。
通义千文2.5：5（正确）

通义千文2.5 在链式推理提示下也得出了正确答案“5”，进一步表明该模型在获得适当提示时，其逻辑推理能力得到了有效激发。

总结：COT 能力的重要性

在这次测试中，GPTo1-mini、文心一言3.5、讯飞4.0Ultra 成功通过了第一轮测试，而 GPT4o、智谱GLM-4、通义千文2.5 则在经过 COT 提示后取得了正确答案。这说明大多数大模型在面临逻辑推理和计数任务时，借助 COT 提示能够显著提高其正确率。链式推理提示可以让模型逐步分析问题，从而减少犯错的概率。

唯一的失败者是 讯飞4.0-Lite，即使在提示下也未能改善其答案，这反映了其在推理链方面的不足。这表明该模型在面对需要复杂推理的任务时，仍有待提高，这可能需要进一步的算法优化和训练改进。

其实大模型还有不少，比如扣子等，但效果不是很理想