9.11大还是9.9大?

互联网白话

2024-07-18

为什么一道小学数学题 难倒了大多数AI?

记者 沈积慧

9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。

这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。

7月13日,在最新一期《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%。这个得票数统计引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%,因此,香缇莫的得票率比孙楠高。

随后,关于13.8%和13.11%大小比较,一度成了网络上的热门话题。当时也有网友提出,“实在不行问问AI”。

有趣的是,这道题AI大模型也不太会。有媒体记者测试了12个国内外主流大模型,其中,一半模型答错了,认为9.11大于9.9。橙柿互动记者们也好奇地提问了几家AI大模型。结果发现,有不少AI模型回答是错的,还有一些AI在答题时不太稳定。

比如昨天下午,当我的两位同事向kimi提出这个问题时,其中一位同事的kimi答案时对时错,且反应“冷淡”。而另外一位同事的kimi举例分析得十分在理,直观且很好理解。同样的问题询问了通义千问、文心一言、讯飞星火等AI模型,大部分AI回答正确并给出了详细的答题过程。

为什么一道小学数学题难倒了部分AI大模型?

昨天上午,通义实验室产品经理王晓明看到这则热搜和网友们的评论,第一反应是并不觉得奇怪,更像是网友玩的一个“花活”。王晓明说,大语言模型虽然在语言和文本类型的任务里能超越人类普通平均水平,但对于数学、物理这种强调逻辑性的任务短板比较明显。

也就是说,现在的大模型其实更像一个文科生。

“简单来说,大模型不会把这个问题像人类一样,当作一个比大小的题目。”

王晓明说,大模型的本质是通过提示词,也就是提的问题,对下一个词进行预测,而不是做算术计算。这个跟平时的训练数据和大模型配置有关。

所以在处理“9.11和9.9哪个更大”这样的对话场景时,大模型不像人类,不会天然地把这个问题视作算数比大小的题目,可能会把这当成日期“9月11日”,拿9.11里面的11和9.9里面的9做对比。“在这种情况下,它就会认为11比9更大。这是由大模型处理的流程或机制决定的。有些大模型对指令识别得更好,答对概率就比较高。我们内部测试发现,通义绝大部分情况能答对。”

还有不少网友发现,调整提示词的顺序,大模型给出的答案准确率也不一致。比如把提示词从“9.11和9.9谁更大”换成“哪个更大:9.11和9.9”,前一种情况几乎全军覆没,而后一种情况大部分大模型都能答对。

在王晓明看来,这是因为大多数模型对于后一句提示词能更快更准确地理解这是一个比大小的问题,而不是比日期或者其他数字场景,这样预测的概率就会大大提高。

“另外,这跟模型本身预置的数理逻辑、训练数据以及配置都有关系。第二种情况下,更接近于模型之前训练阶段遇到的场景,所以答对的概率比较高。”

王晓明说,使用大模型相当于一个调教的过程。虽然预测本身带有随机性,存在成功的概率,也有失败的概率。但大模型根据他的回答及你的订正去生成一个新的回答,订正的过程会作为下一轮的输入。