澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型

9.11和9.9哪个更大？对此，第一财经测试了12个大模型，其中阿里通一千文、百度文心一言、腾讯元宝回答正确，但-4o、字节跳动、月之暗面君、智铺清言、零一万物万智、捷月星辰阅文、百川智能百小影、商汤商量则全部回答错误，且错误程度各不相同。

大部分大型模型错误地比较了问题和答案中小数点后的数字，认为 9.11 大于 9.9。考虑到数字涉及的语境问题，如果局限于数学语境，这样的大型模型仍然会给出错误的答案。

在这背后澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型今期澳门开奖结果查询，大模型数学能力较差是一个长期存在的问题。有业内人士认为，生成式语言模型的设计更像文科生，而不是理科生。不过，针对性的语料训练在未来或将逐渐提高模型的科学能力。

8大模型回答错误

大型模型的算术问题最早是由艾伦研究所成员林宇辰发现的，他在X平台上发布了一张截图，显示-4o认为13.11大于13.8。“一方面，人工智能在解决数学奥林匹克问题方面越来越好，但另一方面，常识仍然很难，”他说。

随后 Scale AI 的即时工程师 Riley 根据这个灵感换了个问题，问目前最强的大模型——4o、和 3.5——9.11 和 9.9 哪个更大？这些主流大模型都给出了错误答案，他成功把话题引爆了。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第1张

其实，追根溯源，该事件是由上周末一档国内综艺节目引发的热搜引发的。7月13日，在《歌手》最新一期节目发布的排行榜中，国内歌手孙楠和国外歌手香缇莫分别获得了13.8%和13.11%的得票率。有网友对排行榜提出质疑，认为13.11%大于13.8%。随后，13.8和13.11的对比话题登上热搜。

当时就有网友问，“不知道怎么做，为什么不问AI呢？”结果显示，很多AI确实做不到。

第一财经以“9.11和9.9哪个更大”这一问题，测试了国内主流的模型，包括阿里、百度等五大巨头的模型，以及月之暗面等六大AI独角兽的模型。其中，阿里统一钱包、百度文心易言、腾讯元宝等四大模型回答正确，其余八大模型回答错误。

回答正确的大模型都有着相似的答案，但回答错误的模型则有自己的逻辑和表达方式。同时，回答错误的大模型在受到进一步质疑或否认时，几乎全部承认自己之前回答错误，并给出了正确答案。

第一款是目前世界公认的第一梯队的大型机型，当被问到“9.11和9.9哪个更大”时，它回答说小数点后的数字“11大于9”，所以9.11更大。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第2张

当被问及是否还有其他比较方法时，它会将小数转换为分数，并得出结论：“11/100 小于 90/100。”这一步是正确的，但随后它又得出结论：“因此 9.11 大于 9.9。”

有人提出，大模型的错误答案可能是上下文问题。例如，在软件版本迭代的上下文中，9.11 可能大于 9.9。因此，在比较中添加限定词“数学上”仍然会导致错误答案。

我们看中国的大模型，问了Dark Side of the Moon的Kimi，在比较小数部分的时候，它认为9.11的小数点后一位是1，而9.9的小数点后一位是0，它给出了错误的小数位，并得出9.11更大。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第3张

当被质问并提起常识时，Kimi开始说他的答案是错误的，并给出了正确的比较方法。

当被问到这个问题时，字节豆包不仅给出了答案，还举了生活中的例子，让大家更容易理解。豆包举了一个例子，假设有两笔钱，“9.11元比9.9元多0.21元”，测量长度时，“9.11米比9.9米长”。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第4张

在回答中，支朴清彦成功提到了9.11的十分位是1，而9.9的十分位是9，但他仍然得出“9.11整体上大于9.9”的结论。他还强调，“这个结果可能令人惊讶，因为直觉上你可能会认为9.9更大，但根据数学规则，9.11确实是一个更大的数字。”

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第5张

质问答案之后，智浦清彦先是说道：“你的理解，是一个常见的误解。”随后，他自己推导之后，得出了正确答案，并承认自己之前的答案是错误的。

商汤尚量模型先是给出了错误答案，当被问及如何进行比较时，它成功得出小数0.11小于0.9，但随后又转移话题说：“所以9.11大于9.9。”在指出这个逻辑问题后，尚量随后承认“解释有误”。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第6张

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第7张

洁月星辰的岳文也给出了错误的答案，9.11大于9.9，并且错误地比较了小数点的大小，使问题更加令人质疑。有意思的是，在解释中，岳文的语言表达逻辑开始变得混乱，他似乎没有意识到自己的答案已经发生了变化。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第8张

在解释中，岳文先表示“理解你的困惑”，并说明在日常生活中9.9确实大于9.11，但在数学上“需要更准确地比较两个数的大小”。于是，岳文随即根据数学规律进行推导，得出“9.11小于9.9”的结论，但只字未提自己之前的回答是错误的。

还有百川智能、零一万事两大模型，一开始给出了错误的答案，但当被问到“为什么”时，它们在推理之后悄悄改变了答案。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第9张

经提醒，大模特提到他之前的答案是错误的。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第10张

从答案来看，几道答对的大模型题解题过程十分相似，以《文心易言》为例，成功将整数部分与小数部分分离并进行比较。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第11张

此外，这些公司中，腾讯元宝不仅给出了正确答案，还整理了一些目前公开的讨论，并注明了参考来源和链接。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型第12张

“文科生”数学不好

所谓的智能大模型，为什么不能很好地解答小学数学问题？这并不是一个新问题，数学能力一直是大模型的短板，业界之前就多次讨论过大模型数学能力差、复杂推理能力弱，即便是最好的大模型GPT-4，也还有很大的提升空间。

最近，《第一财经日报》6月份报道称，根据司南评估体系的高考全卷测试，包括GPT-4在内的7个主要模型在高考语文、英文科目中普遍表现良好，但数学科目全部不及格，最高分也只有75分。

在大模型数学试卷评阅中，老师们发现大模型主观题的答案比较杂乱，流程混乱，甚至出现流程错误却得出正确答案的情况。这说明大模型学生记忆公式的能力很强，但在解题过程中不能灵活运用公式。

有些业内人士把自己数学不好的原因归咎于 LLM（大型语言模型）的架构，该模型往往通过监督学习来训练，以预测下一个单词。简单来说，将大型文本数据集输入到大型模型中，经过训练后，模型会根据当前输入的文本预测下一个单词的概率分布。通过不断将模型预测与实际的下一个单词进行比较，语言模型逐渐掌握语言规则，并学会预测和生成下一个单词。

一位算法工程师认为，生成式语言模型更像文科生，而不是理科生。其实，语言模型在数据训练过程中学习的是相关性，这使得AI在文本创作上达到人类的平均水平，而数学推理则需要更多的因果关系。数学具有很强的抽象性和逻辑驱动性，这与语言模型处理的语言数据有着本质的区别。这意味着，大模型要想学好数学，除了学习世界知识外，还要有思维训练，具备推理和演绎的能力。

此外，当大型模型集体在简单的数学问题上犯错时，大多数行业人士都会立即想到数字分割（分词）的问题。在大型语言模型中，输入文本会被拆分成更小的部分（单词）以供模型处理。但它并不是专门为数学设计的，这可能会导致在分割过程中数字被拆分成不合理的部分，破坏了数字的完整性，使模型很难理解和计算这些数字。

新浪微博新技术研发负责人张俊林介绍，早期的LLM一般不对数字做特殊处理，往往是把几个连续的数字切在一起组成一个token。比如“13579”可能被切分为三个token，“13”是一个，“57”是一个，“9”也是一个。具体切哪些数字组成一个token，取决于数据集中的统计数据。这种情况下，在不确定哪些数字碎片组成一个token的情况下，LLM很难进行多位数值计算。

但上述问题正在逐渐得到解决。思维能力方面的核心问题可能依然是训练语料的问题。大型语言模型主要通过互联网上的文本数据进行训练，而这些数据中数学问题和解决方案相对较少，导致模型在数学推理和解决问题能力方面的训练机会有限。

针对大模型复杂推理能力的不足，上海人工智能实验室首席科学家林大华在接受《财新》采访时表示，未来大模型的训练不能简单依赖互联网数据的采集和灌输，而必须以更系统的方式构建。

复杂推理的关键在于构建大量程序性内容。比如，构建上亿条关于几何问题具体解决过程的数据，用它们来训练一个大模型，让模型逐步学习解决问题的过程。但从互联网上获取大量这样的数据非常困难。“未来在模型训练数据方面，特别是在突破更高智能水平的过程中，我们会越来越多地依赖构建的数据，而不是直接爬取的数据”，林大华认为。

值得一提的是，大模型的复杂推理能力尤为重要，这关系到可靠性和准确性，是金融、工业等场景落地大模型所需的关键能力。

“现在很多大模型都用在客服、聊天等场景，在聊天场景下，说些废话不会有太大影响，但在非常严肃的业务场合就很难实施了。”林大华此前表示，复杂推理关系到大模型在应用时的可靠性。比如金融等场景，数字不能出现任何错误，对数学可靠性的要求就会很高。另外，随着大模型进入商业化，如果要分析一个公司的财务报表，甚至工业领域的一些技术文档，数学计算能力也会成为一道壁垒。