9.11和9.9哪个更大?对此,第一财经测试了12个大模型,其中阿里通一千文、百度文心一言、腾讯元宝回答正确,但-4o、字节跳动、月之暗面君、智铺清言、零一万物万智、捷月星辰阅文、百川智能百小影、商汤商量则全部回答错误,且错误程度各不相同。

大部分大型模型错误地比较了问题和答案中小数点后的数字,认为 9.11 大于 9.9。考虑到数字涉及的语境问题,如果局限于数学语境,这样的大型模型仍然会给出错误的答案。

在这背后澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型今期澳门开奖结果查询,大模型数学能力较差是一个长期存在的问题。有业内人士认为,生成式语言模型的设计更像文科生,而不是理科生。不过,针对性的语料训练在未来或将逐渐提高模型的科学能力。

8大模型回答错误

大型模型的算术问题最早是由艾伦研究所成员林宇辰发现的,他在X平台上发布了一张截图,显示-4o认为13.11大于13.8。“一方面,人工智能在解决数学奥林匹克问题方面越来越好,但另一方面,常识仍然很难,”他说。

随后 Scale AI 的即时工程师 Riley 根据这个灵感换了个问题,问目前最强的大模型——4o、 和 3.5——9.11 和 9.9 哪个更大?这些主流大模型都给出了错误答案,他成功把话题引爆了。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第1张

其实,追根溯源,该事件是由上周末一档国内综艺节目引发的热搜引发的。7月13日,在《歌手》最新一期节目发布的排行榜中,国内歌手孙楠和国外歌手香缇莫分别获得了13.8%和13.11%的得票率。有网友对排行榜提出质疑,认为13.11%大于13.8%。随后,13.8和13.11的对比话题登上热搜。

当时就有网友问,“不知道怎么做,为什么不问AI呢?”结果显示,很多AI确实做不到。

第一财经以“9.11和9.9哪个更大”这一问题,测试了国内主流的模型,包括阿里、百度等五大巨头的模型,以及月之暗面等六大AI独角兽的模型。其中,阿里统一钱包、百度文心易言、腾讯元宝等四大模型回答正确,其余八大模型回答错误。

回答正确的大模型都有着相似的答案,但回答错误的模型则有自己的逻辑和表达方式。同时,回答错误的大模型在受到进一步质疑或否认时,几乎全部承认自己之前回答错误,并给出了正确答案。

第一款是目前世界公认的第一梯队的大型机型,当被问到“9.11和9.9哪个更大”时,它回答说小数点后的数字“11大于9”,所以9.11更大。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第2张

当被问及是否还有其他比较方法时,它会将小数转换为分数,并得出结论:“11/100 小于 90/100。”这一步是正确的,但随后它又得出结论:“因此 9.11 大于 9.9。”

有人提出,大模型的错误答案可能是上下文问题。例如,在软件版本迭代的上下文中,9.11 可能大于 9.9。因此,在比较中添加限定词“数学上”仍然会导致错误答案。

我们看中国的大模型,问了Dark Side of the Moon的Kimi,在比较小数部分的时候,它认为9.11的小数点后一位是1,而9.9的小数点后一位是0,它给出了错误的小数位,并得出9.11更大。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第3张

当被质问并提起常识时,Kimi开始说他的答案是错误的,并给出了正确的比较方法。

当被问到这个问题时,字节豆包不仅给出了答案,还举了生活中的例子,让大家更容易理解。豆包举了一个例子,假设有两笔钱,“9.11元比9.9元多0.21元”,测量长度时,“9.11米比9.9米长”。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第4张

在回答中,支朴清彦成功提到了9.11的十分位是1,而9.9的十分位是9,但他仍然得出“9.11整体上大于9.9”的结论。他还强调,“这个结果可能令人惊讶,因为直觉上你可能会认为9.9更大,但根据数学规则,9.11确实是一个更大的数字。”

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第5张

质问答案之后,智浦清彦先是说道:“你的理解,是一个常见的误解。”随后,他自己推导之后,得出了正确答案,并承认自己之前的答案是错误的。

商汤尚量模型先是给出了错误答案,当被问及如何进行比较时,它成功得出小数0.11小于0.9,但随后又转移话题说:“所以9.11大于9.9。”在指出这个逻辑问题后,尚量随后承认“解释有误”。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第6张

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第7张

洁月星辰的岳文也给出了错误的答案,9.11大于9.9,并且错误地比较了小数点的大小,使问题更加令人质疑。有意思的是,在解释中,岳文的语言表达逻辑开始变得混乱,他似乎没有意识到自己的答案已经发生了变化。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第8张

在解释中,岳文先表示“理解你的困惑”,并说明在日常生活中9.9确实大于9.11,但在数学上“需要更准确地比较两个数的大小”。 于是,岳文随即根据数学规律进行推导,得出“9.11小于9.9”的结论,但只字未提自己之前的回答是错误的。

还有百川智能、零一万事两大模型,一开始给出了错误的答案,但当被问到“为什么”时,它们在推理之后悄悄改变了答案。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第9张

经提醒,大模特提到他之前的答案是错误的。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第10张

从答案来看,几道答对的大模型题解题过程十分相似,以《文心易言》为例,成功将整数部分与小数部分分离并进行比较。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第11张

此外,这些公司中,腾讯元宝不仅给出了正确答案,还整理了一些目前公开的讨论,并注明了参考来源和链接。

澳门天天彩澳门开奖资料,一道小学生数学题竟难倒众多海内外 AI 大模型  第12张

“文科生”数学不好

所谓的智能大模型,为什么不能很好地解答小学数学问题?这并不是一个新问题,数学能力一直是大模型的短板,业界之前就多次讨论过大模型数学能力差、复杂推理能力弱,即便是最好的大模型GPT-4,也还有很大的提升空间。

最近,《第一财经日报》6月份报道称,根据司南评估体系的高考全卷测试,包括GPT-4在内的7个主要模型在高考语文、英文科目中普遍表现良好,但数学科目全部不及格,最高分也只有75分。

在大模型数学试卷评阅中,老师们发现大模型主观题的答案比较杂乱,流程混乱,甚至出现流程错误却得出正确答案的情况。这说明大模型学生记忆公式的能力很强,但在解题过程中不能灵活运用公式。

有些业内人士把自己数学不好的原因归咎于 LLM(大型语言模型)的架构,该模型往往通过监督学习来训练,以预测下一个单词。简单来说,将大型文本数据集输入到大型模型中,经过训练后,模型会根据当前输入的文本预测下一个单词的概率分布。通过不断将模型预测与实际的下一个单词进行比较,语言模型逐渐掌握语言规则,并学会预测和生成下一个单词。

一位算法工程师认为,生成式语言模型更像文科生,而不是理科生。其实,语言模型在数据训练过程中学习的是相关性,这使得AI在文本创作上达到人类的平均水平,而数学推理则需要更多的因果关系。数学具有很强的抽象性和逻辑驱动性,这与语言模型处理的语言数据有着本质的区别。这意味着,大模型要想学好数学,除了学习世界知识外,还要有思维训练,具备推理和演绎的能力。

此外,当大型模型集体在简单的数学问题上犯错时,大多数行业人士都会立即想到数字分割(分词)的问题。在大型语言模型中,输入文本会被拆分成更小的部分(单词)以供模型处理。但它并不是专门为数学设计的,这可能会导致在分割过程中数字被拆分成不合理的部分,破坏了数字的完整性,使模型很难理解和计算这些数字。

新浪微博新技术研发负责人张俊林介绍,早期的LLM一般不对数字做特殊处理,往往是把几个连续的数字切在一起组成一个token。比如“13579”可能被切分为三个token,“13”是一个,“57”是一个,“9”也是一个。具体切哪些数字组成一个token,取决于数据集中的统计数据。这种情况下,在不确定哪些数字碎片组成一个token的情况下,LLM很难进行多位数值计算。

但上述问题正在逐渐得到解决。思维能力方面的核心问题可能依然是训练语料的问题。大型语言模型主要通过互联网上的文本数据进行训练,而这些数据中数学问题和解决方案相对较少,导致模型在数学推理和解决问题能力方面的训练机会有限。

针对大模型复杂推理能力的不足,上海人工智能实验室首席科学家林大华在接受《财新》采访时表示,未来大模型的训练不能简单依赖互联网数据的采集和灌输,而必须以更系统的方式构建。

复杂推理的关键在于构建大量程序性内容。比如,构建上亿条关于几何问题具体解决过程的数据,用它们来训练一个大模型,让模型逐步学习解决问题的过程。但从互联网上获取大量这样的数据非常困难。“未来在模型训练数据方面,特别是在突破更高智能水平的过程中,我们会越来越多地依赖构建的数据,而不是直接爬取的数据”,林大华认为。

值得一提的是,大模型的复杂推理能力尤为重要,这关系到可靠性和准确性,是金融、工业等场景落地大模型所需的关键能力。

“现在很多大模型都用在客服、聊天等场景,在聊天场景下,说些废话不会有太大影响,但在非常严肃的业务场合就很难实施了。”林大华此前表示,复杂推理关系到大模型在应用时的可靠性。比如金融等场景,数字不能出现任何错误,对数学可靠性的要求就会很高。另外,随着大模型进入商业化,如果要分析一个公司的财务报表,甚至工业领域的一些技术文档,数学计算能力也会成为一道壁垒。