21世纪经济报道记者闫琪北京报道

人工智能大模型正在催生新一轮技术创新和产业变革,为各行各业数字化转型和高质量发展带来新动能。在大模型技术不断快速迭代的同时,大模型在具体行业的应用却不尽如人意。通用大模型通用性强,但缺乏行业专长,用一个通用大模型直接满足各行各业的具体需求还存在一定难度。如何将大模型融入千千万万个行业是下一阶段发展的重点。

复旦大学浩庆特聘教授、上海科学与智能研究院院长、无限光年创始人佟远表示:“大模型就像是同时在多个领域都有通才。但在实际的应用场景中,我不需要一个在所有领域都是博士生的通才,我只需要一个能在特定领域解决问题的‘专才’,这就足以推动生产力的发展。”

经过“百模大战”,模型的行业应用成为大模型发展的重点。然而,当涉及到专业场景时,目前的通用大模型表现并不理想一看就会(新澳门正版资料)无限光年和遥远:AI大模型需要在业界更具可信度,尤其是幻觉问题是大模型作为生产力工具所面临的核心挑战之一。如果大模型生成的内容不可控且难以解释,则很难满足专业领域的准确性、可靠性和严谨性要求。

齐元早年在普渡大学任教。2014年回国后,参与创办达摩院前身iDST。随后担任蚂蚁集团副总裁、首席数据科学家,创办并领导蚂蚁金服人工智能团队。2021年,齐元回归学术界,加入复旦大学,受聘为“复旦-浩庆”特聘教授、复旦人工智能创新与产业研究院院长。2022年,齐元创办无限光年,研发新一代可靠灰箱大模型技术,致力于让垂直领域的大模型更精准、更可靠。无限光年已完成多轮融资,投资方包括阿里云、启明创投等头部投资机构。

大型模型比例无法卷起

目前业界对大模型还没有形成一个清晰统一的定义,狭义上指基于技术框架的大型语言模型,广义上包括多模态大模型香港二四六开奖免费结果,学术界把这些模型称为基础模型(FM,Model)。传统模型的参数数量通常在几万到几亿之间,而大模型的参数数量至少在数十亿,并且已经发展到上万亿的规模。例如从GPT-1到GPT-3,参数数量从1.1亿大幅增加到1750亿,而GPT-4的非官方估计约为1.8万亿。

大型模型可以有效处理各种前所未见的数据或新任务。基于注意力机制(),通过在大规模、多样化的无标记数据集上进行预训练,大型模型可以学习和掌握丰富的通用知识和方法,从而可以应用于文本生成、自然语言理解、翻译、数学推导、逻辑推理、多轮对话等各种场景和任务。

一看就会(新澳门正版资料)无限光年和遥远:AI大模型需要在业界更具可信度  第1张

模型的性能和模型的规模、数据集的大小以及训练所用的算力之间存在幂律关系,性能会随着这三者的指数级增长而线性提升,也就是所谓的规模定律。然而,随着一般大模型的性能在定律的驱动下不断提升,大模型无法实现通用化、专业化、经济性的不可能三角。

齐元指出,当大模型越来越大的时候,面临的挑战非常大。第一,一般的大模型以发展通用知识为主要目标,更注重泛化,专业性和经济性上难以完全满足特定行业的具体需求,商业化落地是个问题。第二,基础模型的研发成本也随着参数规模的提升而大幅上升。数据显示,2017年模型训练成本约为900美元,2023年GPT-4和Ultra的训练成本预计分别约为7800万美元和1.91亿美元。第三,大模型会产生“遗忘灾难”,在训练过程中,某一方面的表现很好,但随着其他能力的训练,这一方面的能力就会下降。

垂直行业模型是当前人工智能落地的关键,可信度值得关注

齐源认为,一般的大模型可以解决100个场景下70%到80%的问题,但不一定能100%满足企业某个场景的需求。但在实际的应用场景中,往往并不需要大而全的模型。当大模型作为提高生产力的工具时,重要的是它在应用场景中能真正发挥多大的作用。

相比于万亿级参数的大模型,数十亿到数百亿级参数的大模型,通过相对低成本的重新训练或者微调,就能达到更好的效果。袁齐形象地解释道,“大模型就像是同时在多个领域都是通才。可想而知,把一个人训练成所有领域的医生有多难,但如果一个人只在某一领域被训练成医生,那么在其他领域很容易达到高中水平。这足以投入到一个行业去真正推动生产力的发展,训练成本要求也没有那么高。所以,行业垂直的大模型对于当下来说非常重要。”

行业大模型是发挥我国在人工智能领域应用场景优势的重要载体,但其安全和治理问题可能也更为复杂。其不仅面临一般大模型的共性问题,如可解释性、网络安全、价值契合等,还面临特定行业的特殊监管要求,如医疗、金融、交通、教育等监管较为严格的行业的强制性标准等。

齐源强调,大模型也会胡言乱语,这就是所谓的“大模型幻觉”。无限光年联合创始人徐迎晖也表示,“如果大模型生成的内容不可控、难以解释,就难以满足专业领域的准确性、可靠性、严谨性要求。针对这一挑战,无限光年致力于开发神经符号计算等多种创新技术,并在此基础上打造新一代可信的大模型。”

据了解,无限光年的可信光语言大模型将大语言模型与符号推理相结合,可以有效解决幻读问题,大幅提升模型可信度,赋能金融服务、医疗诊断等垂直领域。在金融、医疗垂直领域的评测中,可信光语言大模型超越万亿参数大模型GPT4-Turbo。同时,作为百亿规模的“专精”大模型,有效提升推理准确率,降低服务成本。通过解决模型幻读问题到企业级应用的重大挑战,无限光年已经深入金融、医疗场景,目前已服务多家头部企业和机构。