美国东部时间 7 月 12 日周五,该媒体援引 Meta 员工的话称,Meta 计划在 7 月 23 日发布其第三代大型语言模型 (LLM) Llama 3 的最强版本。这个最新版本的模型将拥有 4050 亿个参数,同时也是一个多模态模型,这意味着它将能够理解和生成图像和文本。该媒体并未透露这个最强版本是否会开源。

Meta 拒绝就该消息置评。周五,Meta 股价低开后跌幅收窄,盘初一度下跌 3.6%,随后收窄至 2% 以内解构管家婆正版 今晚,开源 Llama 3 模型即将发布,参数高达 4050 亿,Meta 股价连跌两日,但尾盘跌幅扩大,收跌 2.7%,继周四暴跌逾 4% 后,连续两天下跌,创下 6 月 21 日以来收盘新低。

Meta 去年 7 月发布的 Llama 2 有三个版本2023澳门六今晚开奖结果,最大版本 70B 参数规模达到 700 亿。今年 4 月,Meta 发布了 Llama 3Meta,称其为“迄今为止最强大的开源 LLM”。当时推出的 Llama 3 有 8B 和 70B 两个版本。

Meta CEO 扎克伯格当时表示,Llama 3 的大版本将拥有超过 4000 亿个参数,但 Meta 并未透露是否会开源当时还在进行训练的 Llama 3 的 4000 亿个参数规模。

相比上一代,Llama 3有了质的飞跃,Llama 2使用了2万亿个token进行训练,而训练大型版本Llama 3所用的token超过了15万亿个。

Meta 声称,得益于预训练和后训练的改进,其预训练和指令调优模型目前无论是 8B 还是 70B 参数规模都是最好的模型。后训练方案改进后,模型的错误拒绝率 (FRR) 大幅下降,一致性提高,模型响应的多样性增加。在推理、代码生成和指令跟踪等功能方面,Llama 3 相较 Llama 2 有大幅提升,使得 Llama 3 的操作更加简单。

今年 4 月,Meta 数据显示,Llama 3 指令调优模型的 8B 和 70B 版本在大规模多任务语言理解数据集 (MMLU)、研究生水平专家推理 (GPQA)、数学评估集 (GSM8K) 和编程多语言测试 () 等方面的得分均高于、谷歌的 Gemma 和。预训练的 Llama 3 的 8B 和 70B 版本在多个性能评估中均优于、Gemma 和。

解构管家婆正版 今晚,开源 Llama 3 模型即将发布,参数高达 4050 亿,Meta 股价连跌两日  第1张

当时社交媒体上有网友评论称,根据基准测试,目前的Llama 3模型还没有完全达到GPT-4的水平,但目前还在训练中的更大型模型将达到GPT-4的水平。

解构管家婆正版 今晚,开源 Llama 3 模型即将发布,参数高达 4050 亿,Meta 股价连跌两日  第2张

资深科学家Jim Fan认为,Llama 3的推出已经超越了技术进步,是开源模型能够与顶级闭源模型相抗衡的象征。

从Jim Fan分享的基准测试可以看出,Llama 3 400B的实力几乎可以媲美“超级杯”和新版GPT-4 Turbo,这将成为“分水岭”,相信将释放出巨大的研究潜力,推动整个生态系统的发展,开源社区或许能够用上GPT-4级别的模型。

解构管家婆正版 今晚,开源 Llama 3 模型即将发布,参数高达 4050 亿,Meta 股价连跌两日  第3张

随后有消息称,研究人员尚未开始对Llama 3进行微调,也尚未决定Llama 3是否为多模态车型;Llama 3的正式版将于今年7月正式上市。

与其他开发商不同,Meta 致力于开源 LLM,但这个赛道正变得越来越拥挤。谷歌、特斯拉 CEO 马斯克的 xAI 等竞争对手也纷纷发布了免费的 AI 模型。

在Llama 3问世之后,同样在4月份发布的4800亿参数模型击败了Llama 3,创下了全球最大开源模型的新纪录。

基于全新的 Dense-MoE 架构设计,由 10B 密集模型和 128×3.66B MoE MLP 组成,在 3.5 万亿 token 上进行训练。相比 Llama 3 8B、Llama 2 70B,使用的训练计算资源不到它们的一半,但评测指标却取得了相当的分数。