网站首页 / 夫妻关系 / 天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜

莫言夫妻关系 2024-07-16 15 0

量子比特 | 官方账号

大牌模特圈又一次被曝抄袭，而这一次的“被告”依然是大名鼎鼎的谷歌。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第1张

“原告”直接批评：他们简直把我们的技术报告洗白了！

具体来说，是这样的：

一篇被顶级新一代会议 CoLM 2024 接受的谷歌论文被停刊，瓜主指出其抄袭了一年前发表在 arXiv 上的一项研究。开源的那种。

两篇论文都探索了标准化模型文本生成结构的方法。

有趣的是，谷歌的论文明确指出它引用了“原告”的论文。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第2张

然而，尽管标注了引用，“原告”论文的两位作者T. () 和R´emi Louf (Remi) 仍然坚称谷歌抄袭，并认为：

谷歌对于两者之间的差异的描述是“荒谬的”。

很多网友在看完论文之后，慢慢的问了一个问题：CoLM 是如何审阅稿件的？

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第3张

唯一的区别只是理念的改变？

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第4张

快速浏览一下论文比较...

两篇论文的比较

让我们快速浏览一下两篇论文的摘要并进行比较。

的论文说这给受限语言模型的输出带来了麻烦，他们引入自动机理论来解决这些问题，核心就是避免在每个解码步骤中遍历所有的逻辑值()。

该方法只需要访问每个 token 解码后的逻辑值，计算过程与语言模型的大小无关，在几乎所有语言模型架构中都十分高效且易于使用。

原告的陈述大致如下：

提出了一个高效的框架，通过在语言模型的词汇表上建立索引，大大提高约束文本生成的效率。简单来说，它避免通过索引来遍历所有的逻辑值。

也“不依赖于特定模型”。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第5张

方向确实差不多，我们继续看更多的细节。

我们利用 1.5 Pro对两篇论文的主要内容进行了归纳总结，然后对比了两者的相同点和不同点。

对于“被告”的论文，总结它的方法是将其重新定义为有限状态机（FST）的操作。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第6张

该 FST 与表示目标形式语言的自动机相结合，可以用正则表达式或语法来表示。

通过上述组合，生成一个基于token的自动机来约束解码过程中的语言模型，保证输出的文本符合预设的形式语言规范。

此外论文还做了一系列正则表达式扩展，使用特殊命名的捕获组编写，显著提高了系统处理文本时的效率和表达能力。

而对于《原告》论文，其方法的核心是将文本生成问题重新定义为有限状态机（FSM）之间的转换。

“原告”的具体做法是：

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第7张

列出了两篇论文的共同点。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第8张

至于这两者的区别，有点像上面那位网友说的，简单总结就是：把词汇表定义为FST。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第9张

如前所述，谷歌将原告的论文列为“作品”中“最相关”的作品：

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第10张

最相关的工作是（&Louf，2023），它也使用有限状态自动机（FSA）和下推自动机（PDA）作为约束——我们的方法是在 2023 年初独立开发的。

认为，两者的区别在于该方法基于一种特殊的“索引”操作，需要手动扩展到新的应用场景。相比之下，完全利用自动机理论重新定义了整个流程，使其更容易应用 FSA 并推广到 PDA。

另一个区别是，定义了扩展以支持通配符匹配并提高可用性。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第11张

谷歌随后在其介绍中提到了这两项相关工作。

一是 Yin 等人（2024）对其进行了扩展，增加了向预填充文本“压缩”文本段的功能。

另一个是 Ugare 等人 (2024) 最近提出的系统，称为。它也使用 FSA，但使用 LALR 和 LR 解析器而不是 PDA 来处理语法。

与类似，这种方法依赖于自定义算法。

但围观的人们显然不太高兴：

CoLM 审阅者应该注意，我不认为这看起来像单独的“并发工作”。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第12张

网友：这不算罕见啊……

随着此事发酵，不少网友愤怒不已。抄袭是可耻的，更何况“科技巨头抄袭小团队的作品，已经不是第一次了”。

顺便说一句，和 Remi 在发表原告论文时都在远程工作。AI Infra 公司成立于 2022 年。

哦，顺便说一下，创始团队的一部分来自 Brain……

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第13张

此外，和 Remi 现在还一起创办了一家公司，新公司名为 .txt，根据官网介绍，其目标是提供快速可靠的信息提取模型。而官网首页就是仓库。

回到网友们的话题上，让大家更加愤怒的是“这种情况已经变得很普遍了”。

荷兰代尔夫特理工大学的一位博士后分享了他的经历：

我们去年十月完成了一项工作，最近有一篇论文被接受，使用了相同的想法和概念，但甚至没有引用我们的论文。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第14张

另外一个来自美国东北大学的家伙就更惨了，他两次遇到这种情况，而且攻击者都是同一伙人，而且对方的第一作者还给他的论文打了星……

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第15张

不过也有网友表达了不同意见：

如果发表一篇博客文章或未经审查的预印本论文算占据一个位置，那么每个人都会占据一个位置天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜，对吗？

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第16张

对此，Remi愤怒地回应道：

好人，发表预印本论文和开源代码=占领地盘；

编写数学论文甚至不需要任何伪代码=好作品？？？

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第17张

弟兄也表示赞同：

开源代码、写论文是“占了工作”，抄袭别人的作品，然后说“我早就有这个想法了”，然后提交给会议就不是了？太恶心了。

天下彩(944:CC)免费资料大全,谷歌 DeepMind 被指抄袭，大模型圈再曝惊天大瓜第18张

就到此为止吧，大家对此有什么看法呢澳门一肖一码一必中一肖....，欢迎在评论区继续讨论哦~

两篇论文如下：

谷歌论文：

原告文件：

参考链接：

[1]

[2]

[3]

使用开源文章算不算抄袭开源期刊论文版权是自己的吗开源论文

本文由 @莫言发布在把女朋友的闺蜜睡了是什么心理,换伴侣的社交软件有哪些,两对夫妻互换之后怎么相处好,老公看我和别人发的关系,好兄弟当我面给我老婆夹菜正常吗,男人出轨最怕妻子干嘛，如有疑问，请联系我们。
文章链接：https://zjhyjc.net/post/1589.html

上一篇

详细说明(管家婆必出一肖一码一中一特)微胖小个子必看！夏日穿搭秘籍让你轻松显瘦显高

下一篇

美俄博弈，印度左右逢源，无视美国警告，与俄达成千亿美元贸易目标

发表评论取消回复

扫码支持

微信支付

支付宝