李开复旗下“零一万物”大模型疑套壳 LLaMA

2023-11-15 13:50 点击：来源：好爱生活

摘要：李开复旗下“零一万物”大模型疑套壳 LLaMA 图片来源：视觉中国知名大模型公司再次陷入套壳质疑，这次是李开复刚于一周前发布的零一万物（Yi）大语言模型，疑似套壳 Meta 公司在

李开复旗下“零一万物”大模型疑套壳 LLaMA

图片来源：视觉中国

知名大模型公司再次陷入套壳质疑，这次是李开复刚于一周前发布的 " 零一万物 "（Yi）大语言模型，疑似套壳 Meta 公司在今年开源的大模型 LLaMA。

阿里前技术副总裁、大模型行业创业者贾扬清近日在朋友圈中表示，做小公司不容易，在做适配某国内大厂的新模型的业务时，发现此大厂新模型完全照搬 LLaMA 的架构，" 今天有朋友告诉我，这个大厂新模型 exactly 就是 LLaMA 的架构，但是为了表示不一样，把代码里面的名字从 LLaMA 改成了他们的名字，然后换了几个变量名。"

贾扬清表示希望不要换名伪装，以免做多余的适配工作，" 各位大佬，开源社区不容易，如果你们就是开源的模型结构，求高抬贵手就叫原来的名字吧，免得我们还做一堆工作就为了适配你们改名字。"

贾扬清没有指明具体的大模型名字。但业内怀疑的对象指向李开复旗下的零一万物（Yi）。

在全球三大开源社区平台之一 Hugging Face 上，零一万物的社区中，开发者 ehartford 指出，" 据我们了解，除了两个张量（tensor）被重命名之外，Yi 完全使用了 LLaMA 的架构。"

据《机器之心》报道，有研究者在加速器创业网站 Y Combinator 上发帖指出，Yi-34B 模型基本上采用了 LLaMA 的架构，只是重命名了两个张量。

张量（Tensor）指多维向量，Yi 相当于只更改了部分参数的名字，架构与 LLaMA 相同，但却完全没有提到 LLaMA 的来源。

在 Hugging Face 上零一万物社区讨论中，有用户指出套壳对于 Yi 许可证的风险，" 如果他们使用完全相同的 Meta LLaMA 结构、代码库和所有相关资源，也必须遵守 LLaMA 规定的许可协议。以 LLaMA 格式正式发布 Yi 模型是有问题的，会破坏 Yi 许可条款的可执行性。"

Yi 是李开复成立的 AI 公司 " 零一万物 " 上周刚刚发布的首款开源大模型。据 36 氪报道，零一万物已完成新一轮融资，由阿里云领投。李开复称，在完成融资前，为了覆盖算力等训练成本，零一万物已经负债几千万美元。而现在，零一万物估值已超 10 亿美元，跻身独角兽行列。目前零一万物开源发布的 Yi-34B 模型在 Hugging Face 上 Open LLM Leaderboard 开源大语言模型排行榜上排名第一。

针对 Yi 套壳 LLaMA 一事，零一万物回应《机器之心》表示，Yi 确实借鉴了 GPT 的成熟结构，但零一万物团队自己也做了大量工作："GPT 是一个业内公认的成熟架构，LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构，借鉴了行业顶尖水平的公开成果，同时基于零一万物团队对模型和训练的理解做了大量工作…… Yi 开源模型在其他方面的精力，比如数据工程、训练方法、baby sitting（训练过程监测）的技巧、hyperparameter 设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI Infra 能力等，投入了大量研发和打底工作…… "

而在 Hugging Face 原帖下，零一万物的团队成员 Richar Lin 回应承认了更改张量名称一事，" 这个命名问题是我们的疏忽。在大量的训练实验中，我们对代码进行了多次重命名，以满足实验要求。但是，我们有点掉以轻心，没有在发布之前将它们改回来。" 他表示，会将张量改回原 LLaMA 的命名。

国产大模型的套壳开源大模型的争议早已有之。不少企业正是基于开源模型做微调，包括二次训练等，也有企业直接基于开源模型做应用层的开发，因此研发成本更低。

OpenAI 公司对于 GPT-2 之后的模型就不再开源，而 Meta 公司推出的开源模型 LLaMA，其训练使用的公开数据集均超过万亿词元，展现出与非开源大模型相近水平的任务处理能力。LLaMA 便成了经费并不充裕的学术界或公司参与 AI 浪潮的高性价比之选。