李开复旗下“零一万物”大模型疑套壳 LLaMA
李开复旗下“零一万物”大模型疑套壳 LLaMA
图片来源:视觉中国
知名大模型公司再次陷入套壳质疑,这次是李开复刚于一周前发布的 " 零一万物 "(Yi)大语言模型,疑似套壳 Meta 公司在今年开源的大模型 LLaMA。
阿里前技术副总裁、大模型行业创业者贾扬清近日在朋友圈中表示,做小公司不容易,在做适配某国内大厂的新模型的业务时,发现此大厂新模型完全照搬 LLaMA 的架构," 今天有朋友告诉我,这个大厂新模型 exactly 就是 LLaMA 的架构,但是为了表示不一样,把代码里面的名字从 LLaMA 改成了他们的名字,然后换了几个变量名。"
贾扬清表示希望不要换名伪装,以免做多余的适配工作," 各位大佬,开源社区不容易,如果你们就是开源的模型结构,求高抬贵手就叫原来的名字吧,免得我们还做一堆工作就为了适配你们改名字。"
贾扬清没有指明具体的大模型名字。但业内怀疑的对象指向李开复旗下的零一万物(Yi)。
在全球三大开源社区平台之一 Hugging Face 上,零一万物的社区中,开发者 ehartford 指出," 据我们了解,除了两个张量(tensor)被重命名之外,Yi 完全使用了 LLaMA 的架构。"
据《机器之心》报道,有研究者在加速器创业网站 Y Combinator 上发帖指出,Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。
张量(Tensor)指多维向量,Yi 相当于只更改了部分参数的名字,架构与 LLaMA 相同,但却完全没有提到 LLaMA 的来源。
在 Hugging Face 上零一万物社区讨论中,有用户指出套壳对于 Yi 许可证的风险," 如果他们使用完全相同的 Meta LLaMA 结构、代码库和所有相关资源,也必须遵守 LLaMA 规定的许可协议。以 LLaMA 格式正式发布 Yi 模型是有问题的,会破坏 Yi 许可条款的可执行性。"
Yi 是李开复成立的 AI 公司 " 零一万物 " 上周刚刚发布的首款开源大模型。据 36 氪报道,零一万物已完成新一轮融资,由阿里云领投。李开复称,在完成融资前,为了覆盖算力等训练成本,零一万物已经负债几千万美元。而现在,零一万物估值已超 10 亿美元,跻身独角兽行列。目前零一万物开源发布的 Yi-34B 模型在 Hugging Face 上 Open LLM Leaderboard 开源大语言模型排行榜上排名第一。
针对 Yi 套壳 LLaMA 一事,零一万物回应《机器之心》表示,Yi 确实借鉴了 GPT 的成熟结构,但零一万物团队自己也做了大量工作:"GPT 是一个业内公认的成熟架构,LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,同时基于零一万物团队对模型和训练的理解做了大量工作…… Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyperparameter 设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、行业顶尖的 AI Infra 能力等,投入了大量研发和打底工作…… "
而在 Hugging Face 原帖下,零一万物的团队成员 Richar Lin 回应承认了更改张量名称一事," 这个命名问题是我们的疏忽。在大量的训练实验中,我们对代码进行了多次重命名,以满足实验要求。但是,我们有点掉以轻心,没有在发布之前将它们改回来。" 他表示,会将张量改回原 LLaMA 的命名。
国产大模型的套壳开源大模型的争议早已有之。不少企业正是基于开源模型做微调,包括二次训练等,也有企业直接基于开源模型做应用层的开发,因此研发成本更低。
OpenAI 公司对于 GPT-2 之后的模型就不再开源,而 Meta 公司推出的开源模型 LLaMA,其训练使用的公开数据集均超过万亿词元,展现出与非开源大模型相近水平的任务处理能力。LLaMA 便成了经费并不充裕的学术界或公司参与 AI 浪潮的高性价比之选。