谷歌数学版Gemini破解奥赛难题,堪比人类数学家!
谷歌数学版Gemini破解奥赛难题,堪比人类数学家!
【新智元导读】I/O 大会上,谷歌 Gemini 1.5 Pro 一系列更新让开发者们再次沸腾。最新技术报告中,最引人注目的一点是,数学专业版 1.5 Pro 性能碾压 GPT-4 Turbo、Claude 3 Opus,成为全球最强的数学模型。
四个月的迭代,让 Gemini 1.5 Pro 成为了全球最强的 LLM(几乎)。
谷歌 I/O 发布会上,劈柴宣布了 Gemini 1.5 Pro 一系列升级,包括支持更长上下文 200k,超过 35 种语言。
与此同时,新成员 Gemini 1.5 Flash 推出,设计体积更小,运行更快,还支持 100k 上下文。
最近,Gemini 1.5 Pro 最新版的技术报告新鲜出炉了。
论文地址:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
报告显示,升级后的模型 Gemini 1.5 Pro,在所有关键基准测试中,都取得了显著进展。
简单来说,1.5 Pro 的性能超越了「超大杯」1.0 Ultra,而 1.5 Flash(最快的模型)性能则接近 1.0 Ultra。
甚至,新的 Gemini 1.5 Pro 和 Gemini 1.5 Flash 在大多数文本和视觉测试中,其性能还优于 GPT-4 Turbo。
Jeff Dean 发文称,Gemini 1.5 Pro「数学定制版」在基准测试中,取得了破记录 91.1% 成绩。
而三年前的今天,SOTA 仅为 6.9%。
而且,数学专业版的 Gemini 1.5 Pro 在数学基准上的成绩,与人类专家的表现不相上下。
数学评测 3 年暴涨 84.2%
对于这个「数学定制版」模型,团队使用了多个由数学竞赛衍生的基准测试评估 Gemini 的能力,包括 MATH、AIME、Math Odyssey 和团队内部开发的测试 HidemMath、IMO-Bench 等。
结果发现,在所有测试中,Gemini 1.5 Pro「数学定制版」都明显优于 Claude 3 Opus 和 GPT-4 Turbo,并且相比通用版本的 1.5 Pro 有显著改进。
特别是 MATH 测试中取得了 91.1% 的突破性成绩,而且不需要使用任何定理证明库或者谷歌搜索等任何外部工具,这与人类专家的水平相当。
此外,在 AIME 测试集中,Gemini 1.5 Pro「数学定制版」能解决的问题数量是其他模型的 4 倍。
以下是两道曾让之前的模型束手无策的亚太数学奥林匹克竞赛(APMO)题。
其中,上面的这个例子很有代表性,因为它是一道证明题,而不是计算题。
对此,Gemini 给出的解法不仅直切要害,而且非常「漂亮」。
Gemini 1.5 Pro 核心性能全面提升
文本评估
除了数学之外,升级后的 1.5 Pro 在推理、编码、多模态多项基准测试中,取得了显著的优势。
甚至就连主打输出速度的 1.5 Flash,在性能上也不输 1.0 Ultra。
尤其是,在 MMLU 通用语言理解基准测试中,Gemini 1.5 Pro 在正常的 5 个样本设置中得分为 85.9%,在多数投票设置中得分为 91.7%,超过了 GPT-4 Turbo。
与 2 月出版技术报告对比来看,新升级 1.5 Pro 在代码两项基准中,有了非常明显的提升,从 71.9% 上涨到 84.1%(HumanEval),从 77.7% 上涨到 82.6%(Natural2Code)。
在多语种基准测试中,新升级 1.5 Pro 的能力略微下降。
此外,5 月报告中,将数学和推理能力分开评测,在数学基准上,新升级 1.5 Pro 有所下降,从 91.7% 下降到 90.8%。
在推理测试中,MMLU 上的性能从 81.9% 提升到 85.9%。
2 月版
针对函数调用,1.5 Pro 在多项任务中,除了多项函数,都拿下了最高分。1.5 Flash 在多项函数任务中,取得了领先优势。
在指令调优上,1.5 Pro 面对更长指令 1326 提示时,回应准确率最高。而 406 更短指令,1.0 Ultra 的表现更优秀。
涉及到更专业的知识问答时,1.5 Pro 准确率几乎与 1.5 Flah 持平,仅差 0.6%,但都显著优于 1.0 Pro 和 1.0 Ultra。
针对 STEM 上下文问答任务中,在 Qasper 数据集上,Gemini 1.0 和 1.5 准确率提升,与此同时不准确率显著下降。
再来看偏好结果,针对不同提示,与 1.0 Pro 比起来,1.5 Pro 和 1.5 Flash 相对得分更高。
多模态评估
针对多模态性能,技术报告中涉及了众多基准测试,包括多模态推理、图表与文档、自然图像以及视频理解四个方面,共 15 个图像理解任务以及 6 个视频理解任务。
总体来看,除了一项测试之外,1.5 Pro 的表现均能超过或者与 1.0 Ultra 相当,且轻量的 1.5 Flash 在几乎所有测试中都超过了 1.0 Pro。
可以看到 1.5 Pro 在多模态推理的 4 个基准测试上都有所提高。
在公认较为困难的 MMMU 测试中,1.5 Pro 实现了从 47.9% 到 62.2% 的提升,在研究生水平的 Ai2D 测试上甚至达到了 94.4%,1.5 Flash 也有 91.7% 的高分。
对于多模态大模型,图表和文档的理解比较有挑战性,因为需要对图像信息进行准确的解析和推理。
Gemini 1.5 Pro 在 ChartQA 取得了 87.2% 的 SOTA 结果。
在 TAT-DQA 测试上,分数从 1.0 Pro 的 9.9% 升至 37.8%,1.5 Flash 相比 1.0 Ultra 也有将近 10% 的提高。
此外,团队创建了 BetterQA 等 9 个互不相交的能力测试。结果显示,相比上一代的 1.0 Pro,1.5 Pro 总体达到了 20% 以上的提升。
自然图像理解方面的测试,重点关注模型的对物理世界的理解以及空间推理能力。
在专门的 V* 测试中,1.5 Pro 和测试提出者所发表的模型 SEAL 几乎表现相当。
在人类擅长而模型不擅长的 Blink 测试中,1.5 Pro 实现了从 45.1%(1.0 Pro)到 61.4% 的提升,Flash 分数相近(56.5%),依旧高于 1.0 Ultra(51.7%)。
除了「大海捞针」,团队也为 Gemini 1.5 Pro 进行了其他视频理解方面的基准测试,但提升不如前三个方面那样显著。
在 VATEX 英文和中文的两个测试中,对比 2 月份发布的 Gemini 1.5 Pro 的技术报告,三个月训练后的提升不超过 2 分。
在 YouCook2 测试中,1.5 Pro 似乎始终不能达到 1.0 Ultra 的 135.4 分,而且相比 2 月技术报告中的 134.2 下降到了最新的 106.5。
有趣的是,在 OpenEQA 的零样本测试上,1.5 Flash 得分 63.1,甚至超过了 1.5 Pro 的 57.9。技术报告中解释,这是由于 1.5 Pro 拒绝回答某些问题造成的。
2 月版
对比 GPT-4、Claude 3 优势明显
接下来,再看看横向对比,新升级的 1.5 Pro 与 GPT-4、Claude 模型相较下的性能如何。
模型诊断能力改进
如下展示的是,在 2000 个 MRCR 任务实例中,字符串相似度累积平均得分与上下文长度的函数关系。
在与 GPT-4 Turbo 和 Claude 2.1 进行比较时,研究人员发现分别在 8K 和 20K 个词组之后,1.5 Pro 和 1.5 Flash 的性能大大优于这两个模型。
随着上下文长度的增加,1.5 Pro 和 1.5 Flash 的性能下降幅度大大缩小,最高可达 100 万个 token。
在将小语种 Kalamang 翻译成英语的量化结果如下所示。
新升级的 1.5 Pro 在喂了半本书,甚至全本书的数据之后,性能得到大幅提升,并优于 GPT-4 Turbo 和 Claude 3 的表现。
而在将英语翻译成 Kalamang 语言的量化结果中,1.5 Pro 的胜率也是最高的。
低资源机器翻译的长上下文扩展
再来看,在「低资源」机器翻译中,模型的上下文学习扩展(Scaling)表现。
随着样本数量不断增加,1.5 Pro 的翻译性能越来越好,大幅超越了 GPT-4 Turbo。
长上下文文本 QA
针对长文本的问答,1.5 Pro 在 710k 上下文文中,表现显著优于 GPT-4 Turbo。并且,超越了没有上下文,以及在 RAG 加持下,支持 4k 上下文的 1.5 Pro。
长上下文音频
在音频长上下文的测试中,每个模型的单词错误率表现又如何?
可以看到,1.5 Pro 仅有 5.5%,而 OpenAI 的 Whisper 模型的错误率高达 12.5%。
但与 2 月版的报告相比,1.5 Pro 的音频长下文单词错误率还是有所下降。
2 月版
长上下文视频 QA
针对 1 个小时的视频问答任务,1.5 Pro 在不同基准上准确率实现与 3 分钟视频任务准确率,基本持平一致。
再来看去年 2 月版的对比,1.5 Pro 在 1 小时任务中的准确率有了很大提升,从最高 0.643 上涨到 0.722。还有在 3 分钟视频 QA 任务中,从 0.636 上涨到 0.727。
2 月版
在 1H-VideoQA 测试中,团队在时长 1 小时的视频中每秒取 1 帧画面,最终线性下采样至 16 帧或 150 帧,分别输入给 GPT-4V 与 Gemini 1.5 进行问答。
无论帧数多少,Gemini 1.5 Pro 的表现均强于 GPT-4V,其中在 16 帧测试的优势最为明显(36.5% vs. 45.2%)。
在观看整个视频后进行回答时,Gemini 1.5 Pro 从 2 月的 64.3% 提升至 72.2%。
2 月版
长上下文规划
「推理」和「规划」技能对解决问题都很重要,虽然 LLM 在推理上进展显著,但规划依旧很难。
这篇报告专门呈现了 Gemini 1.5 的规划能力测试,涉及到移动积木、安排物流路线、室内导航、规划日程和旅行路线等任务场景。
测试中,模型必须根据给定任务,一次性地快速生成解决方案,类似于人类的「头脑风暴」过程。
总体上,Gemini 1.5 Pro 在绝大多数情况下的表现优于 GPT 4 Turbo,不仅能在少样本时较好进行规划,还能更有效地利用额外的上下文信息。
更轻量的 Gemini 1.5 Flash 表现始终不敌 Gemini 1.5 Pro,但在几乎一半的情况下可以与 GPT-4 Turbo 的表现相当。
GPT-4 Turbo 的在 BlocksWorld 中的零样本表现接近于零,而 Gemini 1.5 Pro 和 Flash 分别达到了 35% 和 26%。
Calendar Scheduling 也是如此,GPT 的 1-shot 准确率低于 10%,而 1.5 Pro 达到 33%。
随着样本数量逐渐增多,1.5 Pro 的表现基本持续提升,但 GPT-4 Turbo 在样本增加到一定程度时会出现下降趋势,在 Logistics 中甚至持续下降。
比如 Calendar Scheduling 中,当样本数量逐渐增加至 80-shot 时,GPT-4 Turbo 和 1.5 Flash 只有 38% 的准确率,比 Gemini 1.5 Pro 低了 32%。
之后增加至 400-shot 时,1.5 Pro 达到了 77% 的准确率,GPT 却依旧徘徊在 50% 左右。
非结构化多模态数据分析任务
现实世界中的大多数数据,比如图像和对话,仍然是非结构化的。
研究人员向 LLM 展示了一组 1024 张图像,目的是将图像中包含的信息提取到结构化数据表中。
图 17 展示了从图像中提取不同类型信息的准确性结果。
Gemini 1.5 Pro 在所有属性提取上的准确性提高了 9%(绝对值)。同时,相较于 GPT-4 Turbo,1.5 Pro 提升了 27%。
然而,在评估时,Claude 3 API 无法分析超过 20 张图像,因此 Claude 3 Opus 的结果被限制了。
此外,结果显示,1.5 Pro 在处理更多的图像时会带来持续更好的结果。这表明该模型可以有效利用额外和更长的上下文。
而对于 GPT-4 Turbo 来说,随着提供的图像增多,其准确性反而下降