AI计算爆发!吴泳铭力挺GPU计算,CPU真要沦为配角了?
AI计算爆发!吴泳铭力挺GPU计算,CPU真要沦为配角了?
9 月 19 日,2024 云栖大会中杭州如约召开,作为阿里云的年度重磅活动之一,云栖大会以引领计算技术创新为核心,致力于推动云计算、大数据、人工智能等前沿技术的发展与应用。
作为关注 AI 硬科技的头部新媒体,雷科技也应邀出席云栖大会,大会的开幕演讲由阿里集团 CEO、阿里智能云董事长兼 CEO 吴泳铭主持,而在整个主旨演讲中,最令人印象深刻的莫过于这段话:
生成式 AI 改变计算架构,从 CPU 主导的计算体系到 GPU 主导的 AI 计算迁移。AI 时代将是 "GPU 算力为主,CPU 算力为辅 " 的计算模式。2024 年市场新增算力,超过 50% 的需求 AI 驱动产生,这一趋势将持续扩大。阿里云投资建设了大量的 AI 计算基础设施,依然远远无法满足客户需求。
没错,GPU 计算,就是未来。
在过去几十年里,从云端服务器到超级计算机,CPU 一直都充当着计算体系核心的责任。比如著名的天河一号,就采用了 14336 个商用处理器、7168 个加速处理器和 2048 个自主飞腾 -1000 处理器,这些处理器基本是「CPU」,也就是 " 逻辑处理器 "。
图源:维基百科
CPU 主要被设计用于处理通用计算任务,进行复杂的逻辑运算和顺序运算。你可以将 CPU 看作是一个大学生,他有着足够的逻辑推算能力来处理各种复杂的任务,但是每次只能处理一个任务,也就是所谓的「单线程」。
虽然在后续的 CPU 设计中,工程师通过指令集、CPU 架构等方式,让 CPU 可以同时处理两个工作(双线程),却已然是当下的极限。而且 CPU 在处理任务时,仍然需要先处理完手头的工作,再进入下一个工作流程,也就是「顺序执行」。
逻辑运算与顺序执行,构成了 CPU 的通用计算基础,只要你输入的程序符合 CPU 的运算逻辑,那么 CPU 所给出的计算结果都是一样的,并不会因为你使用的是 AMD,他使用的是英特尔,所以你的 1+1=2,他的 1+1=3。
得益于强大的通用计算能力,CPU 成为人类构建通用型计算中心时的首选,因为计算中心的设计初衷就是用来执行不同领域的计算任务。而服务器则是承担着为云端应用提供数据交换和计算等支持,为了使其能够适应不同类型的应用运算,通用计算能力就是关键。
图源:veer
最近两年,一切都发生了翻天覆地的改变,GPU 成为大多数新数据中心及超级计算机的核心,GPU 算力的增长速度屡屡突破历史记录,企业疯狂采购 GPU 核心,搭建全新的计算矩阵,而这一切的「元凶」,就是生成式 AI。
作为近年来最受关注、热度最高的前沿领域,生成式 AI 有一个特点,那就是对算力的恐怖需求,这个需求不仅体现在训练、优化 AI 大模型上,更是随着用户数量的增长飙升。生成式 AI 可以说是人类少有的,从出现到普及耗时最短的前沿科技,现如今每一个接入互联网的人,都可以通过访问通义千问等网站来使用生成式 AI。
图源:通义千问
庞大的需求催生了数量众多的数据中心,但是也让一部分人对此产生疑惑:为什么要选择 GPU 而非 CPU 来搭建 AI 数据中心?
GPU 最初的设计用途是图形渲染任务,这决定了其需要更强大的并行任务处理能力。以游戏为例,当你在游戏中看到一个箱子,实际上你看到的是一个由大量三角形组成的 3D 模型,如果你玩过早期的 3D 游戏,那么你肯定会对游戏中 " 有棱有角 " 的角色有着深刻印象。
图源:推特
实际上,这个问题就是因为早期的 GPU 算力不足,只能进行百位数的三角形运算,无法满足构建「光滑」模型的要求。随着 GPU 的运算性能加强,当我们可以在一秒的时间里渲染出千万级的三角形并组成 3D 模型,那么在游戏玩家的眼中,这个模型就有着非常真实的视觉效果,也就是「拟真级」精细建模。
因为需要处理的任务简单(生成三角形并着色),但是任务数量却非常多(千万级),导致 GPU 成为一个偏科生。论对单个数据的处理能力,GPU 与 CPU 的对比就像是小婴儿与大学生,区别在于 GPU 是上千万个 " 小婴儿 " 的集合,而 CPU 则是几十个大学生的集合。
当我们需要执行一个将 1000 万个 " 三角形 " 从左边移动到右边的任务时,GPU 和 CPU 谁的效率会更高?GPU 的并行计算能力,也是其能够处理复杂 3D 模型渲染的关键。
而在生成式 AI 诞生后,人们发现 GPU 的并行计算能力,远比 CPU 要更适合进行 AI 运算,其中的原因则与 AI 大模型的底层结构有关。虽然在我们的眼中,AI 大模型根据数据集群的不同,可以生成文字、图画、音乐等各种类型的结果,但是在实际运算中,所有数据其实都以一种形式存在—— Token,也就是「最小语义单元」。
当你输入一段文字时,应用程序会将文字拆解为数以万计的 Token,然后再丢到处理核心中进行计算。这个过程是否很眼熟?没错,整个逻辑与 GPU 渲染一个箱子其实是一样,将一个任务拆分成大量的小任务,然后根据 AI 模型的逻辑推理来整合结果并输出答案。
可以说,在 AI 时代的数据中心里,GPU 就是整个 AI 算力矩阵的核心,其重要性要远远超过 CPU,而掌握着最先进 GPU 的厂商,将成为半导体领域的无冕之王。
在目前的 AI 市场中,大多数人都认可一个观点:英伟达就是 AI 算力的代名词。不管是每秒可以进行数十万亿次浮点运算的 H100,还是目前最强的消费级 AI 显卡 RTX 4090,都让英伟达成为商业领域和消费领域无可争议的 NO.1。
特别是在消费领域,英伟达已经成为个人 AI 计算机的唯一选择,其背后的原因就是英伟达的「杀手锏」—— CUDA。CUDA 是由 NVIDIA 开发的并行计算平台和编程模型,他的作用是允许开发者利用英伟达 GPU 的强大并行计算性能来执行通用计算任务。
图源:英伟达
看完上一章节的朋友,估计会有点蒙,为什么要用 GPU 来执行通用计算任务?这不是 CPU 的工作吗?没错,通用计算任务确实是 CPU 的强项,但是俗话说得好:三个臭皮匠,顶个诸葛亮。当 GPU 的并行算力强大到一定程度,那么只要有一个可以进行任务转换的模型,就可以将 GPU 算力运用在通用计算任务里。
与此同时,英伟达还为 CUDA 提供了丰富的工具和库,以及各种运算模型,让使用英伟达 GPU 的开发者可以大幅度节省开发时间,并且更好地发挥 GPU 性能。正是利用 CUDA 对并行算力的支配,使得英伟达 GPU 可以在个人电脑里有效执行各种通用计算任务,为用户提供足以支撑本地 AI 大模型部署的 AI 算力。
那么 AMD 就没有类似的工具吗?其实是有的,名为 ROCm,ROCm 的前身 Radeon Open Compute 其实早在 2016 年就已经发布,主要用于通用 GPU 计算(GPGPU)、高性能计算(HPC)和异构计算等领域。但是因为缺乏足够的支持,所以生态规模远远无法与 CUDA 相比,而在生成式 AI 爆火之后,AMD 很快就意识到了 Radeon Open Compute 的重要性,将其更名为 ROCm 并投入大量的资源进行更新。
图源:AMD
作为一个 AMD 显卡用户,其实在过去的两年里是可以明显感受到 AMD 在 AI 领域的进步,曾经只能通过转译方式运行本地 AI 模型的 AMD 显卡,如今已经可以借助 ROCm 的工具,实现原生本地 AI 模型部署和运算,效率和算力都有着质的变化。
虽然还无法与 CUDA 相比,但是已经让人看到了些许的希望,更何况从价格上来说,性能相近的 AMD 显卡价格往往只要英伟达显卡的 80% 甚至 70%。这也意味着 AMD 只要可以解决通用计算模型的问题,那么就可以为个人及小型企业提供更具性价比的选择,吃下相当一部分 AI 显卡市场。
不过在 ROCm 成熟之前,英伟达都仍然会是消费级 AI 市场的最佳选择。
与消费级市场不同的是,AMD 在服务器市场的增长却十分迅猛,Data Center Dunamics 的数据显示,2024 年第一季度,AMD 的数据中心业务创下内部收入的新纪录,同比增长达 38%。而在第二季度,AI 服务器的出货量同比增长 41.5%,占整体出货量的 12.2%。
虽然从整体的市场份额来看,英伟达仍然占据着 90% 以上的市场,但是 AMD 也并非唯一的挑战者。
谷歌前段时间推出的 TPU(Tensor Processing Unit)芯片就专门用于加速机器学习和深度学习任务,采用 Arm 架构设计,在性能和能效上都有出色表现,已经被运用在谷歌的多项 AI 服务中。
而英特尔则是通过收购 Habana Labs 拿到了 Gaudi AI 加速器,结合新一代至强处理器的 AI 加速功能,紧密布局 CPU AI 领域。这个市场的规模同样不小,因为并非所有数据中心都以 AI 为核心应用,新一代 CPU 数据中心可以更好地兼顾通用型计算任务和 AI 计算任务,减少重复建设数据中心的成本与维护花销。
此外,英特尔也一直在关注移动 PC 的 AI 需求,这是英伟达目前最为弱势的市场,因为英伟达 GPU 虽然有着出色的 AI 算力,代价却是极高的功耗,无法满足移动 PC 的长续航要求,这就为英特尔等厂商留下了可乘之机。
在今年的 IFA 上,英特尔就推出了内置新一代 NPU(AI 加速核心)的酷睿 Ultra 200v 系列处理器,提供强大算力支持的同时还兼顾了长续航等要求,与高通等新一代 Arm PC 处理器在 AI PC 市场展开激烈争夺。
短时间来看,英伟达在 AI 算力市场的优势仍然巨大,但是长远来看,群狼环伺之下的 AI 市场,英伟达双拳难敌四手。诸如移动 PC、智能终端等英伟达的弱势市场,很快就会被其他厂商瓜分干净,而关键的服务器市场也并非高枕无忧,AMD 的 MI300 系列 AI 显卡份额增长迅速,已经足够引起英伟达的警觉。
不过,竞争所带来的创新与发展,才是科技进步的关键,随着 AI 领域的竞争加剧,实际上也在推动 AI 成本的下降,让 AI 技术得到更快、更广泛的应用。最后,我想用吴泳铭先生演讲中的一句话来作为结尾:
AI 驱动的数字世界连接着具备 AI 能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。
一个崭新的世界,近在咫尺。