好爱生活

​Coatue重磅报告解读:空间大模型与通用机器人

点击: 来源:好爱生活
摘要:Coatue重磅报告解读:空间大模型与通用机器人 文|AlphaEngineer,作者 | 费斌杰 全球顶级对冲基金 Coatue 近日发布了一篇关于 具身智能 的重磅报告,题为《The Path to General-Purpose Robots》。

Coatue重磅报告解读:空间大模型与通用机器人

文|AlphaEngineer,作者   |   费斌杰

全球顶级对冲基金 Coatue 近日发布了一篇关于 " 具身智能 " 的重磅报告,题为《The Path to General-Purpose Robots》。

Coatue 认为,AI 机器人是一股颠覆性的力量,有望成为人类历史上最大的科技浪潮之一,值得高度重视。

这篇报告亮点很多,不仅细致分析了现阶段 AI 机器人面临的挑战,同时也对行业发展做出了合理展望,从投资的角度给出了专业意见。无论你是科技投资人、AI 从业者、还是对机器人感兴趣的朋友,都值得一读。

下面我给大家解读一下这篇大报告。

理想很丰满,现实很骨感

机器人行业也许是 Demo 与现实差距最大的行业之一。

Demo 视频中是这样的:

现实则是另一种画风:

1961 年,第一台工业机器人诞生于 GM,用于汽车生产流水线。

经过 50 多年的发展,机器人的形态变得越来越多样,功能场景也丰富了起来,有扫地机器人、四足机器人、人型机器人等。

纵观历史,机器人渗透率其实是线性提升的。

以工业机器人为例,每万名制造业员工对应机器人的数量从 2013 年的 53 台增长到 2022 年的 151 台,CAGR 达到 12%。

虽然机器人行业整体发展稳中向好,但是具体公司的的表现并不尽如人意。

机器人公司普遍存在商业化困难的问题,加之前期资本开支巨大,22-23 年大量机器人公司破产倒闭。

空间智能,让通用机器人成为可能

上一代机器人更多是执行某些单一任务的,比如扫地机器人只负责扫地,农业无人机只负责灌溉农田,工业机器人只负责机械焊接等。

但是随着 AI 泛化智能的涌现,下一代机器人有望成为 " 通用机器人 ",胜任各式各样的任务与环境。

正如大语言模型让语言推理成为现实,空间大模型有望打破第四面墙,让 AI 真正理解物理世界,从而与之交互。

机器人面临的核心挑战:缺乏训练数据

对人类来说很简单的任务,对机器人来说可能并不容易。

Coatue 举了三个具体例子。

灵巧性:

空间感知能力:

平衡恢复能力:

为了克服这些问题,需要用海量数据进行训练,使机器人变得更加智能。

但是机器人是一个非常新的领域,严重缺乏训练数据的积累。

对比不同模态下的最大数据集,文本模态约 15T tokens,图片模态有 6B 图文配对数据,视频模态有 2.6B 视听特征数据。

然而机器人模态只有 240 万个数据片段,相比其他模态而言,数据积累远远不够。

机器人训练数据的四种采集方式

既然数据是机器人发展的核心瓶颈,那么有什么方法可以快速积累机器人训练数据呢?

近年来,这方面的研究层出不穷,逐渐形成了四种流派。

机器人数据采集方法 1:远程操作(Teleoperation)

顾名思义,由实验人员操作机械手柄,远程控制机器人做出相同动作,以此来积累数据。

机器人数据采集方法 2:AR

在一项名为《Explainable Human-Robot Training and Cooperation with Augmented Reality》的研究中,研究人员通过 AR(增强现实)技术让人机交互过程具备更强的可解释性,从而进行数据积累。

机器人数据采集方法 3:仿真

通过海量算力进行模拟运算,计算得出海量机器人训练数据集。

仿真可能是目前最有可能做到规模化数据生成的路径,背后需要巨大的算力支持。

目前 Nvidia 的 Jim Fan 团队采取的就是这条技术路径。

机器人数据采集方法 4:视频学习

通过多模态大模型,直接让机器人通过视频学习人类动作,从而积累训练数据。

机器人成本与人类工资的黄金交叉

随着 GPU 成本的下降,大模型训练的成本大幅降低。

过去一年中,Azure 云平台上的 A100 显卡租赁价格从 6 美金 / 小时下降到 1.5 美金 / 小时,降幅达到 75%。

硬件成本同样在快速降低,20 年 L3 LiDAR 传感器的成本在 7400 美金左右,现在已经腰斩到 3200 美金。

机器人成本不断下降的同时,人类的薪酬水平却在稳步提升。

可以想见,在不久的将来,二者终将迎来金叉。

Coatue 认为 26-27 年人型机器人的成本就会降低到人类平均薪酬以下,这无疑会对全球劳动力市场造成重大冲击。

硅基生命进化进行时:更快的速度,更高的灵巧性

作为硅基生命的代表,机器人在很多场合的能力表现已经超过了人类。

比如宇树的 H1 机器人行走速度达到 3.3 米 / 秒,而人类平均行走速度只有 1.42 米 / 秒。

除了行走速度之外,机器人动作的灵巧性也在快速提升。

马斯克表示,今年新的 Optimus 机器人将有 22 个自由度。

随着大量 AI 机器人公司的涌现,硅基生命的进化速度会越来越快。

类比无人驾驶,L4 人型机器人即将到来

在自主性方面,人型机器人与无人驾驶汽车类似,可以分为 L1 到 L5。

无人驾驶汽车从 L1 到 L2 花了大约 20 年,而从 L2 到现在的 L4 只用了不到 10 年。

人型机器人从 L1 到 L2 用了大约 50 年,从 L2 到 L4 预计只需要不到 5 年。

机器人的 "ChatGPT 时刻 " 即将到来?

大模型发展如火如荼,大家都在期待着机器人领域迎来自己的 "ChatGPT 时刻 "。

纵观过去 20 年,真正称得上科技领域的 "WOW! 时刻 " 的只有三次,分别是 07 年的 iPhone、22 年的 ChatGPT、以及 24 年的无人驾驶。

这些 "WOW! 时刻 " 有着一些共同特征。

首先,它们都在 day 1 带来了激动人心的 use case,并通过口耳相传形成病毒式传播。

其次,应用成本达到拐点,使得技术能够向市场大众普及,构成正向的商业模型。

第三,开发者社区增长迅猛,围绕核心技术及产品形成商业生态。

Coatue 预测,机器人并不会迎来所谓的 "ChatGPT 时刻 ",因为它尚不具备以上几点特征。

相反,Coatue 认为机器人的普及,会经历由浅入深的三个阶段,走出一条独特的发展路径。

第一阶段:Seeing,人们通过电影、小说等媒介对机器人形成初步模糊的了解。

第二阶段:Experiencing,指消费者直接享受机器人提供的服务,而非自己拥有机器人,类似 B2B2C 的模式。比如你在咖啡厅享用一杯机器人拉花的咖啡,就属于这个阶段。

第三阶段:Owning,即每个用户自己拥有一台或多台机器人。

Coatue 还预测了人型机器人能力的成长曲线。

对于家庭人型机器人,能力成长路径依次为:扫地   ->   做饭 -> 管家 -> 保姆。

对于户外人型机器人,应用场景成长路径依次为:仓库 -> 门店 -> 消防 -> 手术。

投融资火热,机器人生态渐成

随着奇点的不断逼近,AI 机器人公司的投融资越来越火热。

围绕 AI 机器人,一个完整的生态圈正在形成,包括机器人开发工具、机器人训练数据集、机器人运维、空间大模型、机器人生产制造等。

Wintel,还是围墙花园?

类似 PC 时代,AI 机器人正在形成 Wintel-like 以及 Walled Garden 这两种典型的商业模式。

Neuralink 的脑机接口、SpaceX 的卫星通信、Tesla 的无人驾驶、xAI 的大语言模型、Optimus 的人型机器人,马斯克的这盘大棋正在逐渐浮出水面,越来越清晰。

作为 AI 时代极少数拥有机器人全栈能力的公司,Optimus 的发展值得期待。

相关文章

    ​金韩彬在社交网站发文,宣布退出iKON

    ​金韩彬在社交网站发文,宣布退出iKON

    ​元代鲜于枢书法欣赏

    ​元代鲜于枢书法欣赏

    ​你家猫打算暗杀你的7种征兆,有点可怕

    ​你家猫打算暗杀你的7种征兆,有点可怕

    ​创业失败后,我在大理负债“躺平”

    ​创业失败后,我在大理负债“躺平”

    ​300万骑手小哥,撑起一个IPO

    ​300万骑手小哥,撑起一个IPO

    ​百度搜索打响守擂战

    ​百度搜索打响守擂战

    ​当超头部主播失去C位,流量会去哪儿?

    ​热门专业毕业20年,我明白人生没有上帝视角

    ​热门专业毕业20年,我明白人生没有上帝视角

    ​互联网居家办公消亡记

    ​互联网居家办公消亡记

    ​为什么公园越来越“荒”了?

    ​为什么公园越来越“荒”了?

    ​超7000家门店关闭,上半年实体店依旧在渡劫

    ​超7000家门店关闭,上半年实体店依旧在渡劫

    ​东山区离开13年了,再见再也不见..

    ​东山区离开13年了,再见再也不见..