张一鸣姗姗来迟，却更迟了

2024-09-26 03:10 点击：来源：好爱生活

摘要：张一鸣姗姗来迟，却更迟了进入 9 月，视频大模型成为了大厂的 AI 新赛点。而这一次，张一鸣再次姗姗来迟。距离阿里通义千问文生视频上线 5 天，距离 6 月份快手发布可灵，时间已

张一鸣姗姗来迟，却更迟了

进入 9 月，视频大模型成为了大厂的 AI 新赛点。而这一次，张一鸣再次姗姗来迟。

距离阿里通义千问文生视频上线 5 天，距离 6 月份快手发布可灵，时间已经过去 3 个月，9 月 24 日，字节终于推出了自己的豆包 · 视频生成模型。

而值得关注的是，一向看重投资回报率（ROI）、偏实用主义的张一鸣，一开始就为豆包视频大模型定了 " 商业化 " 的调。

在活动现场，火山引擎总裁谭待表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐 MV、微电影和短剧等。

图注：输入 " 一个戴着圣诞帽的小女孩抱着布偶猫 " 生成效果

图源：字母榜

同时谭待也强调，在豆包视频大模型发布前，就已经在抖音不少短剧项目 " 露脸 "。而上个月，昆仑万维发布 AI 短剧生成平台 SkyReels，7 月，美图秀秀发布 AI 短片生成工具 MOKI。

" 现在已经有上百家短剧出海企业成为 AI 大模型用户。" 某头部 AI 工具服务商亦表示，对于大模型厂商如字节而言，用 AI 打下高昂的影视制作成本，AI 加持下，短剧、MV 将成为类似网文、短视频一样有更多用户参与的内容产品，在他看来，" 晚来的字节，下的是商业化的棋。"

事实上，当 Sora" 平地一声雷 " 炸圈，能否推出视频大模型，成为了 2024 年衡量大模型厂商技术是否先进的 " 新标准 "。

在这场齐追 Sora 的追逐战里，" 不紧不慢 " 的字节，拖到 9 月底才在豆包大模型 Pro 升级的当口，为视频大模型 " 留了一个版面 "。

当字母榜打开即梦 AI，注意到应用豆包视频大模型后，C 端用户能够在即梦 AI 内体验视频生成。

最长 12 秒 " 中规中矩 " 的生成时长，对齐可灵的生成效果，" 不算惊艳，但迟了几个月，也没被先发的视频大模型甩出技术差距。" 作为首批内测豆包视频大模型的 AI 从业者，张洋告诉字母榜，尽管国内视频大模型扎堆更新，但字节姗姗来迟的底气，或许正在于此前 AI 视频生成的效果，都并未能让用户 " 惊艳 "。

而国产模型追 Sora 的同时，OpenAI 却已经通过 GPT-o1 的推出，为基座大模型展示了强化学习的新路径，OpenAI 或即将迎来估值超万亿的新时代，大模型厂商们，也将面临新的赛点。

剪映此前推出的即梦 AI 只支持 3 秒的视频时长；加载豆包大模型后，即梦 AI 内可以生成 3-12 秒的视频。

相比之下，可灵 1.0 版本，在未开通会员的情况下，只能体验 5 秒的视频生成，而字节的即梦 AI 通过每天登录发放 66 积分的形式，支持用户的免费试用。

不过，不像豆包大模型凭借低于行业 98% 的价格，开始卷起 " 大模型零元购 "，引发热议，豆包大模型似乎不符合字节一贯 " 闷声干大事 " 的传统，显得有些粗糙。

输入 " 一个小女孩怀抱着布偶猫 " 的关键词，在豆包视频大模型发布前的内测版，第一次，AI 似乎将布偶猫理解成了玩偶，生成的视频是怀抱着假猫，视频内的人脸也略显僵硬。

而等 9 月 25 日再次生成后，布偶猫又变成了田园猫，第三次生成时，才 AI 大模型才准确完成了指令。张洋告诉字母榜，作为首批内测的 AI 从业者，豆包视频大模型的使用效果并不算惊艳。

不过，豆包视频大模型可以切换 3D 动画、2D 动画、国画、黑白、厚涂等不同风格，还可以选择随机运镜，或者自定义推近、拉远等运镜形式，相比起只提供 16:9、9:16、1:1 三种画面比例的可灵，豆包显然更加适配不同的画面比例，包括 3:4、2:3、4:3、3:2 等更多的比例选择。

在张洋看来，在用户的互动的体验上，豆包确实提供了更多的选择。不过，虽然豆包视频大模型可以实现一个 prompt 内的多镜头切换，但 " 整体画面的衔接仍有些不流畅，人物的表情有些失真。"

不过，张一鸣这次也毫不意外地将 " 实用主义 " 刻在了豆包视频大模型的基因里。

豆包视频大模型一经发布，便面向企业市场开启邀测，同时火山引擎总裁谭待更表示，豆包视频生成模型从一落地就开始考虑商业化，使用领域包括电商营销、动画教育、城市文旅和微剧本，例如音乐 MV、微电影和短剧等。

不同于其他 " 拿着锤子找钉子 " 的 AI 创企，不论是字节还是快手，" 本身有内容有平台，钉子在手，做视频大模型天然有着更多的应用场景。" 张洋表示，

7 月 24 日，可灵 AI 官方微信发文透露，目前申请权限的用户数已突破 100 万，并在同一天上线付费会员体系，包含黄金、铂金、钻石 3 个会员类别，年度会员价格从 500 多元到 5000 多元不等。对于姗姗来迟的字节而言，或许能在技术上与可灵不分上下，但在商业化路径上，已经开启 C 端付费的可灵，似乎再次快了一步。

5 月，面对 "OpenAI 在谷歌发布 I/O 的前一天发布 GPT-4o" 的问题，谷歌母公司 Alphabet 兼谷歌 CEOSundar Pichai 直言，" 当我们正处于 AI 的拐点上时，我看到的是机会，所以如果把这个时间线拉长，那么某一天发生的某一件事就都无关紧要了。"

如同被 OpenAI 时时抢跑的谷歌，晚来的字节，手握钉子，似乎打的还是后来居上的主意。

根据 QuestMobile 数据显示，截止到 7 月份，AI APP 月活用户规模已突破 6630 万。其中，豆包、文小言、Kimi、星野、通义位居 top5，月活用户规模分别为 3042 万、1008 万、625 万、466 万、424 万。

尽管豆包 APP 的发布时间明显晚于阿里的通义千问、更晚于百度的文心一言、Kimi，但豆包的月活用户规模已经大于其他四家 APP 用户活跃数的总和。

因此，在 AI 视频生成领域，面对国内技术突破迟滞的现状，字节也似乎有着晚来的底气。

不管是先出圈的可灵，还是姗姗来迟的字节豆包视频大模型，7 月、9 月扎堆推出视频大模型的厂商们，似乎谁都没能追赶上 Sora。

从快手的《山海奇镜之劈波斩浪》，到字节的《三星堆：未来启示录》，用 AI 做短剧成为了头部厂商 AI 视频生成效果的 " 炼金石 "。

显然，相比起需要真实人物出现并互动的传统短剧，神话、科幻等类型的短剧，更适合现阶段的 AI 大模型。

" 现在的 AI 生成水平不稳定，大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨，但也需要调试人员先生图，再进行 1-2 个小时的调整，" 张洋告诉字母榜，现在的 AI 大模型生成的视频，更细节的人物表情和动作生成，仍然存在表情不自然，动作幅度小、表现形式机械的问题。

而 AI 短剧平台 Reel.AI 朱江也在采访中直言，" 非动漫短剧预计要在今年下半年才能达到可消费水平。

李彦宏曾表示，" 所谓领先 12 个月或落后 18 个月并不重要，每个公司都处在完全竞争的市场内，你不管做什么都有很多竞争对手。"

手握亿级用户规模的抖音 APP，字节的从容不难解释。甚至如今还未发布视频大模型的腾讯，也手握着微信这一最大的社交 APP，对于 " 手握钉子 " 的张一鸣和马化腾，他们似乎有着更多的选择。

" 现在用哪家的视频大模型，都在抽卡。"

" 生成 10 次里大概有 1 次能真的达到商用标准，但调试 10 次的过程，或许还不如人工更有效率。" 试用过市面上的几家视频大模型后，影视从业者单杉直言，现在的大模型在生成效果上，没有达到用户的期望。

" 输入生成一段布偶猫的视频，结果要不就是理解成玩具猫，要不就是田园猫，当用户 2-3 次试用无法得到稳定且超出预期的结果，就很难真正地完成用户留存 "。在单杉眼里，这或许也能解释为何发布已超半年，Sora 却迟迟没有公测。

年初便曾有报道称，OpenAI CEO 奥特曼将投入 7 万亿美元与台积电合作建设晶圆厂，意在跳过英伟达自研芯片，而 9 月，OpenAI 被爆出台积电正在为其 "Sore 视频模型 " 开发一款定制 A16 埃米级工艺芯片，目的在于提升其视频生成能力。

而这款 A16 的芯片，密度提升 1.10 倍，在相同工作电压下，速度提升了 8% — 10%; 在相同速度下，功耗却降低了 15% — 20%。用 " 更低的价格和能耗，推进更快的 AI 视频生成 "，显然是 OpenAI 押后 Sora 公测的重要原因。

想要实现更好的 AI 视频生成效果，更大的算力成本的支出，更低的价格和能耗，这也成为了国内视频大模型最终能否 " 跑出来 " 的关键因素。

而近日，字节又被爆出计划与台积电就 AI 芯片开展合作，尽管字节随后回应称报道不实，并表示在芯片领域的探索更多集中于推荐和广告的业务优化。但在字节招聘网页输入 " 芯片 " 等关键词，包含 AI 芯片架构、芯片 SIL 测试工程师在内，已经有 200 多个相关岗位。

但对于张一鸣乃至国内的大模型头部厂商而言，摆在他们面前的挑战或许更为棘手。

9 月 19 日，在 2024 云栖大会上，月之暗面创始人杨植麟表示，GPT-o1 的推出的主要意义在于提升了 AI 上限。" 提升 10% 的生产力，还是说 10 倍 GDP，这里面最重要的问题，就是能不能通过强化学习去进一步 scaling。"

在 GPT-o1 时代，当如今的豆包、通义千问、文心、Kimi 的即时聊天，从思考 10 秒、20 秒生成答案，到能够调用各种工具，去执行分钟级别甚至天级别的任务，国内用户已熟知的 AI 即时聊天产品形态将迎来巨大的改变，"AI 更像人，或者一位助理 "，这似乎成为了月之暗面们下一次追赶 OpenAI 的新赛程。

当新的竞争时刻再次到来，国内大模型厂商的基座大模型彼时未见 " 新水花 "，但对于张一鸣们而言，则又一次面临抉择。

是将大把的 " 人、钱、算力 " 继续投向文生视频这样的功能场景做迭代，还是学习 OpenAI，引进强化迭代路线？对于不缺钱的字节来说，当然可以 " 两个都要 "。

而当 " 强化学习 " 带来的想象空间足够大、足够诱人，新的发令枪打响，没能起早的字节，这一次能冲在前头吗？

（文中张洋、单杉为化名）