张一鸣姗姗来迟,却更迟了
张一鸣姗姗来迟,却更迟了
进入 9 月,视频大模型成为了大厂的 AI 新赛点。而这一次,张一鸣再次姗姗来迟。
距离阿里通义千问文生视频上线 5 天,距离 6 月份快手发布可灵,时间已经过去 3 个月,9 月 24 日,字节终于推出了自己的豆包 · 视频生成模型。
而值得关注的是,一向看重投资回报率(ROI)、偏实用主义的张一鸣,一开始就为豆包视频大模型定了 " 商业化 " 的调。
在活动现场,火山引擎总裁谭待表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐 MV、微电影和短剧等。
图注:输入 " 一个戴着圣诞帽的小女孩抱着布偶猫 " 生成效果
图源:字母榜
同时谭待也强调,在豆包视频大模型发布前,就已经在抖音不少短剧项目 " 露脸 "。而上个月,昆仑万维发布 AI 短剧生成平台 SkyReels,7 月,美图秀秀发布 AI 短片生成工具 MOKI。
" 现在已经有上百家短剧出海企业成为 AI 大模型用户。" 某头部 AI 工具服务商亦表示,对于大模型厂商如字节而言,用 AI 打下高昂的影视制作成本,AI 加持下,短剧、MV 将成为类似网文、短视频一样有更多用户参与的内容产品,在他看来," 晚来的字节,下的是商业化的棋。"
事实上,当 Sora" 平地一声雷 " 炸圈,能否推出视频大模型,成为了 2024 年衡量大模型厂商技术是否先进的 " 新标准 "。
在这场齐追 Sora 的追逐战里," 不紧不慢 " 的字节,拖到 9 月底才在豆包大模型 Pro 升级的当口,为视频大模型 " 留了一个版面 "。
当字母榜打开即梦 AI,注意到应用豆包视频大模型后,C 端用户能够在即梦 AI 内体验视频生成。
最长 12 秒 " 中规中矩 " 的生成时长,对齐可灵的生成效果," 不算惊艳,但迟了几个月,也没被先发的视频大模型甩出技术差距。" 作为首批内测豆包视频大模型的 AI 从业者,张洋告诉字母榜,尽管国内视频大模型扎堆更新,但字节姗姗来迟的底气,或许正在于此前 AI 视频生成的效果,都并未能让用户 " 惊艳 "。
而国产模型追 Sora 的同时,OpenAI 却已经通过 GPT-o1 的推出,为基座大模型展示了强化学习的新路径,OpenAI 或即将迎来估值超万亿的新时代,大模型厂商们,也将面临新的赛点。
剪映此前推出的即梦 AI 只支持 3 秒的视频时长;加载豆包大模型后,即梦 AI 内可以生成 3-12 秒的视频。
相比之下,可灵 1.0 版本,在未开通会员的情况下,只能体验 5 秒的视频生成,而字节的即梦 AI 通过每天登录发放 66 积分的形式,支持用户的免费试用。
不过,不像豆包大模型凭借低于行业 98% 的价格,开始卷起 " 大模型零元购 ",引发热议,豆包大模型似乎不符合字节一贯 " 闷声干大事 " 的传统,显得有些粗糙。
输入 " 一个小女孩怀抱着布偶猫 " 的关键词,在豆包视频大模型发布前的内测版,第一次,AI 似乎将布偶猫理解成了玩偶,生成的视频是怀抱着假猫,视频内的人脸也略显僵硬。
而等 9 月 25 日再次生成后,布偶猫又变成了田园猫,第三次生成时,才 AI 大模型才准确完成了指令。张洋告诉字母榜,作为首批内测的 AI 从业者,豆包视频大模型的使用效果并不算惊艳。
不过,豆包视频大模型可以切换 3D 动画、2D 动画、国画、黑白、厚涂等不同风格,还可以选择随机运镜,或者自定义推近、拉远等运镜形式,相比起只提供 16:9、9:16、1:1 三种画面比例的可灵,豆包显然更加适配不同的画面比例,包括 3:4、2:3、4:3、3:2 等更多的比例选择。
在张洋看来,在用户的互动的体验上,豆包确实提供了更多的选择。不过,虽然豆包视频大模型可以实现一个 prompt 内的多镜头切换,但 " 整体画面的衔接仍有些不流畅,人物的表情有些失真。"
不过,张一鸣这次也毫不意外地将 " 实用主义 " 刻在了豆包视频大模型的基因里。
豆包视频大模型一经发布,便面向企业市场开启邀测,同时火山引擎总裁谭待更表示,豆包视频生成模型从一落地就开始考虑商业化,使用领域包括电商营销、动画教育、城市文旅和微剧本,例如音乐 MV、微电影和短剧等。
不同于其他 " 拿着锤子找钉子 " 的 AI 创企,不论是字节还是快手," 本身有内容有平台,钉子在手,做视频大模型天然有着更多的应用场景。" 张洋表示,
7 月 24 日,可灵 AI 官方微信发文透露,目前申请权限的用户数已突破 100 万,并在同一天上线付费会员体系,包含黄金、铂金、钻石 3 个会员类别,年度会员价格从 500 多元到 5000 多元不等。对于姗姗来迟的字节而言,或许能在技术上与可灵不分上下,但在商业化路径上,已经开启 C 端付费的可灵,似乎再次快了一步。
5 月,面对 "OpenAI 在谷歌发布 I/O 的前一天发布 GPT-4o" 的问题,谷歌母公司 Alphabet 兼谷歌 CEOSundar Pichai 直言," 当我们正处于 AI 的拐点上时,我看到的是机会,所以如果把这个时间线拉长,那么某一天发生的某一件事就都无关紧要了。"
如同被 OpenAI 时时抢跑的谷歌,晚来的字节,手握钉子,似乎打的还是后来居上的主意。
根据 QuestMobile 数据显示,截止到 7 月份,AI APP 月活用户规模已突破 6630 万。其中,豆包、文小言、Kimi、星野、通义位居 top5,月活用户规模分别为 3042 万、1008 万、625 万、466 万、424 万。
尽管豆包 APP 的发布时间明显晚于阿里的通义千问、更晚于百度的文心一言、Kimi,但豆包的月活用户规模已经大于其他四家 APP 用户活跃数的总和。
因此,在 AI 视频生成领域,面对国内技术突破迟滞的现状,字节也似乎有着晚来的底气。
不管是先出圈的可灵,还是姗姗来迟的字节豆包视频大模型,7 月、9 月扎堆推出视频大模型的厂商们,似乎谁都没能追赶上 Sora。
从快手的《山海奇镜之劈波斩浪》,到字节的《三星堆:未来启示录》,用 AI 做短剧成为了头部厂商 AI 视频生成效果的 " 炼金石 "。
显然,相比起需要真实人物出现并互动的传统短剧,神话、科幻等类型的短剧,更适合现阶段的 AI 大模型。
" 现在的 AI 生成水平不稳定,大场景的炸弹爆炸、烟火升空等等的效果已经真假难辨,但也需要调试人员先生图,再进行 1-2 个小时的调整," 张洋告诉字母榜,现在的 AI 大模型生成的视频,更细节的人物表情和动作生成,仍然存在表情不自然,动作幅度小、表现形式机械的问题。
而 AI 短剧平台 Reel.AI 朱江也在采访中直言," 非动漫短剧预计要在今年下半年才能达到可消费水平。
李彦宏曾表示," 所谓领先 12 个月或落后 18 个月并不重要,每个公司都处在完全竞争的市场内,你不管做什么都有很多竞争对手。"
手握亿级用户规模的抖音 APP,字节的从容不难解释。甚至如今还未发布视频大模型的腾讯,也手握着微信这一最大的社交 APP,对于 " 手握钉子 " 的张一鸣和马化腾,他们似乎有着更多的选择。
" 现在用哪家的视频大模型,都在抽卡。"
" 生成 10 次里大概有 1 次能真的达到商用标准,但调试 10 次的过程,或许还不如人工更有效率。" 试用过市面上的几家视频大模型后,影视从业者单杉直言,现在的大模型在生成效果上,没有达到用户的期望。
" 输入生成一段布偶猫的视频,结果要不就是理解成玩具猫,要不就是田园猫,当用户 2-3 次试用无法得到稳定且超出预期的结果,就很难真正地完成用户留存 "。在单杉眼里,这或许也能解释为何发布已超半年,Sora 却迟迟没有公测。
年初便曾有报道称,OpenAI CEO 奥特曼将投入 7 万亿美元与台积电合作建设晶圆厂,意在跳过英伟达自研芯片,而 9 月,OpenAI 被爆出台积电正在为其 "Sore 视频模型 " 开发一款定制 A16 埃米级工艺芯片,目的在于提升其视频生成能力。
而这款 A16 的芯片,密度提升 1.10 倍,在相同工作电压下,速度提升了 8% — 10%; 在相同速度下,功耗却降低了 15% — 20%。用 " 更低的价格和能耗,推进更快的 AI 视频生成 ",显然是 OpenAI 押后 Sora 公测的重要原因。
想要实现更好的 AI 视频生成效果,更大的算力成本的支出,更低的价格和能耗,这也成为了国内视频大模型最终能否 " 跑出来 " 的关键因素。
而近日,字节又被爆出计划与台积电就 AI 芯片开展合作,尽管字节随后回应称报道不实,并表示在芯片领域的探索更多集中于推荐和广告的业务优化。但在字节招聘网页输入 " 芯片 " 等关键词,包含 AI 芯片架构、芯片 SIL 测试工程师在内,已经有 200 多个相关岗位。
但对于张一鸣乃至国内的大模型头部厂商而言,摆在他们面前的挑战或许更为棘手。
9 月 19 日,在 2024 云栖大会上,月之暗面创始人杨植麟表示,GPT-o1 的推出的主要意义在于提升了 AI 上限。" 提升 10% 的生产力,还是说 10 倍 GDP,这里面最重要的问题,就是能不能通过强化学习去进一步 scaling。"
在 GPT-o1 时代,当如今的豆包、通义千问、文心、Kimi 的即时聊天,从思考 10 秒、20 秒生成答案,到能够调用各种工具,去执行分钟级别甚至天级别的任务,国内用户已熟知的 AI 即时聊天产品形态将迎来巨大的改变,"AI 更像人,或者一位助理 ",这似乎成为了月之暗面们下一次追赶 OpenAI 的新赛程。
当新的竞争时刻再次到来,国内大模型厂商的基座大模型彼时未见 " 新水花 ",但对于张一鸣们而言,则又一次面临抉择。
是将大把的 " 人、钱、算力 " 继续投向文生视频这样的功能场景做迭代,还是学习 OpenAI,引进强化迭代路线?对于不缺钱的字节来说,当然可以 " 两个都要 "。
而当 " 强化学习 " 带来的想象空间足够大、足够诱人,新的发令枪打响,没能起早的字节,这一次能冲在前头吗?
(文中张洋、单杉为化名)