字节跳动加入AI视频大战

2024-09-24 22:03:32

导读经济观察网记者任晓宁 9月24日下午，字节跳动旗下火山引擎发布了两款AI视频模型，这意味着字节跳动正式加入了AI视频大战。AI视频是当...

经济观察网记者任晓宁 9月24日下午，字节跳动旗下火山引擎发布了两款AI视频模型，这意味着字节跳动正式加入了AI视频大战。

AI视频是当下互联网大厂和创业公司集体发力的领域。8月底，AI创业公司MiniMax推出视频模型。9月19日，阿里巴巴也发布了通义万相视频模型。据经济观察网不完全统计，仅在国内，过去4个月时间便有超过10家公司推出了AI视频产品。

相较其他公司，字节跳动的视频模型发布时间较晚。火山引擎总裁谭待接受经济观察网在内媒体采访时说，字节跳动不一定非要抢第一，他们对模型的认知是，这是一个能影响未来10年、20年的长远技术，所以希望推出的模型质量是经过考验的。

字节为何入局

时至9月，AI视频模型已经不再罕见，甚至成了AI创业公司必选的赛道。为什么这些公司如此重视AI视频？谭待说，视频的消费在当下已经成为主流，无论是娱乐、电商还是本地生活，各行各业都离不开视频，这意味着视频是用户的核心需求。

此前MiniMax创始人闫俊杰接受经济观察网采访时也有类似观点。他说，为了让产品能有非常高的用户覆盖度和非常深的用户使用度，唯一的办法就是输出动态的视频内容，而不是仅输出基于文字的文本内容。

相比其他公司，拥有抖音和剪映的字节跳动在视频领域具有优势，其主要优势在于视频内容积累。一位AI视频创业公司创始人告诉经济观察网，他们训练视频的数据主要是海外开源数据、AI合成数据，以及向版权方购买的数据。

谭待提到，抖音和剪映在视频领域的业务理解和技术积累，对于豆包视频模型是一个很大的加分项。同时，由于豆包是全体系的模型，目前包括文本、音乐、视频、图片等多个模态，因此能更好地理解用户的指令。

他认为，豆包视频模型与其他视频模型的不同之处在于，它可以生成多个主体运动的复杂交互画面，也可以保证多镜头切换的内容一致性，这两项能力能让AI视频看起来不那么像PPT版视频。

AI视频仍不尽如人意

虽然入局者众多，但从AI视频的效果和AI视频制作简易度来看，这个行业目前发展并不算快。

北京国际电影节上有一个获奖的2分钟AI视频，主创团队提到，他们3个人花了十几天时间做这个视频。当前创作者制作AI视频，都要经过一个较为复杂的流程，先写文字脚本，再把脚本拆分为多个场景，为每个场景写像咒语一样的提示词，让每个场景生成多张图，一般每张图需要生成几十次，才能得到自己想要的结果。

一位创作者说：“做AI视频就像玩抽卡游戏，尝试几百次才能试出好结果。”

主流的AI视频工具，一次能生成4—10秒左右的视频片段。生成一段2分钟的完整故事，需要使用多段视频拼接。但在当前算力条件下，创作者往往需要排队超过10分钟，才能使用AI视频工具。除了专业创作者，没有人有耐心制作AI视频。

AI视频当下并不是一个大市场。头豹研究院的数据显示，预计到2026年，中国AI视频市场规模将增长至92.79亿元。

上述AI视频创业公司创始人说，目前AI视频行业处于极早期，现在仍在新手保护期的阶段，用户对产品性能有很高的容忍度。最终哪家公司能跑到最后，还要看它的产品能力能不能获得用户认可。在这个维度上，互联网大厂和AI创业公司都处于同一起跑线。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：