AI大模型引燃,视频云二次爆发
文|白 鸽
编|王一粟
2022年,受视频直播等业务发展需求的影响,视频云赛道成为各大厂集体押注的领域之一。
这一年,字节跳动、快手相继发布了背后的视频云技术能力。而同期与之相争的,除了阿里云、腾讯云、华为云等云计算大厂外,还包括声网、七牛云等音视频领域的垂直玩家。
但在此之后,视频云赛道并未如预期中实现持续的爆发增长。
2023年4月24日,IDC发布《中国视频云市场跟踪,2022下半年》报告显示:2022 下半年中国视频云市场规模达到 49.8 亿美元(343.3 亿人民币),与2021年同期维持在同一水平。
2023年全年,中国视频云基础设施市场规模为75.1亿美元,同比下滑5.2%,市场承压明显。
直到今年上半年,中国视频云市场开始止跌回升。
10月,IDC发布《中国视频云市场跟踪,2024上半年》报告显示,2024上半年中国视频云市场规模达到近48.1亿美元,同比增长3.9%。
IDC表示,2024年,主要音视频平台终端用户DAU,及平均播放时长止跌企稳、直播带货以及部分场景需求持续增长、出海服务范围不断拓展,均为视频云市场回暖奠定基础。
这背后影响原因在于,生成式AI、多模态大模型与视频云的产品融合实现了超预期进展。同时,随着《黑神话:悟空》的爆火,全景直播、三维重建的成熟,视频的交互与消费链路也被重构。
“生成式AI、多模态大模型、全景直播、三维重建等技术,将我们从流畅、实时、高清的数字世界带入更智能、更交互、更沉浸的AI世界。”火山引擎总裁谭待在近期举办的视频云技术大会上如此说道。
无疑,受AI大模型的爆发,拉动了视频云业务的二次增长。但在智能化视频时代,如何打造一个更高效、低成本以及更加广泛应用的技术底座,也成为摆在行业中的难题。
颠覆底层能力AI加码视频云
AI,正在改变人们的生活方式,尤其是GPT-4o发布之后,多模态大模型的应用和落地。
在视频内容生产上,Sora的发布引发全球视频大模型热潮,仅在国内,就先后出现了字节系即梦、快手系可灵,创业公司系Pika、智谱清影、生数科技Vidu等一众明星产品。
这些平台的出现,不仅能够大幅缩短UGC、PUGC音视频创作时间,甚至是重塑生产流程,极大降低用户生产门槛,让“人人都是导演”成为现实,内容生产数量也将呈现几何性增长。
在语音方面,随着端到端语音能力的升级迭代,也让人机语音交互体验更流畅,AI情感陪伴赛道日渐火热。
不管是AI视频生成,还是端到端语音,多模态大模型的发展,给音视频的智能化升级带来了无限可能。同时,功能升级也正在成为音视频云服务市场的重要增量。
比如,直播带货已经成为电商平台和头部商家的标配,也是众多中小商家的首选。而为了有更好的卖货体验,超低时延直播已经成为直播电商平台的必选产品,而集合上述技术的数字人直播带货,也成为很多商家的标配。
不过,AI大模型也在倒逼着视频云升级。
“这场变革主要体现在算力层、编解码层以及框架层三个关键层面。”抖音集团视频架构负责人王悦称。
具体来说,在算力层,生成式AI技术正在大幅降低视频生成的门槛,导致视频数据以惊人的20倍速增长。但同样也对算力提出了更高的需求,以Sora模型为例,其训练和推理所需的算力需求分别达到了 GPT 4.0 的4.5倍和近400倍,凸显了算力层变革的重要性和紧迫性。
与此同时,随着视频生成大模型的兴起,训练大模型的处理框架也面临的诸多挑战,包括成本、质量以及性能等诸多方面。
毕竟,超大规模视频训练数据集会导致计算和处理成本激增,视频样本数据质量参差不齐,数据样本有待分类、分段和清洗,处理链路会涉及到多个环节,工程复杂,需要多团队的协同,而自研第三方CPU\GPU及多种机构算力资源,也需要灵活的调度和部署。
相应地,对于视频云来说,框架层面不仅要能够处理大模型的高效运行,还要能够满足日益复杂的音视频处理的需求,以应对生成式AI时代所带来的挑战。
在编解码层面,作为视频处理的核心技术,编解码技术的智能化升级正在推动着与智能技术的深度融合,这种融合不仅提升了编解码效率,更为用户带来更加优质的视频体验。
尽管挑战重重,但也伴随着更大的发展机遇。王悦分享了一组来自市场调研机构的数据:
视频是云业务中增长最快的工作负载之一;到2026年,视频在数据中心基础设施中的占比将从10%增长到20%~25%;到2024~2030年,市场规模预计将达千亿美元。
这也就意味着,视频云业务的市场增长空间还很大。不过,从算力、到编码,再到框架,音视频领域各层级的技术体系和架构,都需要适应AI时代所带来的变革发展。
背靠抖音火山引擎能否弯道超车
在视频云市场中,主要存在着三类玩家:
一类是云厂商,以阿里云、腾讯云、华为云、百度智能云等为主的玩家,其中阿里云和腾讯云长期占据视频云领域云基础设施和解决方案市场的首位。
一类是抖音和快手两大视频平台,不过抖音背后的火山引擎,也属于云服务商,但其视频云业务实质是脱胎于视频生产平台。
一类是实时音视频行业垂直厂商声网、七牛云等。
上述几家厂商,主导了视频云赛道的市场。
IDC数据显示,2024上半年,视频内容分发网络服务(点播带宽)市场中,阿里云、腾讯云、华为云、中国电信、火山引擎、网心科技合计市场份额环比提升,本期达到63.4%。
视频直播云服务市场中,腾讯云、华为云、阿里云、火山引擎、金山云合计市场份额环比提升,本期达到66.1%。音视频通信云服务(RTC/RTE)市场中,声网、腾讯云、即构科技、火山引擎、阿里云合计市场份额环比持平,为78.3%。
其中,腾讯云音视频的解决方案市场份额连续8次蝉联榜首,在视频直播云服务市场、视频生产与媒资管理领域,市场份额也均排名第一。
火山引擎作为后来者,生生的在竞争激烈且稳固的视频云赛道中,撕开了一条口子。2024上半年,火山引擎在中国视频内容分发网络服务市场中,占了5.1%的市场份额。
但也不难看出,火山引擎的视频云业务在国内市场的竞争压力还是不小。
相比于云厂商和声网、七牛云等,火山引擎视频云业务能借力的,显然就是抖音这颗大树。
基于抖音生态场景实践所推出的技术能力体系以及各类型解决方案,也将会成为火山引擎视频云业务的“杀手锏”。
比如,王悦透露了字节自研视频编解码芯片的最新进展,经过抖音内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上,还在2024MSU世界编码器大赛中一举夺得最佳ASIC编码器。
编码对于视频业务的发展至关重要。
毕竟视频云是一个算力密集型行业,视频信息量很大,假如采用和文本、图片一样的压缩模式,那么还原度是不够的,所以视频必须进行编码处理。编码要是做不好,不仅会损失视频质量,还会带来传输难度高的问题。
与此同时,从视频的生产端、交互端到消费端,火山引擎的跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D&大场景重建方案也全链路融入AI能力,以适配AIGC时代对视频云业务的需求。
在生产端,今年9月份,字节跳动正式发布了豆包视频生成模型PixelDance。
为了降低用户使用豆包视频生成模型的成本,借助Intel的CPU、GPU等不同资源,火山引擎发布了大模型训练视频预处理方案,其依托于自研的多媒体处理框架BMF,能有效应对模型训练的算力成本挑战。
据Bytedance Research 负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。
火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。
值得一提的是,火山引擎还发布并开源了移动端后处理解决方案BMF lite版本。BMF lite支持端侧大模型接入和算子加速,更加轻量、通用。
在通用性上,BMF-lite则提供了多平台统一的接口形式,让所有开发者都能轻松使用BMF-lite。而随着视频处理越来越从云上向端侧迁移,BMF-lite还新增了对端侧大模型的接入支持,为AI技术的融合提供了强大的支持。
“当前BMF-lite已经广泛地应用在了抖音的各个业务上,每天服务于上亿用户,处理视频图片万亿次。”王悦如此说道。
在交互端,火山引擎视频云负责人Yongyuan 指出,在AI视频时代,人和AI交互变得更加动态和生动,这要求处理链路更加智能和交互。
以对话式AI实时交互方案为例,依托豆包大模型和火山引擎视频云自研的多项算法,火山引擎为用户提供了智能对话和自然语言处理的强大能力,可实现毫秒级人声检测和打断响应,以及丝滑稳定的端到端响应体验。
在消费端,尤其是沉浸式消费体验方面,以苹果Vision Pro为代表,开启了空间计算的新时代。
在此之后,今年7月,抖音VR直播上线,9月《黑神话:悟空》以其极具震撼力的视频画面质感、跌宕起伏的剧情架构和深厚的文化底蕴,迅速吸引全球玩家。
3D、虚实融合与VR技术,将成为消费端变革的主力军,架起数字世界与物理世界之间的桥梁。
而火山引擎通过AI生成3D内容和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音的戏曲直播场景。
可以看到,火山引擎的视频云业务,虽是行业中的后起之秀,但伴随着自身抖音业务的发展和切实的场景需求,视频云业务也在逐步上涨。
然而,长期以来,视频云赛道也盘踞着各大巨头,火山引擎想要弯道超车并不容易,而向海外寻求新的市场增量,则或许成为新的机会。
国内竞争白热化出海寻求新增量
虽然AI大模型时代的到来,重新开启云计算市场的新增长,但国内却已然开启了“内卷” 模式。
今年2月份,阿里云率先开启价格战模式,宣布进行史上最大力度的一次降价,涉及100多款产品、500多个产品规格,覆盖计算、存储、数据库等所有核心产品,降幅从9%到55%不等。
这是阿里云明确"AI驱动,公共云优先”战略3个月之后的首个大动作,也是自去年11月阿里云进行新一轮组织架构调整,成立公共云业务事业部后举行的首次重磅发布会。
而在此之后,京东云、百度智能云以及腾讯云等纷纷跟进,在各大营销节点中,华为云也推出了各种低价促销活动。
大模型端,则是在今年5月,由字节豆包大模型率先发起降价攻势,宣布主流大模型在企业市场的定价为0.0008元/千Tokens,0.8厘就能处理1500多个汉字,比行业便宜99.3%。
此后,包括阿里云等在内的云厂商、智谱AI等在内的大模型公司,都开始纷纷降低大模型价格。
视频云业务虽然是云计算领域中的细分市场,但却难以避免受到这波“内卷”的影响。
更何况,腾讯云、阿里云等头部玩家,基本上已经抢占了国内大部分视频云市场份额,留给火山引擎的“肉”和“汤”,并不多。
也正因此,近年来火山引擎的视频云业务,也正加速走向海外市场,寻求更多的新的市场增量。
目前,火山引擎的出海业务主要聚焦在4大领域,包括互娱社交出海、短剧及内容出海、游戏出海以及电商出海。
其中,在直播电商这块,则主要依托于海外的抖音平台Tiktok,“因为有利润可以赚,海外市场的价格比较贵,而且向东南亚或欧洲市场做的直播电商,也是复制了中国的经验,所以我们才布局这些市场的直播电商业务。”火山引擎电商产品相关负责人对光锥智能说道。
据火山引擎视频云国际业务负责人梁建介绍,火山引擎也会在海外版的方案中支持接入海外主流AI大模型服务,并通过整合这些先进大模型的技术和交互体验,来深度优化出海应用,使其能够具备低时延、多模态的AI实时交互能力。
近年来,中国企业正在加速出海,尤其是在中国市场日益内卷的情况,走向海外成为必然趋势。与此同时,随着大模型能力的不断提升,国产AI应用也正在加速走向海外。
火山引擎作为国内云计算赛道中的后来者,一直处于行业追赶者的地位,而借助抖音自身生态体系的力量,以及向海外寻求新的增量,或许能够让火山引擎在视频云赛道中实现弯道超车。