悄然崛起的视频AI,标志着AI竞争进入了下一阶段。
在当下的AI赛道上,AI聊天、绘画一类的应用,早已枝繁叶茂。
然而,在此类同质化应用扎堆的情况下,一类颇有技术难度,也较少被人提及的方向,正在悄然崛起。
这就是最能调动人感官的视频AI领域。
根据twitter上的作者Will 郎瀚威统计的图表,今年8—9月,各大文生图类AI网站的访问量均开始呈现下降趋势。
然而,就在这种情况下,国外知名视频AI网站HeyGen的访问量上升了92%,流量跃居各大独立AI网站之首。
那么,为何此前一直默默无闻的视频AI,最近突然异军突起,盖过了风头正盛的文生图类AI应用?
而在GPT-4V发布,多模态技术不断取得突破的情况下,这一微妙的变化,又预示着什么?
多模态的前奏
从AI发展的大格局上来说,HeyGen的这波流量上升,或许只是多模态高歌猛进背景下的一个插曲。
从谷歌宣布Gemini具有多模态功能的消息,到OpenAI发布GPT-4V,各个AI巨头,似乎都将下一阶段竞争的焦点放在了多模态上。
那为何多模态成了巨头眼中关键的“突破点”?
原因或许就在于,其具有打破“专业壁垒”的意义。
在多模态尚未取得突破之前,不同模态、领域之间,存在着巨大的鸿沟。
写文案,做编辑的人,即使再妙笔生花,如果缺乏相应的美术知识,以及各种专业的提示词,也难以用AI画出出色的作品。
而一个画师如果没有受过专业的写作训练,缺乏谋篇布局的思路,也难以凭借AI写出上乘的文章。
类似的“壁垒”,在视频剪辑方面,也同样存在着。
根据知乎上一位视频剪辑方面的从业者介绍,一个完整的视频剪辑流程,包括了调色、整理素材、配字幕等一系列工作,要想熟练地进行剪辑,必须掌握PR、Edius、剪映等多种剪辑软件,同时还需熟悉各种转场、调色、粒子特效等插件的使用。
如果想让视频呈现更丰富的效果,还要掌握b-roll转场、字幕遮罩、坡度变速等复杂的操作。
此外,素材的搜集和整理,也是剪辑工作中的一大“苦活”,倘若题材较为冷门,素材就会很不好找。有时尽管遇到了好的素材,也可能由于版权问题难以使用。
正是由于上述原因,视频剪辑,注定不是一个简单的、易于掌握的技能。
以国内知名网站B站为例,据一位B站上百万粉丝的UP主团队透露,为了保证视频更新的效率、质量,这些账号往往会配备数名较为熟练的剪辑人员,轮番进行剪辑。
那么,倘若有一种智能化的AI剪辑应用,能根据创作者想表达的思路,自动、高效地完成整个视频的制作,视频制作领域,又会发生怎样的颠覆呢?
实际上,这样的技术早已出现。
下面这两张图片,分别来自两段不同的视频片段。
你能分辨出哪个是真人,哪个是AI生成的吗?
答案是:这两个视频都是100%由AI生成的人像视频。
而它们均出自此前提到的HeyGen之手。
在HeyGen上,用户只需要用上传一段2分钟的小视频,就能达到和真人一样的效果,即使是像手势、面容和口型这种“细微肢体语言”也能调整。
而这类效果的实现,正是当下多模态技术发力的开端。
2
视频AI之力
上面所有这些视频都出自HeyGen的Joshua Avatar2.0,一款AI人像视频的工具,主打的就是一个超逼真。
而实现这样真实的视频效果,步骤也非常简单,只需完成选形象—写文本—输出三个步骤即可。
如果要论HeyGen与其他同类视频AI应用最大的区别,就是它可以利用现有数据来创造全新和从未有过的内容。
以往的类似应用,例如D-ID,虽然也能让用户从照片或者AI形象中生成视频,但是这样的技术,更多是基于复制或处理已有的内容的AI技术。
这些技术虽然也可以制作视频,但是需要用户提供自己的照片或录音,或者从D-ID提供的一些固定的AI形象中选择。这样就需要用户花费更多的时间和精力来准备和上传素材,也限制了用户的选择和定制空间。
而相较之下,HeyGen的技术则可以让用户从文本中直接生成视频,并使用多种不同的AI形象和声音。
目前,HeyGen提供超过100+数字人素材和模板,广告、电商、新闻等一应俱全,也可以自己编辑PPT生成。
同时,HeyGen还支持300+不同音色和40+语言,以及视频翻译功能。用户可以一键将视频无缝地翻译成其他语言,这对于跨国和多语言的沟通非常有用。
通过这种定制化的、排列组合的方式,HeyGen可以快速、精简地制作出各种适用于多种场景的视频。
而这样的高自由度,也让HeyGen使许多不精通视频剪辑的人,打破了以往“技能边界”,可以恣意地用视频表达自己的想法。
除了HeyGen之外,在视频AI领域,许多正在蓄势待发的类似应用,也已经在悄然崛起。