今日HeyGen的AI产品让郭德纲说英语的视频在网络上引起了广泛关注。这款产品由深圳的诗云科技公司开发,它利用深度学习技术,能够将郭德纲的相声表演转化为英语版本,并且连口型都能与英文发音完美匹配。这得益于其“扩散”生成式AI模型的先进技术,这种模型也是支持如Midjourney和OpenAI的Dall-E等流行图像生成器的技术基础。
HeyGen不仅支持英语,还支持50多种语言和300多种不同的音色。用户可以上传自己的照片进行个性化形象定制,几乎不需要任何技巧,无需摄像机、摄影棚和演员,只需上传一段2分钟的小视频,就能制作一个和真人一样的数字人,即使是手势、面容和口型这类“细微肢体语言”也能调整。
HeyGen公司的迅猛增长。HeyGen, 一家由徐卓共同创立并担任首席执行官的公司,自去年九月推出其AI驱动的视频创作应用以来,取得了惊人的成绩。他们在三月份达到了100万美元的ARR,并在八月份飙升至1000万美元。现在,这个数字已经增长到1800万美元。
徐先生指出,他们的成功证明了AI技术在内容创作领域的巨大潜力。他比较了他们的公司与Snapchat,后者是一个以移动摄像头为基础的内容创作平台,而他认为AI可以成为新的内容创作工具。
最近,HeyGen宣布获得了由Sarah Guo的Conviction Partners领投的560万美元的新一轮风险投资。这轮投资使这家总部位于洛杉矶的公司估值达到7500万美元。作为交易的一部分,Guo将代替HongShan(前身为红杉中国)担任董事会成员
HeyGen还推出了一个新产品,使人们更容易创建出现在其视频中的定制AI化身。以前,HeyGen的个性化照片般真实的化身需要专业摄影来创建,而且可能需要几天的时间,尽管它也提供了超过100个现成的化身。徐先生表示,新产品可以使用智能手机拍摄的视频在短短五分钟内生成AI化身,这一升级得益于HeyGen AI模型架构的突破。
徐先生和首席产品官Wayne Liang都曾在上海同济大学以及卡内基梅隆大学作为硕士研究生一起就读。他们之后都来到了美国西海岸,徐先生在Snap工作,而Liang则为卡拉OK应用初创公司Smule和TikTok的母公司ByteDance担任产品设计师
目前拥有25名员工的HeyGen迅速采用了“扩散”生成AI模型的先进技术——这是支持像Midjourney或OpenAI的Dall-E这样的流行图像生成器的技术。徐先生表示,公司已经为视频构建了自己的AI模型,同时整合了OpenAI和Anthropic的大型语言模型用于文本处理,以及Eleven Labs的音频产品。
Conviction Partners的创始人Sarah Guo指出,类似Runway和Pika这样的视频AI初创公司正在涌现,它们允许用户通过输入文本提示来生成和编辑视频。但这些公司的目标是创意人士和消费者。HeyGen则专注于商业市场以及其对营销、培训和教程视频不断增长的需求。它在这方面做得很好,但徐先生希望新产品能让HeyGen在YouTube和TikTok的内容创作者中获得更多关注。
然而,对于HeyGen来说,稳定销售流是首要任务。去年,徐先生在接受TechCrunch采访时将公司描述为视频制作领域的Jasper。他提到的这家AI营销文案撰写初创公司已成为硅谷热门公司的典型例子,其收入增长在新奇性消退后有所下降。虽然HeyGen正在积累商业客户,但其中许多是公司内部的员工,而不是公司本身。HeyGen在去年11月聘请了首批销售代表,并计划在未来一年内将员工人数翻倍,重点是追求企业业务合同。
在这样做的过程中,HeyGen不可避免地会与像Synthesia这样的竞争对手发生冲突,后者是一家总部位于伦敦的AI化身软件制造商,已经筹集了超过1.5亿美元的风险投资。徐先生希望通过强调像化身个性化这样的功能来区分HeyGen。不过,Guo并不担心。她认为由于不同用例的大量未开发客户,竞争在相当长一段时间内可能不会成为问题——比如,如果Synthesia占据了教育市场,HeyGen在营销视频领域仍有大量的空间。