点击上方 硬AI 关注我们


不仅音色、语气以假乱真,就口型,也几乎毫无破绽。

   硬·AI   

作者 |卜淑情

      编辑 | 硬 AI 

如今,AI的“造假能力”强到了什么程度?
先看一段视频👇
在这段由AI“深度伪造”的马斯克采访视频中,“马斯克”流畅地用法语向媒体侃侃而谈,阐述他对于AI威胁的看法——
不仅音色、语气以假乱真,就连口型,也几乎毫无破绽。
专门研究这一领域的DeepMedia创始人Rijul Gupta表示:
我们基本上已经达到了这样的程度:仅需5秒音频素材,任何人都可以克隆其他任何人的声音,并令其以任意语言说话。
目前,市面上已出现诸多应用“深度伪造”技术进行视频语音翻译、口型同步的应用,我们简要梳理如下

01



「HeyGen」不止视频翻译,数字人也很强    

HeyGen,AI口型同步、短视频内容翻译、数字人领域的一大重磅玩家。
该公司在9月7日推出视频翻译功能后,迅速在外网走红。目前,该公司已获得数百万用户。
有用户曾使用HeyGen制作了马斯克、梅西和扎克伯格用多种外语讲话的片段,效果如下:
HeyGen联合创始人兼首席执行官Joshua Xu表示,其目标是“消除语言障碍”:
我们设想,未来用不同语言制作视频内容和传播信息,将变得像打字一样简单。
HeyGen看中了全球视频翻译的巨大市场。在推特上发表一个AI生成视频中说,Xu如是说:
想想看,消除语言障碍使内容对全球用户可用,而不仅仅10%的英语使用者。
他还表示,像Coursera、Khan Academy 和MasterClass等教育平台可以通过“多语言化”来扩大其影响力。
HeyGen目前支持10种输入语言和8种输出语言,包括英语、西班牙语、中文、意大利语、印地语和日语等。
HeyGen前身是一个名叫Movio的AI视频翻译平台。该平台基于内容生成引擎Surreal Engine,于2022年7月推出,仅7个月内就获得了100万美元的年经常性收入。
Xu与前字节跳动和美国社交媒体音乐公司Smule工程师 Wayne Liang于2020年创立了Surreal(诗云科技)。
Surreal专注制作逼真的“深度造假“视频,主要面向电商广告客户。Surreal在深圳启动运营4个月后,便完成了100万美元天使融资。
去年4月,Xu将Movio更名为HeyGen。自 2020 年以来,HeyGen和Surreal已从红杉资本、IDG 资本、真格基金和百度风投获得至少900万美元的资金。
目前,Surreal在中国仍然活跃,而旗下HeyGen平台主要在美国洛杉矶运营。
值得一提的是,HeyGen的数字人生成功能也非常强大。

02



     「LipDub」风投心头好     

LipDub是一款视频语音翻译+口型同步的移动APP,用户能在几分钟内“用外语交流”,早些时候在App Store上线。
LipDub能够准确识别视频中的语音,使用GPT-4将其翻译成其他语言,并使用“ zero-shot model(零样本模型)”算法,将翻译后的语音与视频人物的口型进行匹配。
使用过程简单粗暴:上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。整个过程仅需要几分钟的时间。
目前,LipDub支持28种语言,包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语等。
LipDub由初创公司Captions出品。该公司成立于2021年,由Snap前设计工程主管Gaurav Misra和Dwight Churchill联合创立,目标是生成式AI翻译工具市场。
Captions早期获得了红杉资本、Andreessen Horowitz等知名风投的投资,并得到了Instagram联合创始人Kevin Systrom和Mike Krieger以及Facebook前产品设计副总裁Julie Zhuo的支持。
截至目前,Captions拥有10万日活用户,Misra预计LipDub也能吸引同样多的用户。
据悉,LipDub下一阶段的目标是更流畅的翻译和逼真自然的口型同步。
Misra说:
下一步是让视频看起来更加自然——真正做出一段视频,你根本感觉不到里面有配音或处理,非常自然和易懂。

这种技术过去我们只在《星际迷航》这类作品里看到,对吧?简直是硬核科幻啊。
这样的前景使Captions在今年6月份获得了2500万美元的B轮融资,由硅谷传奇投资公司凯鹏华盈(Kleiner Perkins)领投。
值得注意的是,LipDub所代表的视频AI翻译技术,也引发了业界对“深度造假”的担忧,存在被滥用于虚假新闻及其他不正当用途的风险。
当前,LipDub作为视频AI翻译的头部玩家,处于快速迭代阶段,其核心技术还有很大改进空间。同类竞品也在蜂拥而至,竞争激烈。

03



  「Verbalate将时间,拉长到30分钟    

视线转向澳洲,还有一个不可忽视的AI视频翻译平台——Verbalate。
和LipDub 和HeyGen一样,Verbalate可将用户的视频配音成目标语言,不同之处在于,Verbalate可处理长达30分钟的视频。
Verbalate创始人Grant Davies,成立该平台最初的想法是出于疫情期间澳大利亚封锁期间的无聊。
2022年,Davies在骑车时听Joe Rogan的播客,知道YouTuber用户MrBeast使用配音演员翻译视频。当时Davies正在研究AI,觉得可以用AI做自动翻译。
据悉,Verbalate的基础订阅月费为9美元,可以制作一个10分钟视频,相比之下,竞争对手HeyGen的月费为29美元,可制作多个5分钟视频。

04



  「LipDub AI瞄准影视配音   

有些平台则瞄准了于更大的市场和更长的视频运行时间。
加拿大公司MARZ的LipDub AI平台(和上文Captions的LipDub不是一家)面向电影电视行业,提供高质量的配音翻译视频。
目前,LipDub AI处理一分钟包含多个镜头的视频片段所需的运行时间不到20分钟。
该公司目前依赖训练素材(例如视频片段)来制作这些配音,但它预计将在一年内加快这一过程,仅依靠音频和原始片段制作配音。
LipDub AI平台的视频处理速度正在提升,预计可以仅依靠音频就生成配音视频。
与其他口型配音平台不同,LipDub AI没有采用外部大型语言模型,而是使用自己的生成模型,该模型通过录音进行训练。
MARZ市场总监Tim Reyes认为,口型匹配技术将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的工作保障。
Reyes表示:LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技术,他们破坏了电影业目前的工作流程。
 写在最后:
毫无疑问,未来,随着技术的不断进步,AI的“造假”能力还会进一步进化。
当AI实现“深度伪造”时,真实与虚假的边界何在?

   硬·AI   


* 感谢阅读!
* 转载、合作、交流请留言,线索、数据、商业合作请加微信:IngAI2023
* 欢迎大家在留言区分享您的看法,如果您能点个👍并分享的话,那就太感谢啦!
* 让我们一起,好奇地看世界👇

本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585