
点击蓝字 关注我们

当下,生成式AI炙手可热!我们见到的ChatGPT、文生图、文生视频等都是生成式AI。
总体上来说,生成式AI有三大技术路线:
自回归模型(AR)、
非自回归模型(NAR)、
混合模型(AR+NAR)。

简介
最新成果
2024年2月15日,OpenAI的Sora正式对外发布。一经发布,Sora就震惊了全世界。Sora是一个【文生视频大模型】:输入一段文本描述,Sora就能生成一个相应的视频。视频效果非常惊艳!
OpenAI关于Sora的技术报告名字叫做《Video generation models as world simulators》,可见OpenAI的雄心壮志 --- 用视频生成技术来模拟世界,打破现实世界与虚拟世界之间的界限!
视频生成是生成式AI的一种场景,所以我们今天来聊一聊生成式AI的技术路线!
技术路线
当前,生成式AI有三大技术路线:
一是自回归(AR,Autoregressive)模型,Hungyi Lee老师称之为【各个击破】;
二是非自回归(NAR,Non-autoregressive),Hungyi Lee老师称之为【一步到位】;
三是AR和NAR的混合模型。
自回归模型(AR)
AR模型的定义

AR就是根据1, ..., t-1时刻的数据,预测t时刻的输出。也就是说,根据之前时刻的数据,预测当前时刻的输出。所以,也称为各个击破。其数学公式如下:

公式中t时刻的结果与其前个时刻的数据相关。AR在时间序列处理中也有重要应用。
AR模型的生成过程

大语言模型(LLM,Large Language Model)也简称大模型。大语言模型就是自回归模型。
ChatGPT是最知名的大语言模型之一,其生成过程如下图所示。
示例:
用户提问:“世界最高的山是什么?”
生成模型:“珠穆朗玛峰”
生成这个答案的详细过程如下:

图1 自回归语言模型的生成过程
第一步,把问题“世界最高的山是什么?”输入模型,模型预测出下一个字:“珠”;
第二步,把【问题 + 已经生成的结果】,也就是【“世界最高的山是什么?珠”】,输入模型,模型预测出下一个字:“穆”;
依次类推,直到最后生成结束符“END”,表示生成过程结束。
非自回归模型(NAR)
NAR模型的定义

非自回归模型就是一次性生成整个结果,没有中间的多个迭代步骤。所以也称为一步到位。
NAR模型的生成过程

依然以文字生成举例,如下图2所示。

图2 非自回归语言模型的生成过程
还是同样的问题:“世界最高的山是什么?”,输入模型,直接生成结果“珠穆朗玛峰”。
NAR模型的生成长度

这里有一个问题:NAR怎么判断生成过程的结束呢?
AR模型中,每次生成下一个词,这个过程重复迭代,直到出现“END”,生成过程结束。
但在NAR中,问题不同,那生成的答案也会长短不一。NAR模型怎么知道当前这个问题答案有多长呢?如果不知道答案的长短,模型怎么知道这次要生成多长的内容?
NAR的两种工作方式

针对这个问题,有两个解决方案,我们称其为NAR的两种工作方式。如图2所示。
NAR工作方式一:模型只生成固定长度的答案。这个答案中从“END”标记往后的部分直接丢弃。保留从开始到END的部分作为最终的答案。当然,如果真实的答案超过了这个固定长度,则生成的答案会不完整。
NAR工作方式二:模型不仅生成答案,还要事先预测答案的长度;再根据这个长度生成最终的答案。当然,长度和答案可以一次性生成,也可以分两步完成。示例中,模型先生成了答案的长度6,再生成6个字符作为答案。
AR与NAR的优缺点
可以看出,
AR生成速度慢,但是质量好。
NAR生成速度快,但是质量差。
因为AR可以更好地利用局部性假设:相邻的两个结果,相关性强。AR可以充分利用这一特性:看到上一步生成了“珠”,那下一步生成“穆”的可能性就会大增。而NAR中“珠”和“穆”是同时生成的,“珠”字不能为“穆”字的生成提供更多的参考。所以,NAR的质量比AR要差。
文本生成常用自回归模型AR,因为文本一般都不太长。
影像生成常用非自回归模型NAR。因为影像往往很大,使用AR的话,效率太低。比如一幅1024x1024的图片,它共有一百万个像素,如果使用AR一个一个像素按顺序生成,则需要迭代一百万次!这个过程太慢了!
NAR可以并行,适合分布式计算。AR中后一步对前一步有依赖,只能串行。
混合模型AR+NAR
把AR与NAR结合起来,让它们取长补短。既保证有好的生成质量,又保证有高的生成速度。

图3 AR + NAR混合使用
语音合成:采用了AR+NAR混合使用的路线。先将文字通过AR模型生成中间向量,比如每秒100个向量。再根据中间向量,使用NAR模型生成语音信号。
图片及视频生成:也采用了AR+NAR混合使用的路线。首先使用NAR模型生成一幅模糊的图片;然后再使用NAR模型基于上一步图片的基础上生成更清晰的图片;如此重复N步,最后得到清晰的目标图片。这其实就是扩散模型(Diffusion Model)的技术方案。
如此,则既能保证生成的质量,又能保证生成的速度。
Reference
1. Hung-Yi Lee老师的课程《生成式学习的两种策略》
2. https://openai.com/research/video-generation-models-as-world-simulators
3. InstructTTS: http://dongchaoyang.top/InstructTTS/
4. https://en.wikipedia.org/wiki/Autoregressive_model

END
说明及版权声明
说明:本文部分素材来自网络公开资料,由作者重新编写,系作者个人观点,本平台发布仅为了传达一种不同观点。如果由任何问题,请联系小编:Hello AI新世界。
code/s?__biz=MzkyOTY1NDEzOQ==&mid=2247483745&idx=1&sn=c81c3eec54eeae2d13a702456d5eae64&chksm=c2077575f570fc6355a8753c2ff93e465ca520f14e3b7ac6960e6443f852b91acfb7f59a1a21#rd