今天谭编制作了3个数字人“谭博士”的Origin绘图教程,受到教师、编辑、媒体人的关注,纷纷提问这是怎么做到的?想自己做一个,也有人想付费请谭编制作一个。我先将我个人对“数字人”的一些浅见分享出来,后续再推出一系列“数字人”作品的制作教程。“元宇宙”时代已经来了!从事线上教育活动的新媒体人,谁不想拥有一款“虚拟人”“数字人”呢?谭编个人认为,虚拟人应该分为三类:(1)数字人;(2)皮囊人;(3)机器人。
第一类属于“合成视频”型数字人,其合成过程包括:文字语音合成、音调驱动唇形、语义情感距离驱动表情等,直接通过一段文字转换为“播报”或“表演”视频;第二类属于“机器视觉”驱动皮囊人,通过摄像头捕捉身体各部分“位移”驱动“数字人”的面部表情和身体姿态变化,通过麦克风拾音,即“傀儡表演”、“皮囊表演”式的“虚拟人”;第三类属于真正的“机器人”,是能自主“机器学习”的、具有独立人格的、能独立思考的人工智能“机器人”。还记得一年前被清华大学计算机科学与技术系知识工程实验室破格录取的那位“AI学生”华智冰吗?她属于哪一类?先看以下视频。华同学智商和情商双高,可以作诗、作画、创作剧本杀,还具有一定的推理和情感交互的能力。她属于第三类,或许在不久的将来,此类“人”将与人类共存,也或许会让人类“担忧”。理论上,每个人的“真实自己”(下称“真我”)都可以塑造一个“虚拟自己”(下称“虚我”),将自己的性格、形象、声音等数据输入到“程序”中,会诞生一个“虚我”。“元宇宙”是利用科技手段进行链接与创造的,与现实世界映射与交互的虚拟世界,具备新型社会体系的数字生活空间。或许“元宇宙”与现实世界将是一个“平行的世界”,或许是一种真实人格的“复制品”,也或许是与现实世界中的“真我”完全不同的理想化的“数字孪生”人物。
一切线上的社交活动都可以“虚拟人格”(虚我)出现。可以试想,我们参加一个线上的学术活动,不再是单调的、缺乏人际交往互动的“腾讯会议”,而是一副这样的景象:你坐在电脑前或者全息投影旁,观看着仿真的“国际会议厅”里那个“虚我”正在跟科学大佬们交流着学术问题。这个“虚我”能“独立思考”和“主动交流”,能像“华智冰”一样通过“机器学习”而自我培养成具有“独立人格”的虚拟人物。而这种“机器学习”更多是对现实世界的大数据、真实人物的个性数据进行“学习”,虽然机器比人学习效率高,但还是需要一个过程,更需要一段时间,因此,第三种虚拟人属于真正高科技的人工智能领域。
如果说在一个线上的国际会议厅里,我们派出了“虚我”都能像华智冰一样独立思考、主动交流,完全抛弃“真我”融入到虚拟的交流场景中,那么,“真我”除了做一个“旁观者”还能做什么呢?还能真正地开展学术交流吗?在现实世界,更多情况下,我们或许希望“真我”去控制、去驱动“虚我”,而不是“虚我”完全代表甚至违背“真我”的意愿。谭编提出“融合人”的概念,即“真我”与“虚我”的协同、“真我”驱动并主导“虚我”、现实与虚拟的融合形态。我们还是以线上学术交流会议为例,大众需求的“虚拟自己”应用场景可以是这样的:在虚拟现实的“国际会议厅”里,你遇到一位院士,想与他交流并互加微信。你通过电脑键盘输入交流文字、通过摄像头捕捉你的五官人脸数据、通过麦克风拾音、通过鼠标点击“国际会议厅”程序界面上的各类功能按钮(例如递名片、发送微信名片、传文件等功能)等一系列“数字驱动”去控制“虚我”的言行举止(准确代表“真我”人格),在另一台电脑前,这位院士也采用同样的方式“驱动”着他自己的“数字人”与你“交流”,而双方都通过屏幕观看到对方,并身临其境感受到彼此的“真我人格”。这种应用场景,能使“真我”沉浸于“虚拟世界”里,实现“真我”体验。“虚拟主播”和“现实主播”的区别,也与“虚我”和“真我”的区别一样。现实主播是“真人”,TA需要休息、需要吃饭等,TA需要安排固定的“节目档期”;而虚拟主播是现实主播人物形象的“复制品”,虚拟主播不需要休息、不需要调整“节目档期”,只需要不断给虚拟主播“传递稿子”(文字、图表、视频、音频等多媒体素材),虚拟主播可以永不停歇地“播报新闻”。
那么,第一类“虚拟人”就能满足大众需求。例如,谭编针对读者的提问,首先编写一段“字幕”脚本,录制一段“演示”视频,最后快速合成绘图教程。效果如下。
这种模式可以不停地“写稿”、“写剧本”、“写台词”,不停地合成并发布视频,非常适合新闻播报、教学课件等应用场景。这种大众化的“虚拟人”技术门槛低,可以满足大众化的需求。皮囊顾名思义就是带着一副会做表情的面具,即一种需要后面真人驱动的“傀儡表演”。这让我们回想到一档节目“中国达人秀”上的“腹语表演”,演员在台上用手控制玩偶猴子的形态和表情,巧妙地利用腹语“拾音”。那么,“皮囊人”就是利用摄像头捕捉五官,并获取人脸识别的“面部点位”数据,通过“面部点位”的“位移”驱动“虚拟人”面部的“数字肌肉”,以动态拟真影像呈现出来。
皮囊型数字人具有喜剧性、趣味性,通常应用于游戏场景或者不便“真人出镜”的视频应用场景,它通常以“虚拟摄像头”形式将拟真视频流输入给需要摄像头的应用场景中。
以上属于个人浅见。我相信对于“数字播报”型“虚拟主播”,是大家都想要的,后续,谭编针对“虚拟主播”推出几篇实用教程,让大家都会打造自己的“数字人”。