腾讯首席科学家张正友博士:虚实集成世界的未来

  • 2022-07-24

  • 来源:首席数字官

7月19日,IEEE 2022网络、计算机和通信国际研讨会(ISNCC2022)首次落地中国,围绕“Touch the Future数字未来之路”主题,来自中国、美国、英国、意大利、法国、突尼斯、印度、日本、俄罗斯等28个国家的知名科学家、科研人员,就网络、计算机与通信领域进行了29场线上活动。腾讯首席科学家、腾讯AI Lab和腾讯Robotics X实验室主任张正友在开幕式上演讲。

 

图片

 

以下是演讲全文:

大家好,我是腾讯首席科学家、腾讯AI Lab和腾讯Robotics X实验室主任张正友。很高兴有机会参加ISNCC 2022。今天我将向大家介绍一个由前沿技术打造的全新未来——虚实集成世界。这个未来是怎样的?其中哪些技术将发挥关键作用?这些技术将可能从哪些维度,为各行各业创造新的价值?我将和大家分享我对这些问题的思考与探索。

 

图片

 

人类文明和技术的发展,都离不开我们人类是社交性动物这个事实。我们有不可或缺的沟通与合作需求。而这种沟通和合作与生俱来就是多模态的并具有空间性。如果我们看一下沟通和合作的技术发展史,从远古时代开始的笔和纸,也就是写信,到电报的出现,到电话,到视频会议,到沉浸式的远程呈现,技术在不断的发展,而且有越来越快的趋势。

人类的沟通和合作可以从三个维度去思考:空间、时间、通道或者内容。

在空间维度,我们可以同地沟通和协作,但也可以是分布式的,比如在深圳和北京之间。分布式又可分成固定的,比如在办公室内,和移动的,比如在机场。

在时间维度,又可分成共时的,比如电话,和非共时的,比如信件。也有准共时的,比如微信。

在内容或通道维度,我们可以分成:文本,音频,视频,远程呈现,甚至是沉浸式的远程呈现。

 

图片

 

为了达到沉浸式的远程呈现,一个趋势是用虚拟世界。

什么是虚拟世界?虚拟世界是一个计算机仿真出来的环境,这个环境是持续存在的,永恒的,persistent. 这个环境可以容纳很多的用户,用户可以和其他用户沟通和合作,并可以创造自己的分身。用户之间的沟通和合作可以同时或者独立进行。虚拟世界有很多应用,比如在娱乐领域的游戏,在商业领域的医疗培训和会议。

VR头盔,也就是虚拟现实技术,是一种供用户探索虚拟世界的技术,一种沉浸式的技术,在虚拟环境中模拟用户的物理存在,包括3D视觉、空间音频、触摸、力反馈等。

下面说一下AR技术,也就是增强现实技术,比如微软的Hololens。AR技术将一些计算机仿真出来的虚拟物体放到真实世界中,允许虚拟物体和真实物体能在真实世界中实时互动。因此,这个技术要求虚拟物体与真实世界之间有非常精准的三维配准。

我们也听到MR,也就是混合现实技术。MR将真实世界与虚拟世界融合,创造出新的环境叫混合现实。在混合现实里,物理与虚拟物体共存并实时互动。混合现实可以发生在虚拟世界或真实世界中。现在MR基本是 增强现实技术 的同义词。

所以大家看到,无论是VR,还是AR,还是MR,都只有一个世界。在VR是虚拟世界,在AR是真实世界,在MR可以是虚拟世界,也可以是真实世界,但一般是真实世界。

随着技术进一步发展,我们所迎来的全新世界,不是VR(虚拟世界),也不是AR(增强现实),也不是MR(混合现实),也不是Digital Twin(数字孪生),而是真正的虚拟世界和真实世界的紧密结合,我称之为虚实集成世界,英文我叫它Integrated Physical-Digital World,IPhD。

 

图片

 

举个例子,比如现在疫情反复,大家今天能齐聚一堂、面对面交流,非常不容易。如果要做跨国的交流、展览,就更困难了。今天的技术还比较局限,远程交流也远未达到身临其境的效果。

在虚实集成世界,就都没问题。我可以安排我的虚拟分身,就是Avatar,去到不同的地方和大家交流。甚至还能和大家握握手,一起参观展览,摸一摸展品,感受它们的材质和重量,体验将完全不同。

要实现虚实集成世界,我认为需要四个关键的技术点:现实虚拟化、虚拟真实化、全息互联网、智能执行体。

1)我们看到的第一个技术点,就是现实虚拟化。

 

图片

 

比如你希望自己的分身更接近真实的你,它首先需要在外形上跟你很像。这就是把现实世界里的人高度虚拟化。腾讯AI Lab 2017年就开始研究,现在用30秒自拍视频,就能做一个你的3D形象,外形很逼真;虚拟人要具备更逼真的效果,他的声音、表情、动作也要更像真人。这是腾讯AI Lab的超写实3D虚拟人“小志”,他不仅可以通过语音或文本输入合成语音,而且口型准确、表情也很生动。

我们的目标是从细微表情,到全身动作,全部都像。我们的方法是钻研多模态交互技术,把计算机视觉、语音处理、自然语言处理、情绪认知、分析决策等结合在一起,打通技术链条,最终让虚拟人听、说、读、写、想,全都可以。当然,最终极的,可能是把人的一生都虚拟化,实现数字世界的永生,不过我们离这还有些远,还需要很多技术进一步发展,包括高带宽、物联网等物理基础设施,算法模型、驱动系统、机器认知、高质量低成本的渲染等。

2)除了真实虚拟化,第二个技术点,就是虚拟化走向真实化。

 

图片

 

我们现在能把虚拟模型制作成真实物体,用3D打印,能制作工具、艺术品、甚至是机器人。

 

图片

 

我们还可以把虚拟信息带到真实世界中,比如用增强现实,也就是AR技术,让真人和虚拟角色和物体进行交互。

比如在游戏上,任天堂的《马里奥卡丁车》 能让你在家里的真实客厅里,开着游戏里的虚拟车和朋友比拼;在教育上,AR能用更形象生动的方式,教孩子们几何、天文和历史;在文娱领域,AR能将虚拟偶像和真实舞台完美叠加,透过大屏幕或投影仪为观众呈现出一个梦幻与现实混合的三维奇观。

这是腾讯AI Lab国风AI歌姬「艾灵」,她具备唱歌、作词、书法多项才艺。

3)除了虚拟化和真实化,我们的第三个技术点,是全息互联网。

它是创造一个科技虫洞,把虚拟世界和真实世界中分布于不同地方的人、事、物全部同步到一起。

 

图片

 

我在微软时,曾深入研究全息的重建、传送和渲染技术。这是全息技术和混合现实技术的组合,能把分布于世界各地的人、事、物同步“投影”到一起。一个在远程的全息的人,和一个真人在一起,互相对视和互动。除了三维视觉信息,空间音频也是我研究的一部分,我们能感受到来自空间不同角度和不同位置的声音。现在在腾讯,我也开始研究触觉感知和力感知。也许不久以后我们会开始研究嗅觉和味觉。

这就像是一个虫洞,跨越了时间、地点、语言、甚至跨越虚拟和真实世界的界限,让所有人能进行更真实和更亲密的互动。

 

图片

 

把不同空间的声音“投影”到一起,也是全息互联网技术特点之一。大家在开远程会议的时候,常常会因为距离麦克风远近、声音延迟卡顿、噪音而失真,影响开会质量。针对这些痛点,腾讯会议旗下天籁实验室和腾讯AI Lab合作,实现12米超长距离拾音,距离远近都听得清,还能针对性地消除键盘声、咳嗽声、开关门声等各种突发噪声。

4)第四个技术点,智能执行体。

古代有个神话,是砍柴的人半路遇到下棋的童子,看了一会儿棋,一回神,手里的斧头已经腐烂,同时代的人也都没有了。这才有了“山中七日,世上千年”的典故。

在虚实集成的世界里,出现了穿梭于虚拟和真实之间,改变时间和游戏规则的智能执行体。

 

图片

 

我们知道,很多现实问题很难研究,要么需要很长时间、要么需要很高的人力或资金投入、要么就是风险很大,这些问题包括气候变化、农作物生长、老龄化问题等。这时我们会用到模型,将真实问题建模到虚拟世界来进行研究。

 

图片

 

在农业这个最古老、数字化却最低的行业里,就出现了典型的智能执行体。腾讯AI Lab开发的iGrow智慧农业平台,在真实的温室里布满传感器,测温度、光照和湿度,制造出一个虚拟的温室仿真器,在15秒内就能模拟出82个生长周期,计算出最适合的温度、光照和浇水量,再利用执行器去自动调节控制,节约能源、增加收益。我们的AI已经学会了种黄瓜和小番茄,我们还将持续深入AI+农业的研究,探索这个古老行业的智能化路径。

 

图片

 

在药物研发领域,标准的制药流程非常复杂,从基础研究,到药物发现、临床前研究、临床研究,最后上市,发现一款新药,要从上万个候选药里选出一个或者几个,整个过程往往要花费十几年时间。AI利用大数据挖掘和机器学习技术,正在为药物研发流程提速。腾讯AI Lab研发的云深平台,已经应用在临床前新药发现五大模块,帮助药企和研究机构提高药物研发效率。

 

图片

 

云深平台也是一个智能执行体。基于云计算的干实验模块,是在数字世界中对物理世界进行建模仿真,利用大数据挖掘及机器学习等技术,让AI模拟分子生成、预测蛋白质结构等药物研发过程,得到的结果再回到物理世界的湿实验模块进行验真。过程中产生的数据,又能使数字世界的建模更准确,形成干湿实验的闭环。

 

图片

 

同时,智能执行体也是机器人研究的重要技术点。利用AI算法,我们可以在虚拟环境中设计和训练机器人,机器人在虚拟世界习得一身本领再回到真实世界行动,效率更高、成本更低、也更安全。这是腾讯自主研发的足轮融合多模态四足机器人Max。Max先在虚拟世界学习崎岖路面的行走,再在现实世界中实现智能运动。

 

图片

 

讲到虚实集成世界,也势必包括虚实集成世界里的交互。从用户的角度来看虚实集成世界,我们会看到一个三角形。虚实集成世界有三个东西,一个是沉浸式的内容,比如3D的空间、音效、触觉、嗅觉,各方面的沉浸式内容,一个是互操作,用户的内容和体验在虚实集成世界里需要畅通无阻,需要一个虚实集成互联协议,还有一个很重要的就是交互Interaction。我把它们叫做三个“I”,一个是Immersive Content沉浸式内容,一个是Interoperability互操作,另外一个是Interaction交互。

 

图片

 

交互其实是一个回路,我们有一个虚实集成世界,我们作为一个用户如何跟虚实集成世界交互呢?第一个是要去感知虚实集成世界,这里面就是Perceptual Interface(感知界面),比如说AR goggle是我们去感知虚实集成世界的工具,那么我们感知以后,用户是要去对虚实集成世界做出反应的,这个反应就需要一个驱动界面,就是Actuation Interface。比如用Cyber Glove手套,去控制真实的物体也可以控制虚拟物体,使得虚实集成世界里面的物体、人、环境都有所变化。

 

图片

 

这是一个Loop,那么在这个Loop里面可以看到有很多东西。首先我们有用户、人,但是也可能是其他东西,比如智能体、物体、环境、用户的分身,用户可以通过分身跟虚实集成世界进行交互,当然也可以直接跟虚实集成世界进行交互。所以这个是非常丰富的。

 

图片

 

稍微把它展开一点的话,可以看到用户可以跟他的分身交互,跟分身交互时可以区分两个东西,一个叫中之人,就是直接通过用户的行动,实时控制他自己在虚实集成世界里面的分身。但是有时候太忙了,你可以不去直接控制 ,可以让自己的分身在这个虚实集成世界里面生活,到一定程度以后,他可以把他在虚实集成世界里面交互的信息总结出来,然后告诉你。这样可能有时候更高效,这就是用户跟分身也有不同的交互方式。此外,用户还需要跟其他用户、智能体、物体、环境等交互。

从分身角度来看的话,分身还可以跟其他分身来交互,以及分身跟其他用户的交互,以及分身跟智能体、物体、环境交互。大家可以看到在虚实集成世界里面的交互,是非常复杂、丰富的,如果全部都让用户去控制的话,几乎是不太可能的,所以我们必须要让分身或虚拟人智能化,否则的话交互就变得失控了,我们的体验会非常差。

 

图片

 

智能化这里面提了三个可能性,第一个是智能数字人的人格化,包括他的形象、理性、感性方面的东西,要像一个人。第二个是知识化。假如要和智能体、虚拟人交互的话,一个机器人傻傻地没有知识,你可能就失去兴趣了,所以还是需要虚拟人有知识,包括引导、查询、聊天、推荐。第三个是每个智能体它还必须要有个性,不能千篇一律。他的角色要能够不一样,他作为一个个体要有他自己的生活方式、生物体验,都需要有一个自动化的适配。这里简单的提了一下交互的部分,就是数字人要智能化。

 

图片

 

四个技术点如果顺利发展,一个全新世界的大门就会向我们打开。

但这会是一个跨国别、跨学科、最困难而又漫长的科学探索工程,需要技术人员持之以恒,砥砺前行。

 

图片

 

而当我们进入这个充满想象力的世界,未知一定会大于已知,这同时提醒我们保持对于技术的敬畏心。要让技术“可知、可控、可用、可靠”,从而让技术更好地服务于我们。

  • 新闻
  • 观点
  • IT/互联网
  • CTO
  • CIO
  • CDO
  • 战略
  • 研发
  • 生产制造

推荐

我要评论