腾讯首席科学家张正友博士：虚实集成世界的未来

2022-07-24
来源:首席数字官

7月19日，IEEE 2022网络、计算机和通信国际研讨会(ISNCC2022)首次落地中国，围绕“Touch the Future数字未来之路”主题，来自中国、美国、英国、意大利、法国、突尼斯、印度、日本、俄罗斯等28个国家的知名科学家、科研人员，就网络、计算机与通信领域进行了29场线上活动。腾讯首席科学家、腾讯AI Lab和腾讯Robotics X实验室主任张正友在开幕式上演讲。

以下是演讲全文：

大家好，我是腾讯首席科学家、腾讯AI Lab和腾讯Robotics X实验室主任张正友。很高兴有机会参加ISNCC 2022。今天我将向大家介绍一个由前沿技术打造的全新未来——虚实集成世界。这个未来是怎样的?其中哪些技术将发挥关键作用?这些技术将可能从哪些维度，为各行各业创造新的价值?我将和大家分享我对这些问题的思考与探索。

人类文明和技术的发展，都离不开我们人类是社交性动物这个事实。我们有不可或缺的沟通与合作需求。而这种沟通和合作与生俱来就是多模态的并具有空间性。如果我们看一下沟通和合作的技术发展史，从远古时代开始的笔和纸，也就是写信，到电报的出现，到电话，到视频会议，到沉浸式的远程呈现，技术在不断的发展，而且有越来越快的趋势。

人类的沟通和合作可以从三个维度去思考：空间、时间、通道或者内容。

在空间维度，我们可以同地沟通和协作，但也可以是分布式的，比如在深圳和北京之间。分布式又可分成固定的，比如在办公室内，和移动的，比如在机场。

在时间维度，又可分成共时的，比如电话，和非共时的，比如信件。也有准共时的，比如微信。

在内容或通道维度，我们可以分成：文本，音频，视频，远程呈现，甚至是沉浸式的远程呈现。

为了达到沉浸式的远程呈现，一个趋势是用虚拟世界。

什么是虚拟世界?虚拟世界是一个计算机仿真出来的环境，这个环境是持续存在的，永恒的，persistent. 这个环境可以容纳很多的用户，用户可以和其他用户沟通和合作，并可以创造自己的分身。用户之间的沟通和合作可以同时或者独立进行。虚拟世界有很多应用，比如在娱乐领域的游戏，在商业领域的医疗培训和会议。

VR头盔，也就是虚拟现实技术，是一种供用户探索虚拟世界的技术，一种沉浸式的技术，在虚拟环境中模拟用户的物理存在，包括3D视觉、空间音频、触摸、力反馈等。

下面说一下AR技术，也就是增强现实技术，比如微软的Hololens。AR技术将一些计算机仿真出来的虚拟物体放到真实世界中，允许虚拟物体和真实物体能在真实世界中实时互动。因此，这个技术要求虚拟物体与真实世界之间有非常精准的三维配准。

我们也听到MR，也就是混合现实技术。MR将真实世界与虚拟世界融合，创造出新的环境叫混合现实。在混合现实里，物理与虚拟物体共存并实时互动。混合现实可以发生在虚拟世界或真实世界中。现在MR基本是增强现实技术的同义词。

所以大家看到，无论是VR，还是AR，还是MR，都只有一个世界。在VR是虚拟世界，在AR是真实世界，在MR可以是虚拟世界，也可以是真实世界，但一般是真实世界。

随着技术进一步发展，我们所迎来的全新世界，不是VR(虚拟世界)，也不是AR(增强现实)，也不是MR(混合现实)，也不是Digital Twin(数字孪生)，而是真正的虚拟世界和真实世界的紧密结合，我称之为虚实集成世界，英文我叫它Integrated Physical-Digital World，IPhD。

举个例子，比如现在疫情反复，大家今天能齐聚一堂、面对面交流，非常不容易。如果要做跨国的交流、展览，就更困难了。今天的技术还比较局限，远程交流也远未达到身临其境的效果。

在虚实集成世界，就都没问题。我可以安排我的虚拟分身，就是Avatar，去到不同的地方和大家交流。甚至还能和大家握握手，一起参观展览，摸一摸展品，感受它们的材质和重量，体验将完全不同。

要实现虚实集成世界，我认为需要四个关键的技术点：现实虚拟化、虚拟真实化、全息互联网、智能执行体。

1)我们看到的第一个技术点，就是现实虚拟化。

比如你希望自己的分身更接近真实的你，它首先需要在外形上跟你很像。这就是把现实世界里的人高度虚拟化。腾讯AI Lab 2017年就开始研究，现在用30秒自拍视频，就能做一个你的3D形象，外形很逼真;虚拟人要具备更逼真的效果，他的声音、表情、动作也要更像真人。这是腾讯AI Lab的超写实3D虚拟人“小志”，他不仅可以通过语音或文本输入合成语音，而且口型准确、表情也很生动。

我们的目标是从细微表情，到全身动作，全部都像。我们的方法是钻研多模态交互技术，把计算机视觉、语音处理、自然语言处理、情绪认知、分析决策等结合在一起，打通技术链条，最终让虚拟人听、说、读、写、想，全都可以。当然，最终极的，可能是把人的一生都虚拟化，实现数字世界的永生，不过我们离这还有些远，还需要很多技术进一步发展，包括高带宽、物联网等物理基础设施，算法模型、驱动系统、机器认知、高质量低成本的渲染等。

2)除了真实虚拟化，第二个技术点，就是虚拟化走向真实化。

我们现在能把虚拟模型制作成真实物体，用3D打印，能制作工具、艺术品、甚至是机器人。

我们还可以把虚拟信息带到真实世界中，比如用增强现实，也就是AR技术，让真人和虚拟角色和物体进行交互。

比如在游戏上，任天堂的《马里奥卡丁车》能让你在家里的真实客厅里，开着游戏里的虚拟车和朋友比拼;在教育上，AR能用更形象生动的方式，教孩子们几何、天文和历史;在文娱领域，AR能将虚拟偶像和真实舞台完美叠加，透过大屏幕或投影仪为观众呈现出一个梦幻与现实混合的三维奇观。

这是腾讯AI Lab国风AI歌姬「艾灵」，她具备唱歌、作词、书法多项才艺。

3)除了虚拟化和真实化，我们的第三个技术点，是全息互联网。

它是创造一个科技虫洞，把虚拟世界和真实世界中分布于不同地方的人、事、物全部同步到一起。

我在微软时，曾深入研究全息的重建、传送和渲染技术。这是全息技术和混合现实技术的组合，能把分布于世界各地的人、事、物同步“投影”到一起。一个在远程的全息的人，和一个真人在一起，互相对视和互动。除了三维视觉信息，空间音频也是我研究的一部分，我们能感受到来自空间不同角度和不同位置的声音。现在在腾讯，我也开始研究触觉感知和力感知。也许不久以后我们会开始研究嗅觉和味觉。

这就像是一个虫洞，跨越了时间、地点、语言、甚至跨越虚拟和真实世界的界限，让所有人能进行更真实和更亲密的互动。

把不同空间的声音“投影”到一起，也是全息互联网技术特点之一。大家在开远程会议的时候，常常会因为距离麦克风远近、声音延迟卡顿、噪音而失真，影响开会质量。针对这些痛点，腾讯会议旗下天籁实验室和腾讯AI Lab合作，实现12米超长距离拾音，距离远近都听得清，还能针对性地消除键盘声、咳嗽声、开关门声等各种突发噪声。

4)第四个技术点，智能执行体。

古代有个神话，是砍柴的人半路遇到下棋的童子，看了一会儿棋，一回神，手里的斧头已经腐烂，同时代的人也都没有了。这才有了“山中七日，世上千年”的典故。

在虚实集成的世界里，出现了穿梭于虚拟和真实之间，改变时间和游戏规则的智能执行体。

我们知道，很多现实问题很难研究，要么需要很长时间、要么需要很高的人力或资金投入、要么就是风险很大，这些问题包括气候变化、农作物生长、老龄化问题等。这时我们会用到模型，将真实问题建模到虚拟世界来进行研究。

在农业这个最古老、数字化却最低的行业里，就出现了典型的智能执行体。腾讯AI Lab开发的iGrow智慧农业平台，在真实的温室里布满传感器，测温度、光照和湿度，制造出一个虚拟的温室仿真器，在15秒内就能模拟出82个生长周期，计算出最适合的温度、光照和浇水量，再利用执行器去自动调节控制，节约能源、增加收益。我们的AI已经学会了种黄瓜和小番茄，我们还将持续深入AI+农业的研究，探索这个古老行业的智能化路径。

在药物研发领域，标准的制药流程非常复杂，从基础研究，到药物发现、临床前研究、临床研究，最后上市，发现一款新药，要从上万个候选药里选出一个或者几个，整个过程往往要花费十几年时间。AI利用大数据挖掘和机器学习技术，正在为药物研发流程提速。腾讯AI Lab研发的云深平台，已经应用在临床前新药发现五大模块，帮助药企和研究机构提高药物研发效率。

云深平台也是一个智能执行体。基于云计算的干实验模块，是在数字世界中对物理世界进行建模仿真，利用大数据挖掘及机器学习等技术，让AI模拟分子生成、预测蛋白质结构等药物研发过程，得到的结果再回到物理世界的湿实验模块进行验真。过程中产生的数据，又能使数字世界的建模更准确，形成干湿实验的闭环。

同时，智能执行体也是机器人研究的重要技术点。利用AI算法，我们可以在虚拟环境中设计和训练机器人，机器人在虚拟世界习得一身本领再回到真实世界行动，效率更高、成本更低、也更安全。这是腾讯自主研发的足轮融合多模态四足机器人Max。Max先在虚拟世界学习崎岖路面的行走，再在现实世界中实现智能运动。

讲到虚实集成世界，也势必包括虚实集成世界里的交互。从用户的角度来看虚实集成世界，我们会看到一个三角形。虚实集成世界有三个东西，一个是沉浸式的内容，比如3D的空间、音效、触觉、嗅觉，各方面的沉浸式内容，一个是互操作，用户的内容和体验在虚实集成世界里需要畅通无阻，需要一个虚实集成互联协议，还有一个很重要的就是交互Interaction。我把它们叫做三个“I”，一个是Immersive Content沉浸式内容，一个是Interoperability互操作，另外一个是Interaction交互。

交互其实是一个回路，我们有一个虚实集成世界，我们作为一个用户如何跟虚实集成世界交互呢?第一个是要去感知虚实集成世界，这里面就是Perceptual Interface(感知界面)，比如说AR goggle是我们去感知虚实集成世界的工具，那么我们感知以后，用户是要去对虚实集成世界做出反应的，这个反应就需要一个驱动界面，就是Actuation Interface。比如用Cyber Glove手套，去控制真实的物体也可以控制虚拟物体，使得虚实集成世界里面的物体、人、环境都有所变化。

这是一个Loop，那么在这个Loop里面可以看到有很多东西。首先我们有用户、人，但是也可能是其他东西，比如智能体、物体、环境、用户的分身，用户可以通过分身跟虚实集成世界进行交互，当然也可以直接跟虚实集成世界进行交互。所以这个是非常丰富的。

稍微把它展开一点的话，可以看到用户可以跟他的分身交互，跟分身交互时可以区分两个东西，一个叫中之人，就是直接通过用户的行动，实时控制他自己在虚实集成世界里面的分身。但是有时候太忙了，你可以不去直接控制，可以让自己的分身在这个虚实集成世界里面生活，到一定程度以后，他可以把他在虚实集成世界里面交互的信息总结出来，然后告诉你。这样可能有时候更高效，这就是用户跟分身也有不同的交互方式。此外，用户还需要跟其他用户、智能体、物体、环境等交互。

从分身角度来看的话，分身还可以跟其他分身来交互，以及分身跟其他用户的交互，以及分身跟智能体、物体、环境交互。大家可以看到在虚实集成世界里面的交互，是非常复杂、丰富的，如果全部都让用户去控制的话，几乎是不太可能的，所以我们必须要让分身或虚拟人智能化，否则的话交互就变得失控了，我们的体验会非常差。

智能化这里面提了三个可能性，第一个是智能数字人的人格化，包括他的形象、理性、感性方面的东西，要像一个人。第二个是知识化。假如要和智能体、虚拟人交互的话，一个机器人傻傻地没有知识，你可能就失去兴趣了，所以还是需要虚拟人有知识，包括引导、查询、聊天、推荐。第三个是每个智能体它还必须要有个性，不能千篇一律。他的角色要能够不一样，他作为一个个体要有他自己的生活方式、生物体验，都需要有一个自动化的适配。这里简单的提了一下交互的部分，就是数字人要智能化。

四个技术点如果顺利发展，一个全新世界的大门就会向我们打开。

但这会是一个跨国别、跨学科、最困难而又漫长的科学探索工程，需要技术人员持之以恒，砥砺前行。

而当我们进入这个充满想象力的世界，未知一定会大于已知，这同时提醒我们保持对于技术的敬畏心。要让技术“可知、可控、可用、可靠”，从而让技术更好地服务于我们。

新闻
观点
IT/互联网
CTO
CIO
CDO
战略
研发
生产制造

腾讯如何打造企业应用的“互联网”？

腾讯首席科学家张正友博士：虚实集成世界的未来

下一篇

相关文章

下一篇