2022.04.25 NVIDIA与铠侠共同探讨人工智能的未来（下）人工智能和深度学习的未来是什么？

人们正在逐渐接受最新的技术，“数字孪生”和“元宇宙”等术语已渗透到日常对话之中。引领人工智能技术发展前沿的铠侠员工折原良平和NVIDIA的井﨑武士都在关注哪些技术，他们如何展望未来？铠侠和 NVIDIA 未来合作的可能性又有哪些？

不断扩展的先进技术视野

铠侠的折原良平和NVIDIA的井﨑武士是人工智能和深度学习领域的研发先锋。接下来的对话中，他们讨论了人工智能在社会中的实际应用，以及其在元宇宙中的可能性，加速呈现了现实感十足的近未来社会。

折原：我们在“TEZUKA 2020”中使用了生成对抗网络（GAN）——一种以生成图像和其他媒体的能力而闻名的深度学习模型。起初对于我们工程师来说，能够生成图像就足够了，但随着时间的推移，我们希望对所创建的内容进行更精确的控制。NVIDIA的Style GAN就是针对这一问题的技术。最近的研究集中在将GAN技术与自然语言处理（NLP）相结合，以更好地控制生成类的人工智能，我觉得这很有意思。

井﨑：你的意思是根据文字描述制作图像吗？

折原：没错。你可以在下达指令时使用自然语言，比如“把这张图片的这部分改成这样”。

井﨑：这要归功于我们过去几年中在自然语言处理方面取得的巨大进步。自从主要用于自然语言处理（NLP）领域的Transformer模型开发以来，语言识别和语言诠释都得到了很大的改进。我们将其应用于图像识别，并整合到生成类网络中，这是个不断进化的领域。

折原：在深度学习的早期，流程是将在图像识别中得到验证的方法带到自然语言处理中。而Transformer模型则相反——在自然语言处理中表现良好的方法被应用到了图像识别中。我认为有这种交互的流程非常有意思。

井﨑：说到语言处理，GPT-3 是另一个在自然语言处理中使用 Transformer 模型的例子。GPT-3 是一种文本生成语言模型，可以让人工智能撰写博客和新闻文稿。使用该模型可以让动画人物以自然的方式执行动作并与人交谈，也就是智能对话机器人。这种应用的例子会越来越多。

──您提到了新闻报道。您还为人工智能设想了哪些其他日常应用？

井﨑：我想大多数人都熟悉聊天机器人的例子，它正在取代呼叫中心。许多金融机构已经在使用基于人工智能技术的聊天机器人，各种云服务公司都在提供软件即服务（SaaS）。但我认为该领域还将变得更加智能，比如从人的声音中读取情绪并做出相应的反应。用不了多久，它们的准确性就会更高，也就可以更自然、更准确地与人类互动。

另一个例子是零售环境中的虚拟销售人员。顾客在液晶屏上搜索产品，虚拟销售人员将能够正确地理解顾客的需求，并将顾客引导到商店中相应产品的位置。与人类销售员不同，这些虚拟店员是连接在网络上的，因此可以随时为顾客进行个性化的商品推荐。这种应用会越来越广泛。

折原：除此之外，如果将图像和声音的识别能力结合起来，交流会变得更加自然和人性化。

井﨑：没错。如果加上手势识别就会更逼真了。从一个人的面部表情中读取他们的情绪，通过结合语音和图像来进行更顺畅的交流，创建一个所谓多模式系统。

折原：最近越来越多的公司举行虚拟远程会议，但人们不喜欢远程会议，因为人类交流的一半以上是非语言（nonverbal）信息，而这些信息很难通过远程会议传达到。多模式系统将改善这个问题。

我还有一个有趣的经历。我在法国参加会议时想要预定一家餐厅，我用英文写了一封邮件，然后使用谷歌翻译转换成法语发了过去。当我到了餐厅才发现工作人员不会说任何英语，所以我被迫用蹩脚的法语交流。结果在我用餐时，服务员给我递来了一张纸条，上面写着“您用法语给我们写了封邮件，有想说的话就请写下来吧。”也就是说，谷歌翻译已经通过了图灵测试。

井﨑：最近谷歌翻译的准确度有所提高，已经达到了可以直接复制粘贴的水平。就像你说的图灵测试，谷歌翻译已经到了可以以假乱真冒充人类的程度了。

──请从先进技术角度介绍一下GauGAN。

井﨑：GAN的热潮大约是在两年前，当时GAN相关的论文一篇又一篇的发表。在那之后稍微平静了一点，但许多新的GAN算法仍在开发中。在NVIDIA，我们发表了一篇关于GauGAN的论文，它是这样一个模型：用户绘制图形，并对某些区域进行指定，比如指定为岩石或天空；该模型将根据这些指定创建一个逼真的图像。现在新的算法GauGAN2正在不断进化中。在“TEZUKA 2020”项目中，我们使用的是StyleGAN来创建角色，该模式现在还可以创作周围的背景。人工智能的创意领域正在不断扩大。

最近，我一直在关注神经辐射场（NeRF）算法，它可以将二维图像转换为高精度 3D 图像。在平面图像的基础上重构三维图像，并且可以改变或者移动视角。将创作空间增加到三个维度，人工智能就可以运用到更多的领域，有更多的使用方式。

──随着元宇宙的不断发展，会出现更多人工智能在三维空间中的创作吗？

井﨑：NVIDIA有一个名为Omniverse的平台，这是一个为三维设计协作，和虚拟空间中的实时模拟而开发的平台。这是一个协作环境，可以让位于不同地点，使用不同三维设计应用程序，以及不同设备的设计师进行实时协作。

例如，通过创建工厂自动化机器和运输机器人的物理模型，可以模拟工厂的运营，从而优化移动路线、装配线安排和人员分配。在Omniverse上还可以实现多人协作编辑，比如构建工厂建筑的虚拟模型，并模拟其在真实世界中稼动的场景：包括日照条件以及周围环境的模拟，以此检验工厂是否能在真实环境中正常运作。今后这种应用方式会不断增加。

办公桌电脑上的独立工作环境，将转变为虚拟空间中的协同创作。

折原：听井崎先生说完，我意识到这些最新的技术在程序中已逐步实现，我作为一个程序员，创作和精通的也只是程序；而程序和软件世界中的新技术借助元宇宙可以扩展到设计领域以及其他与有形事物相关的领域。

井﨑：编程，尤其是开发工具正在稳步发展。有些人是硬编码的，而另一些人则是使用无代码和低代码等工具构建的。我认为这种各个层次协同创造的环境会不断扩大。

以前的程序只有程序员才能看懂，现在也都平民化了，甚至达到外行也可以使用的水平，那么做出来的程序就会因此改变，进而导致更大的多样化。

折原：编程被民主化了。

井﨑：没错，就是这个意思。

铠侠和NVIDIA的未来

铠侠与NVIDIA的合作始于“TEZUKA 2020”。他们的下一个项目将是什么？折原良平和井﨑武士对人工智能的未来有着源源不断的热情和想法，他们讨论了数字人类和地球模拟等话题，并就正在迅速变得无边界的人工智能开发世界所需要的技能交换了意见。

折原：NVIDIA在做包括GAN在内的深度学习研究，软件资源也在GitHub等平台上发布，我希望能继续使用这些软件资源。同时铠侠也希望能够为开源社区做出贡献。

井﨑：铠侠是存储设备的制造商，除了“TEZUKA 2020”项目我们也还有其他业务关系。这次我们通过漫画的形式从“记忆”中复活了手冢治虫，而创意还有图像和声音等其他很多形式。今后铠侠将继续探索使用存储设备为世界提供具有全新附加价值的产品和服务，我也很期待NVIDIA能够对此有所帮助，无论是通过我们的算法、GPU还是其他方式。

──如果铠侠和NVIDIA要做一个比“TEZUKA 2020”更有影响力的项目，会是哪个领域呢？

折原：考虑到我们两家公司的性质，这可能是一个需要大量计算能力和庞大数据的项目。

井﨑：这让我想到了数字人类。构建一个数字人需要360度摄像头和海量的数据，包括语音数据和人类行为数据，同时需要强大的计算能力和巨大的存储容量。这是一个可能的合作领域。

NVIDIA正在尝试创建的另一个项目是地球的模拟，也就是地球的数字孪生。但要对整个星球进行建模需要大量数据。

── “地球模拟”会很有影响力。

井﨑：最近有很多关于将二氧化碳封存到地下的讨论，所以我们正在尝试模拟这种方式对地球的影响。只有使用正确的模型，我们才能看到真实的情况，这就需要大量数据。这种模拟与我们的生活息息相关。尽管从整个地球的角度来看，人类的生命非常短暂，但未来人类的生命取决于我们现在所做的事情。因此我们需要准确地模拟未来，并研究如何改善后人的生活。我们从这些模拟中得到的结果将是人工智能中非常有价值的一个成果。

折原：模拟让我们对未来有一个现实的预估，如果在此基础上我们不能对当前的行为做出改变，未来也不会变得更好。这里还需要结合认知科学和心理学领域的知识。