姚期智，徐立和杨植麟们在一起聊了什么？中国 AI 老中青三代的一场对话

当前位置：首页>关注 >

姚期智，徐立和杨植麟们在一起聊了什么？中国 AI 老中青三代的一场对话

2023-07-06 22:07:17 来源：品玩

在 2023 上海世界人工智能大会开幕式上，商汤科技董事长兼 CEO 徐立联合图灵奖得主姚期智、清华大学交叉信息学院助理教授袁洋、清华大学交叉信息研究院助理教授杨植麟和 DragGAN 第一作者潘新钢举办了一场以《创想共论 · 智变可能》的圆桌论坛。

(资料图片)

论坛中，四位嘉宾分享了自己在人工智能发展、多模态补齐、大模型幻觉以及图像生成模型等方向的看法。

金句汇总：

1、在 ChatGPT 之后，下一个非常重要的目标是让 AI 成为拥有视觉、听觉等多种感知能力的机器人，能够在各种不同的环境里面，自主地学习新技能。

2、面对大模型实际应用中的挑战，需要更系统的去将底层的共通问题抽象出来，回到更本质的一个层面去解决。

3、将 GAN 和 Diffusion 模型两种路线各自优势互补，是未来研究的方向。

以下为圆桌论坛实录：

徐立：

各位嘉宾好，很荣幸今天能在这场做主持，因为这场有我们计算机界的泰斗姚院士，以及我们三位非常年轻的学术之星，可以说这三位代表了我们人工智能的一些新的发展方向，所以话不多说，我开始简单地来介绍一下。

我们知道姚院士是图灵奖得主，并且是在清华创办了交叉信息学院。其实现在大模型发展的速度非常的快，我想请教一下姚院士，在大模型发展的今天这个节点上，有没有一些基础理论的突破，以及接下来有些哪些发展的方向？

姚期智：

我们中国的科学家在现代的 AI 的发展上做了很多突破性的贡献，我们有一位年轻的高阳老师，他在一年多以前做了一个非常重要的在算法突破上的贡献，受到很多的国际关注，它能够把现在非常主流的强化学习，加快数百倍。

我来解释一下，在 ChatGPT 以后，下一个非常重要的目标就是让 AI 变成有视觉、听觉等多种感知能力的机器人，它能够在不同的环境里面，自主地学习各种的新技能。但是现在的强化学习的方法，太慢了，对于这些新的技术常常要几个月的时间才能够学好。高阳老师他的一个突破就使得强化学习，能够在几个小时内就能够做到。

所以这些智能机器人将来的发展里面一定会要把刚才这个工作能够放进去，同时它不仅是一个实用的问题，而且它有一个理论的贡献。

在过去的六七年里面，人工智能方面有一个路线之争，就是我们现在依赖着强化学习这条路线是不是正确，有很多的争论。

我想高阳教授他一年多以前的这一个突破，把天平方向倾向了另外一边，我们应该坚持我们现在这条路，对于通用人工智能的完善还有很长的路要走。

OpenAI 联合创始人在不久之前的一个 interview 里面，就把高阳老师的工作当做近年来强化学习里面最重要的亮点之一。我现在只是在做一个广告，明天，期智研究院要主办一个分论坛，那里面大家可以遇见高洋老师，同时还有其他很多的中外的在基础理论跟框架上的贡献。

好，谢谢姚院士，我们也期待强化智能，在人工智能的领域上面能够有更大的成就和突破。接下来我们这三位教授是非常年轻，两位是清华大学交叉信息学院的教授，一位是 NTU 的教授，我想起人工智能当时起来的时候五六年时候那篇 proposal，其实 4 位学者的平均年龄是 33 岁，我看了一下我们这三位教授的平均年龄还不到 33 岁了。

接下来想请问一下袁洋教授，在大模型的演进发展过程当中，这些交叉学科对模型的发展有没有什么进一步的帮助？

袁洋：

我觉得现在大家特别强调大模型要能够用到一些交叉的行业里面，能够落地应用起来，大家会讲到多模态。这个事情肯定是很重要的，但是我觉得大家对多模态的东西的理解可能比较粗糙，大家往往想到的多模态是他能够看图片、看文字、有触觉、有温度的感觉，但是我觉得要真正做到一个具体行业，能够解决行业里的问题，多模态需要做得更细致一些。

比如说我举个例子，像一会儿潘老师可能要讲的 DragGAN，我们如果只是考虑文本到图片的一个生成，你说一句话要画一只狗，然后它生成一个狗的图片，这样你很可能会发现生成狗的图片不是你想要的姿态或者模式，然后通过 DragGAN 你可以用鼠标来拖动一下，修改一下。

鼠标拖动的这种方式，在我看来这就是一种新的模态，用户用一种比较好的方式把自己想要表达的内容告诉大模型，让他能够理解。

虽然它可能只是一种鼠标拖动，但这种多模态的输入，我觉得在具体应用中非常重要，到更具体的一些行业，比如说医疗法律教育，我觉得我们不应该只是把文本或者图像喂给模型，让它有一些专业的数据，就希望它能够解决专业的问题，我们应该去深耕这个行业，去找到它里面最核心的问题是什么，然后再去找在这个问题里面，我们到底需要什么样的模态的数据，什么样的信息能够精准表达我们想要解决的问题，这个我称为是一种模态的补全。

然后模态补全之后，我们需要在补全模态的基础之上收集足够的数据，做好模态的对齐，模态补全模态对齐做好之后，我相信它能够赋予大模型更强大的能力，来解决更核心的一些交叉领域的问题。

模态补齐之后，可以相当于是这方面的 Know How 对于后面的发展是有很大的帮助。我们来问一下杨植麟，杨植麟也是誉为说天才少年，然后我看过他很多的工作，包括他也参与到大语言模型非常早期的一些工作。

我想现在大语言模型应用很广泛，但是也会在实际当中会遇到一些问题，比如我们经常提到的幻觉等等的一系列的挑战，所以想请问一下说在大语言模型的实际使用当中，我们有哪些困难和挑战，或者要注意哪一些方面上的具体的点。

杨植麟：

现在确实有很多大模型方面的还没有解决问题，比如说安全性怎么让它做到非常可控、如何去避免它产生这种幻觉，不去编造一些很不存在的东西以及他现在其实也没有办法像科学家一样去创造新的知识，或者说在很多行业里面像最顶级的销售、产品开发这些工作可能现在都还没办法做，我认为这里面很重要的一个点，是我们在思考这些问题的时候，不应该每个问题去单点思考。

比如说今天我想解决幻觉的问题，不是去头痛医头，而是更系统的向这些问题之间底层都是什么样共通的问题，回到更本质的层面去解决，因为毕竟是通用的模型，我们希望它能够在这些方面都能够一举一反三，所以我觉得其实还是要去做更规模化的高效的压缩，比如说去用更好的更适合分布式训练的这种框架，类似比如 MOE 或者是支持更长的上下文的框架，包括在这里面怎么样去更好地分配算力，对更高质量的数据分配更多的算力，就类似这样的问题，我觉得其实可以更根本地去解决我们刚才可能聊到的现在 AI 的存在一些局限性。

还是从理论层面上去解决，可能讨不得巧。然后今天我们的圆桌的背景都是用我们用算法生成的，其实都是基于 Diffusion Model 的，但是新钢是以一己之力又把 GAN 重新拉回到大家的视野当中，他 DragGAN 这篇文章是网上说爆款，说有手就行，大家就能来制作内容，所以也想听听新钢来讲说比如说算法当中 GAN 和 Diffusion Model 之争，算法本身路线选择有没有什么好坏，或者说在这之后再看生成内容的时候这两者哪一个有更强的延展性。

潘新钢：

好，谢谢主持人的提问。 GAN 和 Diffusion Model 现在是图像生成的两个主要的生成模型，尤其是 Diffusion Models 在近期也显然有盖过 GAN 的势头。我觉得他们由于生成模型的框架以及优化目标的不同，主要有三个差异：

第一个是性能与效率的 Trade off，显然扩散模型在生成的过程中，它的需要的算力更大，它的迭代式的计算所需要的 influence 的时间和训练的都显著高于干。

与此同时更大的计算开销也带来了更高的图像生成的性能，它所生成的图像不会受限于 GAN 的 mode claps 的问题，它的真实性和多样性都显著优于 GAN，所以我相信扩散模型它的上限一定是要高于 GAN 的，在性能允许的情况下，它对于质量和多样性方面的优势是非常明显，并且应用价值应用前景更广的，但是如果说在一些特定场合，例如 mobile device，这些对于性能或者计算开销有限制的情况下，GAN 仍然是这样一种妥协的选择。

第二点是他们 Latent Space 的差异，我们知道 GAN 是将一个 Compact Latent Vector 映射到图像，但是扩散模型是将一个和图像分辨率一样的 noise map 映射，逐映射逐渐去噪，映射成为图像。实践中，扩散模型的这种 noise map 对于图像内容的影响常常表现出来为比较随机，不具有结构化的特性。但是 GAN 的 Compact latent code 可以非常有效地去编辑图像中的 high level 的属性。

比如说人的表情或者动物的姿态之类的，这也是为什么我们选择将 GAN 作为 drag 这种编辑方式的第一个生成模型去 study。

但我相信之后如何去拓展到扩散模型，也是一个非常值得探索的问题。

第三点就是他们生成图像的空间的连续性上，由于这两个模型在设计的时候，他的 Lipschitz constraint 不同，所以体现出来扩散模型的图像空间较为不连续，GAN 的图像空间非常延续自然，所以我们用扩散模型进行 Latent Space 编辑或者视频的编辑时候，常常会观察到跳变的情况。

GAN 他表现出来比较流畅，看起来像动画，所以这也是 GAN 的一个优势，将来如何把这两个模型各自的优势互补会是非常有趣的研究问题。

就是 Gan 在前端或者连续视频上面有优势，然后 Diffusion 其实在性能上会更好一些，希望有一个更好的结合。我再问一下最后一个问题，结合咱们的研究方向，各位觉得大语言模型在接下来哪个垂直领域里面，可能最北被看好？

我想最容易的就是文书工作，有了大模型的语言以后，更多的工作可以变得由这些机器来做，我想这是一个直接的表现。

袁洋：

我觉得是医疗，因为当然不光是因为我是做智能医疗的，还有一个原因是因为我觉得大模型现在是基于预训练的这种范式。预训练的本质其实在学数据与数据之间的关系，医疗里面有大量的这种关系。比如说，患者的症状之间关系与药物之间关系，吃了药之后会变成什么样子的这些关系，这些关系其实人类不一定能够学习地刻画得很好，我觉得在这方面大模型有可能做得比机器更好，所以我比较看好这个方向。

我觉得比较重要的一个场景是 AI 将来应该会跟人一样有共同的记忆，比如说今天我们去用一个 AI 的话，还是需要每天给大家重新去灌输一些东西，给他提供很多上下文，把人能看到的所有东西其实 AI 都能看到，通过这种方式，其实我觉得可以在个人的使用上有非常大的想象的这个空间。

我是做视觉内容生成的。现在图像生成已经很好了，而之后视频和三维内容生成也有非常大的前景，它可以帮助设计师、帮助艺术家，帮助动画制作者、影视特效师等人，去更好更高效地创作更高内容的更高质量的内容。

关键词：