这太有趣了。之前我跟 Reid 说过,我 7 岁的孩子所在的学校刚刚赢得了纽约州国际象棋锦标赛冠军。所以他们要追上你还有很长的路要走,但他却信以为真,说:“哦,对了,妈妈,我要去玩玩电脑上的 ChessKid。我要和电脑下几盘。”这在几十年前当然算得上是天方夜谭。我记得我上中学时,那场比赛显然是 Deep Blue 对阵 Garry Kasparov,那是人机对决的时刻。你刚才提到,根据大师级的数据,这说明,这是蛮力对抗自学系统。你能详细谈谈这种二分法吗?
Demis Hassabis:
是的。首先,你儿子下棋真是太好了,我觉得这太棒了。我非常提倡在学校里把国际象棋作为课程的一部分。我认为这对思维能力的训练非常棒,就像数学或编程一样。它确实影响了我处理问题、解决问题、构思解决方案和制定计划的方式。它教会了我所有那些令人惊叹的元技能——如何应对压力。所以你在小时候就能学到所有这些,这对你以后做其他事情都很有帮助。至于 Deep Blue,你说得对,大多数早期的国际象棋程序——后来 Deep Blue 成为了其中的巅峰——都是这类专家系统,在当时是研究人工智能的首选方式。实际上,解决问题的是程序员——在这个例子中,就是下棋。
然后,他们将解决方案封装成一套启发式规则,引导一种蛮力搜索,在本例中,就是为了找到好的棋步。我一直有这种想法,虽然我对这些人工智能象棋程序着迷——它们能做到这一点——但我也对它们略感失望。实际上,当我接触到 Deep Blue 时——当时我已经在剑桥大学读本科了——我对 Kasparov 的思维比对机器的印象更深刻,因为我当时已经开始学习神经科学了。因为这是一个非常强大的机器——它只会下棋。而 Kasparov 不仅能下棋达到差不多的水平,还能做其他所有人类能做到的令人惊叹的事情。所以我想,这难道不正说明了人类思维的奇妙吗?
更重要的是,这意味着 Deep Blue 和这些专家系统方法缺少了某种非常根本的东西。非常明显。因为 Deep Blue 看起来并不智能——尽管它在当时是人工智能的巅峰之作——它缺少的是学习能力,学习新事物的能力。比如,Deep Blue 能达到国际象棋世界冠军的水平,却不精通井字棋,这太不可思议了。你必须重新编程,因为系统中没有任何东西允许它玩井字棋。这很奇怪,这与人类大师级选手截然不同,他们显然可以轻松地玩一些更简单的游戏。而且,它也不具备通用性,就像人类思维那样。我认为这些正是人工智能的标志。我从那场比赛中得到的启示是,这些是智能的标志,如果我们想要攻克人工智能,这些标志是必不可少的。
我们在 2010 年创立 DeepMind 时,工业界还没有人研究这个,学术界也几乎没有这方面的研究。我们把公司命名为 DeepMind,一部分原因是因为深度学习。这也是对Hitchhiker’s Guide to the Galaxy中的“Deep Thought”(深思)以及 Deep Blue 和其他人工智能产品的致敬。但主要还是围绕着一个想法——我们会押注这些学习技术。深度学习和分层神经网络,它们才刚刚被发明出来,是 Jeff Hinton 和同事在 2006 年进行的开创性工作。所以它非常非常新。强化学习一直是 DeepMind 的专长。还有从反复试验中学习,从经验中学习的理念;然后制定计划,并在现实中采取行动。
因为它不仅在美学上很美,而且它关乎模式,而不是国际象棋更注重的那种粗暴计算。所以,即使是世界上最优秀的棋手也无法清楚地向你描述他们所使用的启发式方法。他们只是直觉地感觉到正确的走法,他们有时会这么说。“这步棋,你为什么走这步棋?”“嗯,感觉是对的。”然后事实证明,他们的直觉——如果他们是一位天才棋手——是天才的,非常棒。这是一步非常漂亮和有效的棋步。但是,很难将其概括成一套启发式方法和规则来指导机器如何下围棋。这就是所有这些 Deep Blue 方法都不起作用的原因。
他们以为是电脑操作员 Aja 操作失误,因为简直无法想象有人会下出这样的棋。当然,一百步之后,事实证明,“第 37 步”——棋子,也就是放在棋盘上的那个棋子——正好落在了决定整盘棋局的正确位置。所以现在它被当作围棋的伟大经典、围棋史——那盘棋和那步棋——来研究。更令人兴奋的是,这正是我们希望这些系统能够做到的。因为我和我的整目标,我一生致力于人工智能研究,就是为了利用人工智能来加速科学发现。而这些新的创新,尽管是在棋局中,正是我们从我们的系统中所寻求的。
我想很多 AI 领域之外的人会惊讶于这一切都始于游戏,但这对我们正在做的事情来说却是一种福音。我们就是这样创建这些系统的。所以,我们从棋盘游戏转向了电子游戏。你能否简短地解释一下,为什么像 AlphaStar 这样能够玩《星际争霸 II》的 AI 比那些能够下国际象棋或围棋的 AI 更加先进、更加吸引人?
如果你认真对待游戏,你实际上可以模拟人们在决策情境中会面临的许多压力。回到之前,这就是为什么我认为国际象棋是孩子们学习的绝佳训练场,因为它确实教会了他们所有这些情况。当然,人工智能系统也是如此。我们早期的人工智能系统理念曾是完美的试验场,部分原因是它们被发明出来是为了给人类带来挑战和乐趣。当然,游戏玩法也有不同的层次。所以我们可以从非常简单的游戏开始,比如雅达利游戏,然后一路升级到最复杂的电脑游戏,比如《星际争霸》,并不断挑战我们的系统。所以我们处于 S 曲线的最佳点。所以它不会太容易,不会太琐碎,也不会太难,你甚至看不到自己是否取得了任何进展。
你想要达到 S 曲线的最大值,也就是你几乎呈指数级增长。随着系统的不断改进,我们可以不断选择难度越来越高的游戏。游戏的另一个优点是,由于它们是现实世界的某种缩影,它们通常被归结为非常明确的目标函数,所以赢得比赛或最大化得分通常是游戏的目标。这对于强化学习系统或基于 agent 的系统来说很容易实现。所以它非常适合爬山对抗,还可以衡量 Elo 分数、评级以及你的确切位置。最后,当然,你可以与最优秀的人类玩家进行比拼。这样你就可以校准你的 agent 在它们自己的比赛中的表现。