柯洁的痛哭与人机大战的剖析和认知

陈庆
2017-05-28
来源:

他没有了少年时的潇洒——“柯洁强撑着下完白126贴之后，离开座位去了宣传板后没有摄像机镜头的区域安静地独自流泪。良久之后，担任裁判的陈一鸣去查看情况，随后柯洁哭出声来，坐在十几米之外的观战席上的记者能够听见他隐忍但清晰的哭声……”他上一次哭，还是11年前，首届南方业余围棋天元战上，因为中盘一招不慎，输给了业余世界冠军李岱春。

在AlphaGo出现的前40年里，世界围棋十大高手排名基本被日本和韩国垄断。2014年，柯洁一马当先，登顶时年仅十六岁。柯洁也是当今唯一一位不满20的顶级棋手，这种人生概率恐怕只有百万分之一。《世界围棋十大高手动态排名》视频中那个如同火箭般窜升的柯洁，仿佛我们童年记忆中的孙大圣，连他的口无遮拦，也像。

如果没有AlphaGo，柯洁恐怕会像那个统治世界5000天的李昌镐一样，留下自己在南天门上的恐怖印痕。然而刚刚踏上世界之巅，这个19岁的青年，就败给了只有3岁的西方神明。可是他注定要面对这一战，如同戴荃《语空》中那句歌词——“谁叫我身手不凡”。

郑宇博士是微软亚洲研究院资深研究员，上海交通大学讲座教授，香港科技大学客座教授，ACM TIST主编，KDD China秘书长，2016年被评为美国计算机学会杰出科学家。他看完人机围棋比赛第二局中发表的评论，十分认同。

AlphaGo的综合实力目前走在了人类的前面，但并没有完全攻克围棋这项运动。人类也是在进步的，我们也不要低估了人类后天的快速（小样本）学习能力，这点AlphaGo基于现在的学习方法还做不到。AlphaGo不可能让专业棋手3子，目前人类职业棋手跟AlphaGo的差距也就在一个贴目的水平，没有大家想象的那么大。人类也有弱点，输在综合实力。

以下为郑宇博士的评论：

1. 在围棋这个项目上，AlphaGo的综合实力目前走在了人类的前面，但并没有完全攻克围棋这项运动。

一方面，能通过短短几个星期的学习就能击败学棋二十多年的顶尖围棋选手，已经证明了人工智能的强大。因此，即便AlphaGo日后万一输了，我们也仍然应该为人工智能点赞，切不可再次否定人工智能的力量。

另一方面，AlphaGo采用这样的技术线路其实是根据人类自身对围棋的理解来设计的，即搜索+价值评判。也就是说我们先假设各种走法（执行下去），再评判这样走可能赢的机会大小。由于索搜空间巨大，即便用尽地球上所有的资源，也不能找到最优解。此时，在某个局面下对（未来输赢）价值的判断就变得尤其重要。在深度学习没有出现之前，这点一直是机器的弱项，因此，早年间人在这方面占有巨大优势。

从专业的角度来讲，AlphaGo用深度学习去逼近了一个价值判断函数，然后再跟蒙特卡洛搜索树结合的方法。这个近似解比目前人类的价值判断（可能）接近或者要略强一些，加上机器不知疲倦的搜索效率和无情感波动，综合来看走在了人的前面。

但AlphaGo得到的这个解远不是最优解法，围棋未来可探索的空间还很大，还没有被攻克。打一个不恰当的比喻，好比我们现在发明了一种新的抗癌药品，比以前的药物能更好的延缓癌细胞的扩散，但还是不能完全杀死癌细胞，治愈人类。因此，我们不能说这个药品已经攻克了癌症。

其实，机器和人可以互相帮助提高水平。当人们对围棋有了更深入的了解之后，又会设计出更好的人工智能算法。两者其实并不矛盾，相辅相成，互相促进，不管谁输谁赢都是人类文明进步的体现。客观认识这一点很重要。

2. 人类也是在进步的，我们也不要低估了人类后天的快速（小样本）学习能力，这点AlphaGo基于现在的学习方法还做不到。

短期来看人获胜概率小，但长远来看（未来5-10年）人还有机会，因为人也有很强的学习能力，可以从少量跟AlphaGo的对弈的棋局中快速学习。尤其是在价值判断这块，人和机器都还没有弄明白怎么回事，在没有明确的规则时，人相对于机器还有机会。

另外，如果还是基于现有的学习体系，即便再给AlphaGo一亿副棋谱，再添加一万块GPU，它进步的速度也终将放缓，因为新增的棋谱和计算资源相对于2*10171这个搜索空间来说只是沧海一粟。

现在人类跟AlphaGo处在一个信息不对称的局面。人类跟AlphaGo对弈的次数还太少，获得的信息反馈也还远远不够。如果能够把AlphaGo开放出来，让更多的职业高手跟它对弈，让年轻的棋手来学习它的下法和招数，相信人类棋手也能够从中学习到很多，从而再次进步。

3. AlphaGo不可能让专业棋手3子，目前人类职业棋手跟AlphaGo的差距也就在一个贴目的水平，没有大家想象的那么大。

即便AlphaGo 2.0能让之前的版本3子，也不能代表它能让职业棋手3子。因为，AlphaGo的价值判断里只有输赢，没有赢多少一说。在做价值判断时，它也不知道自己是被让了子，它会根据当前（把让子优势算在一起的）盘面，去尽量选择获胜概率最大（风险最小）的一条路径走下去（哪怕只赢半目），这样就很容易下出缓手，从而给对手机会把让子的优势给捞回来。因此，AlphaGo 2.0让之前版本2子、3子的区别可能不会太大。

而职业棋手则不会这样，他们（在判断形式时）会忘记这两子的优势，（至少在前期会）继续用最强的招式来下，而不会让优势付之东流。加之AlphaGo的价值判断也不是精确解，之前下得过缓，后面一旦有一点估计不准确，就可能会输（机器不会累，情绪也不会波动，所以一台机器不会给另一台机器机会）。

其实贴目的差距（按中国标准7目半），在职业棋手看来，已经是非常大的差距了。很多职业高手，进入官子阶段后发现自己还落后对方7-8目，就会主动投子认输了。很多通过数子来决定胜负的比赛，输赢往往都在1-2目之间（比如柯洁就输给AlphaGo半目）。否则会被其他专业棋手笑话，自己落后那么多都不知道，点空能力太弱了。

4. 人类也有弱点，输在综合实力

人类会疲劳、面临心理压力和情绪波动。AlphaGo下棋没有连贯的思路，也没有表情，这让很多已经习惯跟人下棋的专业棋手很不适应。此外，人类在压力状态下容易犯错（比如今天柯洁在关键时候下出明显的败招），这些机器不会，有优势。所以，我只能说AlphaGo在综合实力上超过了职业选手，在对围棋的理解上，AlphaGo可能已经接近或者略微超过了人类。在后半部分，人类还有希望。

总结

AlphaGo体现了人工智能的强大，但并没有攻克围棋这个难题。但它可以作为一种工具帮助人们更加深入的去理解围棋，其中的技术甚至可以应用到其它领域。人类可能现阶段仍然会输给人工智能，这是人与机器对比综合实力的落后。但人类也在进步，通过跟AlphaGo的对弈，人类也在重新认识围棋。

人脑复杂程度远远超过了AlphaGo现在使用的深度神经网络，而人类敏锐的抽象思维能在价值判断这个规则不明确的领域仍有希望。当人们对围棋有了更深入的了解之后，又会设计出更好的人工智能算法。两者相辅相成，互相促进，不管谁输谁赢都是人类文明进步的体现。人类的智能也将始终走在机器的前面，而不会被机器取代。

文章转载自微信公众号「陈庆陈庆」