就在此时,一个略带英国口音的年轻声音插了进来。
“林先生,可以打扰一下吗?”
林星石转过头,看到一个金发碧眼,看起来和他年龄相仿的年轻人。他的脸上带着一丝腼腆,但眼神中却充满了对技术的热情。
“你好,我是来自DeepMind的丹尼斯。”他做了个简单的自我介绍。
DeepMind!
这个名字让林星石再次将目光聚焦。此时的DeepMind,还只是英国一家初创公司,尚未被谷歌收购,也还没有因为AlphaGo而名满天下。但林星石清楚地知道,这家公司里,正聚集着一群全世界最聪明的大脑,他们和自己一样,坚信着强化学习是通往通用人工智能的钥匙。
“你好,丹尼斯。很高兴认识你。”林星石友好地伸出手。
“你的演讲太棒了。”丹尼斯握住林星石的手,诚恳地说道,“我们也在尝试用深度强化学习来玩雅达利(Atari)游戏,并且取得了一些不错的成果。但是,将它应用在围棋上,难度完全不是一个量级。我最好奇的是,你们在自对弈训练中,是如何处理奖励信号(reward signal)的?围棋的胜负结果,只有在棋局结束时才能知道,这种极其稀疏的奖励,对于模型的训练来说,是一个巨大的挑战。”
这又是一个核心问题。
林星石耐心地解释道:“你说的没错。所以我们并没有直接使用最终的胜负作为唯一的奖励信号。价值网络本身,就扮演了一个‘即时裁判’的角色。在自对弈的每一步,我们都会让价值网络对当前局面进行评估,得出一个胜率预测。我们将这个预测的胜率,作为一种内部的、稠密的奖励信号,来指导策略网络的学习。也就是说,策略网络的目标,不仅仅是赢得最终的胜利,更是在棋局的每一步,都尽可能地走向一个价值网络认为胜率更高的局面。”
“用一个动态的价值函数来塑造奖励……这太聪明了!”丹尼斯恍然大悟,“这相当于AI在自己为自己定义什么是‘好’的,什么是‘坏’的,而不是被动地等待最终的结果。这解决了强化学习在复杂任务中最头疼的问题。”
在与这些顶尖专家的交流中,林星石不仅分享了自己的思想,也收获了大量的灵感。无论是皮埃尔教授对MCTS的深刻理解,还是斯坦福教授关于注意力机制的超前构想,都让他对天元GO的下一步优化,有了更清晰的方向。
茶歇的后半段时间,他又被一群年轻的研究者和博士生围住。
这些年轻人,虽然在理论深度上可能不及那些成名已久的教授,但他们身处科研和工程的第一线,对很多实现层面的技术细节,有着更加敏锐的嗅觉。
“林总,你们的论文里提到,用了近三百块GPU进行训练。这么大规模的集群,你们是如何进行分布式训练的?模型并行和数据并行具体是怎么做的?”一个来自清大的博士生问道。
林星石笑着回答:“我们自己开发了一套分布式的训练框架。简单来说,就是将一份完整的模型参数保存在中心服务器上,然后将每一盘自我对弈的计算任务,分发给不同的计算节点。每个节点在本地完成一小批次的训练后,将计算出的梯度(gradient)上传给中心服务器,由服务器来更新全局的模型参数。这是一种异步的参数更新策略。”
“异步更新?那不会带来梯度过时(stale gradients)的问题吗?不同节点上传的梯度,是基于不同版本的模型计算出来的,这可能会影响收敛速度和最终效果。”另一位来自上海交大的学生立刻提出了质疑。
“说得好。”林星石赞许地看了他一眼,“所以,我们设计了一套梯度补偿算法。服务器会根据每个节点上传梯度时所携带的模型版本信息,对梯度进行一定的修正,从而减小梯度过时带来的负面影响。同时,我们的实践也发现,在超大规模的训练中,一定程度的梯度噪声,反而有助于模型跳出局部最优,增强了探索性。”
这些关于工程实现的细节讨论,虽然不如理论创新那般激动人心,但却同样充满了智慧的火花。林星石发现,这些年轻一代的研究者,他们的知识结构更加全面,不仅懂算法,也懂系统,对如何将复杂的模型高效地部署在硬件上,有着许多独到的见解。
一天的会议议程,在热烈而充实的交流中很快过去。
当晚,主办方在南都大学附近的一家酒店,为所有特邀嘉宾准备了一场精致的晚宴。
晚宴的氛围比白天要轻松许多。林星石终于有机会,和几位他仰慕已久的,在人工智能伦理和安全领域有着深厚造诣的资深学者坐在一起,深入地聊一聊。
其中一位,是来自牛津大学的尼克·波斯特洛姆教授,他的着作《超级智能》在未来将会成为AI安全领域的奠基之作。
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢软件教父:从大学社团开始制霸请大家收藏:(www.qbxsw.com)软件教父:从大学社团开始制霸全本小说网更新速度全网最快。