第258章南都大学人工智能会议_软件教父：从大学社团开始制霸小说无防盗章节_作者杨桃饮料

就在此时，一个略带英国口音的年轻声音插了进来。

“林先生，可以打扰一下吗？”

林星石转过头，看到一个金发碧眼，看起来和他年龄相仿的年轻人。他的脸上带着一丝腼腆，但眼神中却充满了对技术的热情。

“你好，我是来自DeepMind的丹尼斯。”他做了个简单的自我介绍。

DeepMind！

这个名字让林星石再次将目光聚焦。此时的DeepMind，还只是英国一家初创公司，尚未被谷歌收购，也还没有因为AlphaGo而名满天下。但林星石清楚地知道，这家公司里，正聚集着一群全世界最聪明的大脑，他们和自己一样，坚信着强化学习是通往通用人工智能的钥匙。

“你好，丹尼斯。很高兴认识你。”林星石友好地伸出手。

“你的演讲太棒了。”丹尼斯握住林星石的手，诚恳地说道，“我们也在尝试用深度强化学习来玩雅达利（Atari）游戏，并且取得了一些不错的成果。但是，将它应用在围棋上，难度完全不是一个量级。我最好奇的是，你们在自对弈训练中，是如何处理奖励信号（reward signal）的？围棋的胜负结果，只有在棋局结束时才能知道，这种极其稀疏的奖励，对于模型的训练来说，是一个巨大的挑战。”

这又是一个核心问题。

林星石耐心地解释道：“你说的没错。所以我们并没有直接使用最终的胜负作为唯一的奖励信号。价值网络本身，就扮演了一个‘即时裁判’的角色。在自对弈的每一步，我们都会让价值网络对当前局面进行评估，得出一个胜率预测。我们将这个预测的胜率，作为一种内部的、稠密的奖励信号，来指导策略网络的学习。也就是说，策略网络的目标，不仅仅是赢得最终的胜利，更是在棋局的每一步，都尽可能地走向一个价值网络认为胜率更高的局面。”

“用一个动态的价值函数来塑造奖励……这太聪明了！”丹尼斯恍然大悟，“这相当于AI在自己为自己定义什么是‘好’的，什么是‘坏’的，而不是被动地等待最终的结果。这解决了强化学习在复杂任务中最头疼的问题。”

在与这些顶尖专家的交流中，林星石不仅分享了自己的思想，也收获了大量的灵感。无论是皮埃尔教授对MCTS的深刻理解，还是斯坦福教授关于注意力机制的超前构想，都让他对天元GO的下一步优化，有了更清晰的方向。

茶歇的后半段时间，他又被一群年轻的研究者和博士生围住。

这些年轻人，虽然在理论深度上可能不及那些成名已久的教授，但他们身处科研和工程的第一线，对很多实现层面的技术细节，有着更加敏锐的嗅觉。

“林总，你们的论文里提到，用了近三百块GPU进行训练。这么大规模的集群，你们是如何进行分布式训练的？模型并行和数据并行具体是怎么做的？”一个来自清大的博士生问道。

林星石笑着回答：“我们自己开发了一套分布式的训练框架。简单来说，就是将一份完整的模型参数保存在中心服务器上，然后将每一盘自我对弈的计算任务，分发给不同的计算节点。每个节点在本地完成一小批次的训练后，将计算出的梯度（gradient）上传给中心服务器，由服务器来更新全局的模型参数。这是一种异步的参数更新策略。”

“异步更新？那不会带来梯度过时（stale gradients）的问题吗？不同节点上传的梯度，是基于不同版本的模型计算出来的，这可能会影响收敛速度和最终效果。”另一位来自上海交大的学生立刻提出了质疑。

“说得好。”林星石赞许地看了他一眼，“所以，我们设计了一套梯度补偿算法。服务器会根据每个节点上传梯度时所携带的模型版本信息，对梯度进行一定的修正，从而减小梯度过时带来的负面影响。同时，我们的实践也发现，在超大规模的训练中，一定程度的梯度噪声，反而有助于模型跳出局部最优，增强了探索性。”

这些关于工程实现的细节讨论，虽然不如理论创新那般激动人心，但却同样充满了智慧的火花。林星石发现，这些年轻一代的研究者，他们的知识结构更加全面，不仅懂算法，也懂系统，对如何将复杂的模型高效地部署在硬件上，有着许多独到的见解。

一天的会议议程，在热烈而充实的交流中很快过去。

当晚，主办方在南都大学附近的一家酒店，为所有特邀嘉宾准备了一场精致的晚宴。

晚宴的氛围比白天要轻松许多。林星石终于有机会，和几位他仰慕已久的，在人工智能伦理和安全领域有着深厚造诣的资深学者坐在一起，深入地聊一聊。

其中一位，是来自牛津大学的尼克·波斯特洛姆教授，他的着作《超级智能》在未来将会成为AI安全领域的奠基之作。

本小章还未完，请点击下一页继续阅读后面精彩内容！

喜欢软件教父：从大学社团开始制霸请大家收藏：(www.qbxsw.com)软件教父：从大学社团开始制霸全本小说网更新速度全网最快。

第258章 南都大学人工智能会议

第258章南都大学人工智能会议