林星石站在舞台中央,平静地等待着大家的情绪稍微平复。
他知道,自己今天带来的这两样东西,将会在平静的学术湖面,投下又一块巨石。
主题演讲结束后的茶歇时间,林星石立刻被一群热情的学者和研究者围了起来。
“林先生,您好!我是来自法国国家信息与自动化研究所的皮埃尔,我对您在论文中提到的蒙特卡洛树搜索(MCTS)的改进非常感兴趣。”一位头发微白,眼神锐利的老者率先开口,他的胸牌上标注着他是本次会议的特邀专家之一。
他正是蒙特卡洛树搜索算法领域最重要的奠基人之一,他提出的UCT算法(Upper Confidence bounds applied to Trees)是现代MCTS算法的核心。
林星石立刻认出了对方,恭敬地回答道:“皮埃尔教授,您好。能和您交流是我的荣幸。我们在天元GO中,确实对传统的MCTS做了一些调整。主要是将价值网络的快速评估结果,与MCTS的模拟(rollout)过程进行了结合,用神经网络的‘棋感’来指导搜索的方向,从而在有限的计算时间内,探索更有价值的棋局变化。”
皮埃尔教授点点头,眼中闪烁着思索的光芒:“这是一个非常巧妙的思路。用一个训练好的‘专家’去指导搜索,而不是纯粹的随机模拟,这确实能极大地提升搜索效率。但是,你如何平衡价值网络的评估和MCTS自身的探索性呢?如果价值网络在训练初期存在偏差,会不会导致MCTS过早地放弃了一些有潜力的分支?”
这个问题切中了要害。
林星石微笑着解释道:“您提的问题非常关键。我们在算法中引入了一个动态调整的温度系数(temperature parameter)。在训练初期,我们会设置一个较高的温度系数,鼓励AI进行更广泛的探索,即使某些分支在价值网络的初步评估中得分不高,也有机会被深入搜索。随着训练的进行,AI的棋力增强,价值网络的判断越来越准,我们再逐步降低这个温度系数,让AI的决策更加倾向于它认为的最优解。”
“原来如此,通过退火(annealing)的思想来动态平衡探索和利用(exploration and exploitation),非常精彩的设计!”皮埃尔教授恍然大悟,毫不吝啬自己的赞美。
他们两人的讨论,吸引了旁边更多人的注意。
这时,一位看起来四十多岁,气质儒雅的华人教授走了过来。他来自斯坦福大学,是神经网络架构设计领域的知名专家。
“林总,你好。你的演讲非常震撼。”他先是礼貌地问候,然后直接切入了技术话题,“我注意到,天元GO的策略网络和价值网络,使用的是相对传统的卷积神经网络结构。我有一个想法,不知道是否可行。”
“教授请讲。”林星石饶有兴致地看着他。
“在处理围棋这种全局性很强的任务时,棋盘上任何一个位置的变化,都可能对全局的局势产生影响。传统的卷积神经网络,其感受野(receptive field)是局部的,需要通过堆叠很多层才能捕捉到全局信息。”这位教授顿了顿,提出了自己的核心观点,“我们最近在自然语言处理领域的研究发现,一种叫做‘注意力机制(Attention Mechanism)’的模型,可以很好地解决长距离依赖的问题。它允许模型在处理序列数据时,动态地将‘注意力’集中在输入序列的特定部分。我想,这种机制或许也可以应用到围棋AI中,让神经网络在评估一个落子点时,能够‘看到’并‘关注’到棋盘上所有与之相关的重要位置,而不仅仅是其周围的局部区域。”
注意力机制!
林星石心中猛地一震。
他当然知道注意力机制,更知道它在未来几年,将如何彻底改变深度学习的版图,并最终催生出像Transformer这样强大的模型。
他没想到,在这个时间点,就已经有学者开始思考将其应用于计算机视觉和棋类AI的可能性。
这位教授的想法,与他脑海中对天元GO未来版本的规划,不谋而合。
“教授,您的这个想法……简直是天才!”林星石的眼神中爆发出强烈的光彩,“将注意力机制引入,让网络自主学习棋子之间的关联性,这无疑会让价值网络对局势的判断,以及策略网络对落子点的选择,提升到一个全新的高度。这太重要了!”
得到林星石如此高的评价,那位教授也显得非常高兴。两人立刻就注意力机制如何在卷积网络中实现、如何与MCTS结合等技术细节,展开了深入的讨论。
他们的对话,充满了各种专业术语和复杂的数学公式,让旁边一些道行稍浅的研究者听得如痴如醉,却又云里雾里。
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!
喜欢软件教父:从大学社团开始制霸请大家收藏:(www.qbxsw.com)软件教父:从大学社团开始制霸全本小说网更新速度全网最快。