搜索
您所在的位置 首页 » 国资研究专题库

读论文、深入浅出解析 AlphaGo Zero 的技术和应用

作 者 : 田杰华
日 期 : 2017-10-20
摘 要 :
DeepMind 在《 Nature》上公布最新版 AlphaGo10 月 18 日, DeepMind 在《 Nature》上公布了他们最新版 AlphaGo论文,介绍了迄今最强最新的版本 AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构, 3 天训练后就以 100 比 0 击败了上一版本的 AlphaGo。 AlphaGo Zero 主要算法原理:强化学习、蒙特卡洛树、神经网络左右互博, AlphaGo 自我博弈提升棋力。左右互博, AlphaGo 自我博弈提升棋力。 AlphaGo Zero 在进行了 3 天的自我训练后,在 100 局比赛中以 100: 0 击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段棋士李世乭。无为而无不为, AlphaGo 放弃人类围棋知识。 AlphaGo Zero 使用了神经网络、蒙特卡洛树和强化学习,使围棋趋近最优解。强化学习的应用前景强化学习更贴切人类学习本质,应用前景广泛。 


 





 


 




关键词 : AlphaGo Zero;人工智能
读论文、深入浅出解析阿尔法狗Zero的技术和应用(国资智库——国企信息化).pdf全文下载