读论文、深入浅出解析 AlphaGo Zero 的技术和应用
作 者 : | 田杰华 |
日 期 : | 2017-10-20 |
摘 要 : |
DeepMind 在《 Nature》上公布最新版 AlphaGo10 月 18 日, DeepMind 在《 Nature》上公布了他们最新版 AlphaGo论文,介绍了迄今最强最新的版本 AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构, 3 天训练后就以 100 比 0 击败了上一版本的 AlphaGo。 AlphaGo Zero 主要算法原理:强化学习、蒙特卡洛树、神经网络左右互博, AlphaGo 自我博弈提升棋力。左右互博, AlphaGo 自我博弈提升棋力。 AlphaGo Zero 在进行了 3 天的自我训练后,在 100 局比赛中以 100: 0 击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段棋士李世乭。无为而无不为, AlphaGo 放弃人类围棋知识。 AlphaGo Zero 使用了神经网络、蒙特卡洛树和强化学习,使围棋趋近最优解。强化学习的应用前景强化学习更贴切人类学习本质,应用前景广泛。 |
关键词 : | AlphaGo Zero;人工智能 |