国资研究

搜索

登陆 | 注册

您所在的位置首页 » 国资研究专题库

作　者 :	田杰华
日期 :	2017-10-20
摘　要 :	DeepMind 在《 Nature》上公布最新版 AlphaGo10 月 18 日， DeepMind 在《 Nature》上公布了他们最新版 AlphaGo论文，介绍了迄今最强最新的版本 AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构， 3 天训练后就以 100 比 0 击败了上一版本的 AlphaGo。 AlphaGo Zero 主要算法原理：强化学习、蒙特卡洛树、神经网络左右互博， AlphaGo 自我博弈提升棋力。左右互博， AlphaGo 自我博弈提升棋力。 AlphaGo Zero 在进行了 3 天的自我训练后，在 100 局比赛中以 100： 0 击败了上一版本的 AlphaGo——而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段棋士李世乭。无为而无不为， AlphaGo 放弃人类围棋知识。 AlphaGo Zero 使用了神经网络、蒙特卡洛树和强化学习，使围棋趋近最优解。强化学习的应用前景强化学习更贴切人类学习本质，应用前景广泛。
关键词 :	AlphaGo Zero；人工智能

读论文、深入浅出解析阿尔法狗Zero的技术和应用（国资智库——国企信息化）.pdf全文下载