百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

手把手教你搭建AlphaZero(使用Python和Keras)

cac55 2024-10-02 11:42 41 浏览 0 评论

安妮 允中 编译整理

量子位 出品 | 公众号 QbitAI

AlphaZero,DeepMind阵营的最强棋士。

关于AlphaZero的理论分析已经不少,最近Applied Data Science的联合创始人David Foster,写出了一份详细的教程,教你如何搭建一套属于自己的AlphaZero系统。而且还附上了代码。

原文地址:

https://medium.com/applied-data-science/how-to-build-your-own-alphazero-ai-using-python-and-keras-7f664945c188

量子位把其中的核心内容转发如下。

如何构建自己的AlphaZero

首先,我们需要学习和理解AlphaGo Zero的原理。我之前写过一篇AlphaGo Zero的知识点速查手册可供参考,Tim Wheeler的博客中一篇文章给也讲的很详细,一并推荐给你。

知识点速查手册:

https://medium.com/applied-data-science/alphago-zero-explained-in-one-diagram-365f5abf67e0

Tim Wheeler博客:

http://tim.hibal.org/blog/alpha-zero-how-and-why-it-works/

代码

我将基于下面这个代码库进行讲解:

https://github.com/AppliedDataSciencePartners/DeepReinforcementLearning

我们应该从哪里开始构建自己的AlphaZero呢?

别急,可以从运行Jupyter notebook中run.ipynb的前两个panel开始。一旦它对游戏有了足够的定位,那么神经网络将开始训练。通过额外的自我对弈和训练,它将逐渐在预测游戏中的各个行为的价值和下一步行动上做得越来越好,从而做出更好的决策和更聪明的游戏。

现在,我们需要更详细地看看面前的代码,并且展示下AI是怎样随时间越来越厉害的。

Connect4

我们的算法将要学习如何玩Connect4(四子连珠)这个游戏。虽然不如围棋那样复杂,但也有4531985219092种游戏位置。

游戏规则很简单。玩家轮流在任何一栏的顶部布置自己的颜色。谁最先在垂直、水平或对角线上都放置了同一种颜色就获胜了,如果这种情况没有出现,那游戏就是平局。

下面是组成代码库的关键文件:

game.py

这个文件包含Connect4的游戏规则。

每个正方形都被分配了一个从0到41的数字,如下图所示:

game.py文件给除了从一种游戏状态到另一种状态的逻辑,并且给出了一个选择的动作。比如,考虑到empty board和38号动作,takeAction方法返回到一个新的游戏状态,也就是底部一行的中心位置。

你可以将game.py文件用任何符合相同API和算法的游戏文件替换掉,根据你给它的规则,通过自我对弈的方法学习。

run.ipynb

这个文件包含开启学习过程的代码。它通过算法中的主要环节加载游戏规则,并且由三个阶段组成:

1.自我对弈

2.重新训练神经网络

3.评估神经网络

有两个智能体也参与到这个环节中,他们分别为best_player和current_player。

best_player包含执行最佳的神经网络,并且可以用于生成自我对弈的记忆。然后,current_player在这些记忆上重新训练它的神经网络,然后再与best_player对弈。如果它赢了,best_player内部的神经网络被转换为current_player内部的神经网络,然后循环再次启动。

agent.py

这个文件包含游戏中的一个玩家Agent class。在游戏中,每个玩家都是用自己的神经网络和蒙特卡罗搜索树进行初始化的。

我们需要用simulate method运行蒙特卡罗树搜索过程。具体老说,智能体移动到树的叶节点,用它的神经网络对节点进行评估,然后通过树将节点的值返回。

之后,我们还需要用act method多次重复模拟,让智能体理解从当前位置移动最有利。然后它将最终选择的动作返回到游戏中,以执行动作。

最后,replay method利用以前游戏的记忆,重新训练神经网络。

model.py

这个文件包括Residual_CNN类,这定义了如何构建一个神经网络的实例。

它使用了AlphaGo Zero论文中的神经网络结构的浓缩版本,然后是许多残差层,然后分裂成价值和策略两个分支。

卷积过滤的深度和数量可以在配置文件中指定。

Keras库用来搭建网络,后端是TensorFlow。

要在神经网络中查看单个卷积过滤和密集连接的层,请在run.ipynb notebook中运行以下内容:

current_player.model.viewLayers()

神经网络中的卷积过滤

MCTS.py

这里包含构成蒙特卡洛搜索树的节点、边缘和MCTS类。

MCTS类包含前面提到的moveToLeaf和backFill方法,边缘类的实例存储了每个潜在行棋方法的统计信息。

config.py

在这里设置影响算法的关键参数。

调整这些变量会影响运行时间、神经网络的准确性和算法的整体成功与否。上述参数能生成一个高质量的四子连珠(Connect4)玩家,但需要深长时间。想让算法加速,可以尝试用如下的参数替代:

funcs.py

这里包括两个智能体之间对弈的playMatches以及playMatchesBetweenVersions函数。

要和你的作品对弈,可以运行下面的代码(也是在run.ipynb notebook中)。

initialise.py

运行算法时,所有模型和memory文件都保存在根目录下的run文件夹中。

要从某一记录点重启算法,需要把run文件夹转移到run_archive文件夹,并在文件夹名中加入运行编号。然后把运行编号、模型版本号和memory版本号输入到initialise.py文件中,对应run_archive文件夹中的相关文件。

其他

memory.py:Memory类的实例存储以前的游戏,算法用这个来重新训练当前玩家(current_player)的神经网络。

loss.py:这个文件包括一个自定义的损失函数。

settings.py:run和run_archive文件夹的位置。

loggers.py:日志文件保存到run文件夹下的log文件夹中。要打开日志记录,请在这个文件夹中,将logger_disabled变量的值设置为False。

下图来自logger.tourney文件,可以看到每个下法的概率。

结论

经过几天的培训后,我们的模型会产生下面这样的mini-batch的迭代损失数值:

最上面的一行是策略端的误差(MCTS的交叉熵移动概率与神经网络的输出相对应),底部是与值之间的误差(实际游戏值与神经网络值之间的均方差),中间这根线是上述两者的平均值。

显然,随着训练时间的增加,神经网络在预测每个游戏状态的值和可能的下一步动作方面变得越来越好。

为了展示这一成果是如何在更强的比赛中大展身手的,我让17名玩家之间进行了一次联赛,从首次迭代的神经网络到第49次迭代,每对搭档都交手了两次,两名玩家都有机会先上场。

最终的排名如下:

很明显可以看出,神经网络的后期版本优于早期版本,赢得了大部分游戏。但似乎学习还没有饱和——随着训练时间的延长,玩家还在变得更厉害,学习更多更复杂的策略。

例如,神经网络一直秉持的清晰策略是尽早抢占中心栏,我们可以观察下算法初版和第30版的区别——

初版神经网络

第30版的神经网络

这是个不错的策略,因为无论是通过哪种方法取胜,都需要占据中心列,所以玩家需要抢占先机。

最重要的是,这是由神经网络自己学会的,中途没有任何人类输入。

学习不同的游戏

在games文件夹中,有一个名为Metasquares的game.py文件。所谓Metasquares,就是双方在网格中轮流下棋,棋子连成的方块越大,得分越高。

如果把Connect4 game.py替换成Metasquares game.py,同样的算法就开始学习玩新的Metasquares游戏。

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

相关推荐

Linux :远程访问的 16 个最佳工具(一)

通过远程桌面协议(RDP)可以访问远程Linux桌面计算机,这是Microsoft开发的专有协议。它为用户提供了一个图形界面,可以通过网络连接连接到另一台/远程计算机。FreeRDP是...

Guacamole安装部署_guacamole简单搭建

Guacamole安装部署Guacamole简介Guacamole是提供连接远程桌面的解决方案的开源项目(也可以说是一个远程桌面网关),通过浏览器就能远程操作服务器,适用于Chrome、Firefox...

1-FreeRTOS入门指南_freertos+lwip

本专栏是根据官方提供的文档进行FreeRTOS的各个功能函数的说明,以及函数的使用本专栏不涉及动手操作,只是对原理进行说明,FreeRTOS基础知识篇更新完成会对如何在开发板上进行上手实战操作。这里不...

Windows暂停远程桌面,这些工具可替代

Windows暂停远程桌面,这些工具可替代近日,Windows官方宣布将于2025年5月27日起,在Windows10和Windows11应用商店中下架“Microsoft远程桌面”应用。这一消...

现在做 Web 全景合适吗?_前端全景

作者:前端藏经阁转发链接:https://www.yuque.com/xwifrr/uxqg5v/cgclx0前言Web全景在以前带宽有限的条件下常常用来作为街景和360°全景图片可查看。它可以...

网页直连,MSTSC远程控制Windows新姿势!

不用安装软件,打开浏览器就能远程办公?今天要聊的是一种颠覆传统的远程控制玩法,直接用网页连接Windows电脑,无需下载客户端,手机、平板、Mac甚至Linux都能轻松操作。这可不是吹牛,结合MSTS...

QQ出现大面积盗号,原因已查明,请抓紧改密码

你没有看错,QQ又上了微博热搜,这次比较严重了,QQ出现大面积盗号,多个QQ群出现yellow信息,其次导致多位成员被踢出,并且还被封号处理,到底怎么回事?请继续往下看。在6月26日晚上10点左...

我在淘宝花10块钱,买到了能玩“宝可梦”的Q群机器人

十一月雨|文我是个没事喜欢逛淘宝的人,虽然是个不怎么好的习惯,但总是能够发现一些奇奇怪怪的东西,这次我发现的是一种Q群机器人。Q群机器人,大多是基于腾讯SmartQQ协议实现的一种能自动回复、自定...

Metasploit最实用的攻击模块"Meterpreter"

Meterpreter命令详解Meterpreter是Metasploit渗透测试平台框架中功能最强大的攻击载荷模块,在最新的Metasploitv4.5.0版本中,攻击载荷模块已经达到了25...

手机QQ再更新,上线了一个想让人“无法回避”的新功能

近日,手机QQ更新了V8.2.6.700版本,苹果iOS版和安卓版手机QQ上线了一个新功能:可以实时显示对方的手机电量以及充电状态。开通电量显示也很简单,长按主页左上方的头像,在在线状态中选择我的电量...

「网络安全」常见攻击篇(20)——点击劫持

什么是点击劫持?点击劫持(Clickjacking)技术又称为界面伪装攻击(UIredressattack),是一种视觉上的欺骗手段。通常有两种方式:攻击者使用一个透明的iframe,覆盖...

曾利用驱动人生升级通道传播的木马下载器攻击方法再次升级

一、概述御见威胁情报中心1月25日再次监测到曾利用驱动人生升级通道传播的木马下载器攻击方法再升级。本次升级主要变化在于攻击模块,木马在之前的版本上,新增计划任务“DnsScan”,在其中将永恒之蓝攻击...

QQ飞车手游:点券首个功能性宠物上架,实战稳定触发还不快入手?

随着版本的逐渐更新,点券宠物在道具模式发挥逐渐越来越小,曾经探讨点券宠物在道具是不是真的没有用?直到出现了波斯猫改变了,我对点券宠物在道具模式的看法,如今又一个强势点券宠物来袭,而且特性触发简单,还是...

工单系统设计实战(上):核心配置与效能提升

流程的标准化并非终点,而是研发效能持续革命的基石。当工单系统真正成为研发团队的“神经中枢”,每一次需求的精准流转、每一行代码的受控提交、每一次版本的可靠发布,都将汇聚成驱动产品持续进化的强大动力...

6个编辑PDF文档内容的工具(软件+网站)

在日常办公、学习和生活中,PDF文件因其格式稳定、跨平台兼容性强等特点,被广泛应用。但有时我们拿到PDF文件后,却发现需要修改其中的内容,总感觉有点难搞。其实PDF文档编辑修改也很简单,这里分享6个软...

取消回复欢迎 发表评论: