19937382188

人机大战再上演,玩德扑的“阿尔法狗”来

您的当前位置 首页 >行业见闻 >人机大战再上演,玩德扑的“阿尔法狗”来


在Master“围剿”围棋顶尖高手之后,人工智能又盯上了德州扑克。这一次出场的选手是来自卡内基梅隆大学(CMU)开发的人工智能选手“Libratus”从美国时1日开始,一场名为“大脑对战人工智能:加大赌注”的巡回赛,将在匹兹堡的河流(RiverCasino)赌场进行,Libratus将和4位人类顶尖职业选手展开对决。四名职业选手分别是Jason Lee、Dong Kim、Daniel McAulay和Jimmy。

此前,人类已经在有限下注的德扑当中战胜过人类。不过,在有限下注的游戏中,全部的决策点(decisionpoints)只有4次方个。而一对一无限注中包含1060次方个决策点不过,在CMU在宣布Libratus的比赛之前,有一件事多少抢了Libratus的风头上周,出现一篇题为《DeepStack:无限下注扑克里的专家级人工智能》Poker)的论文,作者是来自加拿大Alberta大学、捷克Charles大学、布拉格捷克理工大学的研究人员。DeepStack称为第一个在限下注德扑中获胜的人工智能程序研究者称,在一项有数十名参赛者进行的44000手扑克的比赛中,成为第一个在无限注德州扑克中击败职业扑克玩家的计算机程序不过,虽然DeepStack占据了先发优势,可是因为是以论文的形式呈现,引发的关注度就要逊色一些进行了较量,比赛在线上举行,共计进行4000手。由于在线上进行,一个选手最多可以同时玩四局。

排名前三(以AIVAT计)的选手分别获得5000加元的奖励而CMU的Libratus走的是阿尔法狗的路数,公开透明,把地点直接设在赌场当中,奖金也丰厚得多,获胜者将摘得20万美金2万手的交锋相当于前者近三倍,从统计学上也更有说服力。而且,参与的选手也更有分量,有专家质疑DeepStack的对战选手中没有顶级高手,但是Libratus对战的选手则都是世界顶级选手然而在决策机制上,Libratus却又与阿尔法狗大相径庭。

据报道,由于德州扑克是信息不对称的博弈,因此Libratus采用的是“纳什均衡”策略,通过平衡风险与收益来决定自己的下一步。纳什均衡追求的是最安全而不是最极致的利益纳什均衡的经典案例就是“囚徒困境”50年,数学家塔克任斯坦福大学客座教授时讲过这故事假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:26px;">如果你俩都坦白罪行,交出脏物,都会因盗窃罪被年如果你的同伙坦白了而是你抵赖了,你将会以妨碍公务罪加刑2年,而你的同伙因举报有功被减年,立即释放如果你俩都不坦白,则警方因证据不足不能判偷窃罪,但可以私入民宅罪将两人各年从这张表里可以看出,两人都不坦白是最好的结果。可问题是,警方把两人分开审讯,形成了“不完整信息博弈”。你无法保证你同伙的人品如何。这时如果你为了利益最大化,选择了不坦白,而你的同伙却把你出卖了,那你就成了最大的输家。

这个时候纳什均衡的最佳选择就是,果断坦白。这样至少你会得到和你同伙一样的待遇,而你的同伙如果贪心,你就赚大了平手。也就说,在这一策略当中,只要其他玩家的策略保持不变,单一玩家就无法通过变换策略获益反映到德扑上,如果Libratus每次的选择都能实现纳什均衡,那么结果很可能是:虽然在某些回合中,人类选手会占得上风。但是在12万手的交锋中,机器大概率会成为赢家值得一提的是,早在2015年时,CMU的AI程序Claudico就在无限下注的比赛中跟德扑顶尖高手交过手,共计进行了8万手。

上一篇: Snap 为什么要在中国设立办事处 下一篇:让图像识别更智能,Facebook 可以更轻松找出相似图