AI玩多人德扑击败顶级玩家!150美元,实力可掏空在线扑克公司
人工智能终于开始掌握人性中一些独特的能力,并且比它的老师玩得还好。
要想在扑克中获胜,就需要利用这样一项能力:狡猾。为了获胜,玩家必须分析对手如何出牌,然后欺骗他们交出手中的筹码。当然,这种狡诈对人来说很自然。现在,人工智能程序首次表现出能够用类似的技能来欺骗人类的职业扑克选手。
?近日,Facebook 与卡内基梅隆大学合作开发的一款新型人工智能系统 Pluribus,在世界上最流行、最广泛的扑克游戏:六人无限注德州扑克 (Texas Hold'em poker) 中击败了顶级人类职业玩家。Pluribus 在5 个 AI + 1 个人类玩家”和1 个 AI + 5 个人类玩家”两种模式下都击败了职业玩家。这是人工智能机器人第一次在超过两名玩家 (或两支队伍) 的大型基准游戏中击败顶级专业人士.
此前,人工智能技术已经能够在只有一个对手的情况下打败人类扑克高手。但像 Pluribus 这样,在多人同桌的情况下击败人类精英玩家,才是关键的里程碑。
Pluribus 是通过基于 Libratus 的几项创新,以及 Tuomas Sandholm 在卡内基梅隆大学研究实验室开发的其他算法和代码实现这一成果的。Libratus 是 2017 年在双人无限注德州扑克中击败人类职业选手的 AI。特别是,Pluribus 采用了新的在线搜索算法,它可以通过之前的几个步骤就能有效地评估其下注选项,而不用搜索到游戏结束。Pluribus 还使用了新的更快的自玩算法来玩包含隐藏信息的游戏。
图丨Tuomas Sandholm (来源:Carnegie Mellon)
更让让人想不到的是,这些进步可以使用很少的处理能力和内存——相当于不到 150 美元的云计算资源——就培训出 Pluribus。这个效率与最近其他人工智能里程碑项目形成了鲜明对比,它们需要相当于数百万美元的计算资源来进行培训。
这些在扑克游戏中的创新具有十分重要的意义,因为两个人的零和互动 (一名玩家赢,一名玩家输) 在休闲游戏中很常见,但在现实生活中却非常罕见。现实世界中,对有害内容采取行动,应对网络安全挑战,以及管理在线拍卖或导航流量,通常会涉及多个参与者还有多重隐藏信息。多玩家交互对过去的人工智能技术提出了严峻的理论和实践挑战。然而,现在的结果表明,人工智能算法可以在双人零和游戏之外达到超凡的表现。
图丨Seth Davies,职业扑克选手 (来源:Facebook)
它有掏空在线扑克公司的实力研究人员通过与一群优秀的人类专业人士比赛来评估 Pluribus。职业选手包括 2000 年世界扑克大赛主赛事冠军 Chris "Jesus" Ferguson,2012 年世界扑克大赛主赛事冠军 Greg Merson 等。参赛的每一个选手之前都在扑克牌桌上赢得了超过 100 万美元,其中有些人甚至赢得了超过 1000 万美元的奖金。
对战有两种形式:五个职业玩家和一个人工智能,一个职业玩家和五个人工智能副本。在每一种形式下,牌桌上都有六名玩家,每一手开始都有 10000 个筹码。小盲注是 50 个筹码,大盲注是 100 个筹码。
虽然扑克是一种技巧游戏,但也有很大的运气成分。对于顶级专业人士来说,仅仅因为运气不好,就输掉 1 万手筹码是很常见的。为了减少运气的作用,研究人员使用了 AIVAT 方差减少算法来评估结果。例如,如果机器人的某一手真的很强,AIVAT 将从它的奖金中减去一个基线值来抵消运气成分。
在 5 个职业玩家+1 个 AI 的实验中,10000 手游戏玩了 12 天。每天从专业人员中挑选五名志愿者参与。官方将根据选手的表现分给他们奖金 5 万美元,以激励他们发挥出最佳水平。在使用 AIVAT 后,Pluribus 的胜率估计为每 100 手 5 个大盲注 (5 bb/100),这是以精英人类作为对手的压倒性胜利 (盈利,p 值为 0.021)。如果每个筹码都值 1 美元,Pluribus 平均每手赢得 5 美元的奖金,并且每小时可以赚到 1000 美元。这一结果超过了职业玩家在与职业和业余玩家的混合比赛中获胜的预期。
在 5 个 AI +1 个职业玩家的模式下,由三名志愿者参与,每个人类玩家和 5 个 Pluribus 副本玩 5000 手。Pluribus 并没有根据对手的情况调整策略,因此 AI 之间不存在故意勾结问题。总的来说,人类损失了 2.3 bb/100(每 100 手 2.3 个大盲注)。
Pluribus 的算法实在太成功了。这对扑克社区来说可能是非常危险的,”参与开发算法的 Facebook 研究员 Noam Brown 说。他今年被评为《麻省理工科技评论》的 35 岁以下科技创新者之一。
你通常可以找出对手的弱点,但没有找到(它的)弱点,”游戏中的扑克职业选手 Jason Les 说,这个 AI 非常强大,你找不到任何可以利用或占便宜的机会。”
研究人员担心 Pluribus 可能被用来掏空在线德州扑克公司的金库,因此决定不发布其代码。目前,Facebook 也没有计划去应用为六人扑克开发的技术。
六人德州扑克的两大挑战几十年来,扑克游戏一直是人工智能领域一个困难而又重要的挑战难题。
这是因为扑克游戏中包含隐藏信息,你不知道对手的牌,想要获胜需要会虚张声势以及一些其他策略,而且,这些策略又不同于象棋、围棋和其他游戏。这也是人工智能技术在其他游戏中取得突破,却不能突破扑克的原因,扑克游戏对人工智能技术有天生的抵抗力。
具体来说,六人德州扑克一直面临着两大挑战。
第一大挑战,德州扑克不只是两玩家的零和游戏。
之前 AI 突破的所有基准游戏仅限于那些只有两名或两队玩家的零和游戏,例如跳棋、象棋、围棋、双人扑克、星际争霸 2 和 Dota 2。在这些情况下,人工智能取得了成功,因为它采用了一种称为纳什均衡(Nash equilibrium)的策略。在两名或两队玩家的零和游戏中,精确的纳什均衡能做到无论对手做什么都不可能输(例如,剪刀-石头-布的纳什均衡策略是随机选取概率相等的石头、布或剪刀)。
虽然纳什均衡在任何游戏中都是存在的,但在三个或三个以上对战玩家的游戏中,通常不可能有效地计算出纳什均衡。此外,在一场多人参与的游戏中,即使采用精确的纳什均衡策略,也有可能失败。其中一个例子是 Lemonade Stand 游戏,每个玩家同时在一个圆环上取一个点,并要尽可能地远离其他玩家。纳什均衡是让所有玩家在环上的距离相等,但实现这一点的方法有无穷多种。如果每个玩家独立地计算其中一个均衡,那么最终不太可能使所有参与者在环上的距离相等。
图丨Lemonade Stand 游戏(来源:Facebook)
在多于两个玩家的零和游戏中,纳什均衡存在的缺陷,引发研究人员的思考:在这样的游戏中,正确的目标应该是什么?以六人德州扑克为例,研究人员认为,目标不应该是一个特定的博弈论解决方案,而是创造一个通过长期经验战胜人类对手甚至专业人士的人工智能。
在多于两玩家的零和游戏中,研究人员用来构造 Pluribus 的算法不能保证收敛到纳什均衡。尽管如此,Pluribus 的策略始终能在六人扑克游戏中击败精英人类扑克专家。
第二大挑战,信息隐藏在更复杂的环境中。
没有任何其他游戏能像扑克那样体现隐藏信息的挑战,每个玩家都有其他玩家所缺乏的信息。一个成功的扑克 AI 必须对这些隐藏的信息进行推理,并谨慎地平衡其策略,保持自身的不可预测,同时仍然选择好下一步行动。例如,虚张声势有时可能是有效的,但总是虚张声势就会被对手预测到手牌,并可能导致损失很多钱。因此,有必要谨慎地平衡一个人虚张声势的概率和他下注的概率。换句话说,在不完全信息博弈游戏中,一个行为的价值取决于选择它的概率和选择其他行为的概率。
相反,在完全信息游戏中,玩家不需要担心如何平衡每一步的概率。例如在国际象棋中,好棋就是好的,无论它被选中的概率是多少。
之前的扑克游戏机器人 Libratus,通过将基于 Counterfactual Regret Minimization(CFR) 理论完善的自玩算法与精心构建的不完全信息游戏搜索过程相结合,来处理像双人德州扑克游戏中的隐藏信息。然而,在德州扑克中添加额外的玩家会成倍地增加游戏的复杂性。这些以前的技术不能扩展到六人德州扑克。如今,Pluribus 使用的新技术可以更好地应对这一挑战。
Pluribus 的培训成本不到 150 美元Pluribus 策略的核心是通过自我游戏来计算的,在这种策略中,人工智能对抗自己的副本,不使用任何人类游戏数据作为输入。人工智能通过随机游戏从零开始,并逐渐改进。它会记录游戏进行了哪些操作,以及这些操作上的概率分布,然后在与早期版本的策略对战中获得更好的输出结果。在 Pluribus 中使用的自我游戏版本是迭代 Monte Carlo CFR (MCCFR) 算法的改进版本。
在算法的每次迭代中,MCCFR 指定一个玩家作为遍历者”,其当前策略在迭代中更新。在迭代开始时,MCCFR 基于所有玩家的当前策略 (最初完全是随机的) 模拟一手扑克牌。一旦模拟完成,算法会检查遍历器做出的每个决策,并研究如果选择其他可用的操作,它会做得更好还是更差。接下来,人工智能会评估每一个假设的决策的价值,这些决策是按照可用操作做出的,以此类推。
在 8 天时间内,研究人员在 64 核服务器上培训了 Pluribus 的蓝图策略,所需内存不到 512 GB,而且没有使用 GPU。按照典型的云计算的成本估计,培训成本不到 150 美元。这与最近的其他人工智能项目突破形成了鲜明对比,这些突破通常需要花费数百万美元进行训练。
在玩德州扑克时,Pluribus 运行在两个 CPU 上。相比之下,2016 年,AlphaGo 在与顶级围棋专业人士李世乭的比赛中,使用了 1,920 个 CPU 和 280 个 GPU 进行实时搜索。而且,Pluribus 使用不到 128 GB 的内存。Pluribus 搜索每手游戏所花费的时间在 1 秒到 33 秒之间变化,具体取决于实际情况。平均而言,Pluribus 的速度是典型人类职业选手的两倍:在六人德州扑克中与自己的副本进行比赛时,时间为每手 20 秒。
图丨Pluribus 和专业玩家的游戏界面(来源:Facebook)
从扑克游戏到现实不完全信息博弈的挑战此前,人工智能在完全信息的两玩家零和游戏中取得了一系列引人瞩目的成功。但现实世界中的大多数战略互动都涉及隐藏的信息,而不是两方的零和博弈。Pluribus 的成功表明,在大规模、复杂的多玩家博弈中,尽管缺乏强有力的性能以及理论保证,但精心构造的自玩搜索算法仍然可以成功。
Pluribus 的不同寻常之处还在于,它的训练和运行成本远低于近期其他用于基准游戏的人工智能系统。此前,该领域的一些专家担心,未来的人工智能研究将由拥有数百万美元计算资源的大型团队主导。Pluribus 是一个强有力的证据,现在有理由相信,只需少量资源的新方法可以推动前沿人工智能研究。
图丨由 Tuomas Sandholm 和 Noam Brown 开发的计算机程序在2017年的比赛中击败了四名职业扑克玩家(来源:互联网)
尽管 Pluribus 是为玩扑克而开发的,但其所使用的技术并不针对扑克,也不需要开发任何专业领域知识。这项研究让我们对如何构建通用的人工智能有了更好的基础理解。另外,Pluribus 在牌桌上击败多个对手的技术可能有助于 AI 社区在多种领域开发有效的策略。
要求Facebook公开华人员工自杀真相,清华同事被开除,这就是美国的言论自由?
来源:新民周刊
几乎所有依靠 H-1B 工作签证/实习资格在美国工作的外籍人士,特别是华人,都有可能面临这样的境地。
文 | 沈 林
这两天NBA的莫雷因为说错话上了头条,NBA方面说,他们支持言论自由。
也是这两天,硅谷Facebook的中国籍工程师,为自杀身亡的同事说了几句话,却被Facebook开除了,Facebook说,因为他缺乏判断力。
华人程序员之死
时间倒回到9月19日。
Facebook一名员工在公司门洛公园总部大楼四楼跳楼,当场死亡。
根据美国新闻媒体报道,死者名叫Qin Chen(陈勤),今年38岁,99级浙大学霸,在南加大攻读CS硕士学位,毕业后更换过两次工作,直到去年入职Facebook,他十分珍惜这次机会。
在美国生活的几年里,陈勤喜欢登山、徒步、滑雪等户外运动,他曾晒出自己登上山顶的照片,并感叹享受攀登时艰难的感觉。
陈勤选择自杀的地点,是Facebook新修的一栋高楼,那一天,他已经在Facebook工作了一年零八个月。
令人感到奇怪的是,在Facebook总部的通告中,陈勤的死因被单纯地解释为去世”(a passing),而对于他为什么会产生自杀的想法,Facebook只字未提。并且,Facebook还禁止员工议论此事并接受采访。
有消息透露,当天上午,在上司的办公室,陈勤与上司发生了激烈争吵。有人听到总监大声说滚出去”,而陈勤说这不公平”。
离职不久的Facebook前日裔技术主管Patrick Shyu通过Youtube视频,讲述了事情的来龙去脉,称死者生前日夜工作,或因绩效考评、面临开除选择自杀。
据说,陈勤的组里最近还有一个严重的系统错误事件,问题都交给了陈勤来负责(背锅)。陈勤已经在美国工作8年,但他仍没有拿到绿卡,只有工作签证,如果被开除,他的美国的合法身份就岌岌可危。
后来查阅记录发现,就在这个项目截止时间前一个小时,他选择跳楼自杀了。
Shyu还表示:虽然我本不想谈论此事,但是Facebook员工找到我,希望我能代表他们发声,因为他们已经被公司管理层禁言。”
事实上,除了禁言之外,Facebook已经于近日开除了为陈勤说话的中国籍员工。
为同事发声被开除
在陈勤去世的第七天,上百名在湾区工作的华人站了出来,他们聚集在Facebook公司总部外,要求为陈勤伸张正义(JusticeforQin)”,高呼中国人的命也是命(Chineselivesmatter)”的口号,督促Facebook总部的高层回应民众诉求、公开调查此事。
有人表示这场集会的诉求就是给我们更多的真相,以及给工程师们更好的工作环境”,以及为陈勤的家庭争取物质上的帮助”。
另有人表示:事情发生已经一周,美国当地媒体几乎没有报道,在Facebook也几乎找不到相关信息。同时指责Facebook正在控制媒体”,有意封锁有关陈勤自杀一事的传播。
抗议人群中打头的,有清华毕业后赴美的Yi Yin(尹伊),他不仅是口号喊得最响的,也是现场唯一一位将Facebook的工牌亮在胸前,表明自己真实身份的抗议者。
根据尹伊的Linked in账户,清华大学本科毕业后,他一直在游戏行业工作,2016年前往加利福尼亚大学攻读硕士学位,2024年6月入职Facebook,担任高级工程师职位。
求学之余,他还自学了钢琴演奏和作曲,并一直有开发RPG游戏的梦想。他曾在2011年和2015年先后发售了两部Galgame《叙事曲》《叙事曲2 星空下的诺言》,在iOS上拿到数千个5星好评,入选了App Store首页推荐。
面对抗议,Facebook企业传播总监来到现场,并在接受媒体采访时表示,自杀是多种因素共同作用的结果,职场霸凌可能不是他死亡的唯一原因。
我们对上周在门洛帕克市总部因自杀事件而失去员工Qin Chen感到悲伤。在这段时间里,我们正在尽全力支持他的家人和亲人。”
然而,抗议活动结束一周后,尹伊在Linked in上宣布自己已经被Facebook正式解雇,原因是缺乏判断力。
被解雇后的尹伊曾接受媒体采访,表示自己并不后悔,如果再重新来一次,我还会做同样的事。”
尹伊是误打误撞去了抗议活动的现场,当时并不知道是抗议活动,还以为是悼念...... 我到的时候,抗议活动已经进行了一段时间了,我看到举着标语牌抗议的几个小姑娘在大太阳下,已经有些累了,旁边的几位男生对她们说,我们换换吧,于是我也接过了标语牌,开始加入抗议。”尹伊说。
陈勤的遭遇令尹伊感同身受,他一度情绪十分低落,躲开了同事在办公区的角落里无声地发泄。我们都是八零后,都面临着身份上的不确定性。我就在想,他所遭遇的这些事情,会不会有一天都发生在我的身上?”
出现在悼念会场上的他看起来极其亢奋,但并没有多少人知道,他在当时情绪激动到难以控制自己。
现场,尹伊接受了ABC电视台和星岛日报的采访,当被问到Facebook是否压制言论自由时,尹伊回答:没有。
回到办公室后,尹伊向上级作了情况说明,随后他被要求撰写一封邮件,写明当天接受采访的情况摘要,包括回答了哪些媒体采访问题等,尹伊按照要求发送了邮件。
次日,尹伊被要求参加一场临时会议,在这次会上,HR向尹伊提出两点要求:一是以保护陈姓工程师隐私为由,不允许在公司内外部谈论此事;二是探望陈姓工程师家属的相关活动,需要由公司来安排进行,个人不得私自进行。
对此,尹伊提出异议,认为探望陈姓工程师的家属不应由公司来安排和决定,应该是个人行为或陈姓工程师家属委托的律师来安排。如果我和 Qin 的家人都有意愿见对方,公司有什么理由可以禁止两个自然人的会面?”
并且,他向公司提出:不能以保护隐私为理由而不讨论职场霸凌和不追求揭示真相,如果第一条不能得到满足,就要接受媒体采访,并公开宣布Facebook压制员工的言论自由。
HR邮件强调不要在公司外部谈论员工跳楼事件
10月1日,HR对尹伊表示,将对他发出FinalWarning Letter (最终警告信),收到最终警告信的员工,未来哪怕是触犯一点点很小的公司政策,就将可能被直接开除,这封信还会被记录在员工履历中,伴随终身。
当尹伊向自己的辅导人”寻求帮助和建议时,这位平时对他和颜悦色的辅导人却脸色大变并举报了他。10月7日,尹伊接到HR的电话,通知他已经被公司解雇了,理由是未经公司许可接受媒体采访、故意隐瞒接受其他媒体采访的事实以及在办公室内的言论引起同事的不适。
他说,被解雇并不是自己所预想到的最坏的结果,自己会对自己的行为负责。
当我收到Facebook邮件的时候,我明白了,Facebook 压制言论自由,是真的有这样的事。
硅谷大公司背后的潜规则
有很多熟悉程序员工作的硅谷华人对媒体表示,陈勤是家里的顶梁柱,不会轻易放弃自己生命,肯定是遇到了巨大的困难”。
已经离职的员工也透露,由于公司变态的考核机制,每个人的压力都很重,曾经就连自己都曾有过自杀的念头,可是翻完员工死亡福利”后发现,为工作牺牲生命简直太傻了,他选择了辞职。
国内程序员梦寐以求的硅谷互联网企业,其实并没有想象的那般光鲜。
有媒体援引多位硅谷工程师,认为尽管Facebook 已经如此庞大,高层却仍期待维持一个创业公司的形象和与之匹配的增长速度。结果,从公司的层面,到具体员工的层面,都在面临着巨大的,需要超凡表现 (outperform) 的压力。
去年10月,在一次Facebook 内的 "Town hall"(直通高管问答会)上,一位女员工面对着包括桑德伯格在内的高管说出了许多人一直想说但不敢说的话:
在Facebook 工作本就十分辛苦,而一种无形的、来自制度的压力让员工必须表现得看上去一切都很好”,这种压力已经让她难以为继。
为了帮助员工达到工作要求,Facebook设计了一整套评价体系:精密的员工分级评鉴制度、频繁的考核周期、绩效改进计划,看似是在为员工更好的工作提供改进方法,实则令员工陷入精神的高压。
Facebook的员工分级评鉴制度,分为重新定义”(Redefine)、极大超过预期”(Greatly exceeds expectations)、超过预期”(Exceeds)、完全达到”(Meetsall) 、达到大多数期待”(Meets Most)等等。
工程师们需要在系统里撰写两封信,分别评价自己和经理的表现,并寻求三五同事也为自己评价;紧接着,经理会阅读这些信件,按照工程师在过去六个月内所完成或未能完成的每一项工作,进行逐一量化分级。
尽管考核分级会经过不同级别的人校准,但工程师们的直属经理在这个考核体系里有相当大的裁量权。
陈勤就职于Facebook 的广告定向产品组,广告部门是Facebook 最核心的现金来源,组内员工承担了巨大的责任。在这最后一次考核中,经理给他打了" Meets Most " 的评价。
Meets Most,看上去是达到大多数期待,其实已经是最严重的差评。
有消息透露,此前陈勤因为不堪重负,已经谈好了换组事宜,但这个" Meets Most "的评价,断送了他换组的机会。知情人士透露,在陈勤去世前,广告定向产品组一度历经组织架构调整和换血风波,原组经理不想让陈勤换组,才给了他这个评价。
这个评价甚至还会让他进入PIP(performance improvement plan)项目,所谓PIP,就是员工入职后,如果表现不佳,公司会制定一个改进计划,如果能完成就留下,完不成就会被开除。实际上,进入 PIP 的员工大部分都会立刻优化简历联系面试准备跳槽,能够真的改进所谓绩效的人少之甚少,往往需要经理以上的总监、VP 批准才能走出 PIP。
换句话说,这个评价成了压垮陈勤的最后一根稻草。
这样的考评体系并非Facebook特色,微博用户erain9就分享了自己在亚马逊工作时被PIP的经历:
事实上,几乎所有依靠 H-1B 工作签证/实习资格在美国工作的外籍人士,特别是华人,都有可能面临这样的境地。
特朗普上台后,美国移民当局开始对 H-1B 签证申请人进行更严格的、有时不合理的审核。由此,H-1B 新申请拒签率快速攀升,到2024财政年度已经高达32%。
一旦失业,他们必须在 60 天甚至更短的时间内找到新的工作,否则 H-1B 签证将会失效,意味着他们和家人将立即失去在美合法居留和工作的资格。
这也是为什么陈勤的自杀引发了硅谷华人的共鸣。
而Facebook的言论封杀,则更激起华人对于自我权益的保护。
令人欣慰的是,被开除的尹伊目前状态不错。
在他的LinkedIn页面下有不少声援的留言,也有人希望帮他介绍工作。
太多认识和不认识的朋友向我提供帮助,心里非常感激。”尹伊说,他下一步的打算是先把手头正在创作的乐曲完成,下个月可能开始找工作。也许未来考虑加入任天堂或者Atlus这样的游戏公司。这一直是我的兴趣所在。”
综合整理自网络