北京空气质量污染:大批上市公司拿减税降费红包 有更多扶持政策将出台

2019年11月25日 04:17来源:凤凰新闻社作者:谢荣 实习记者 张筱箐 通讯员 白学文

  随后李世石继续顽强应战,最后时刻AlphaGo在中腹的收官细节上出现细微失误,但白棋依然保持领先。李世石终局前,已经明显贴目困难。古力、俞斌以及常昊等世界冠军当时一致判断,黑棋盘面只领先5目。下到第280手,李世石中盘认输。这样,李世石就以1-4输掉了这场举世瞩目的围棋人机大战。特斯拉发布电皮卡

  其中Policy Network用来在Selection和Expansion阶段,衡量为每一个子节点打分,找出最有希望、最最需要预先展开的那个子节点。Policy Network网络的训练,是通过观察其他人类之间对弈的棋局来学习的,主要学习的目标是:“给定一个棋局,我接下来的一步应该怎么走”?(这是一个静态的过程,不用继续深入搜索更深层的子节点)为此,AlphaGo先读取KGS(一个网络围棋对战平台)上面近16万局共3000多万步的人类走法,通过Supervised Learning的方法,学习出来一个简单的SL Policy Network(同时还顺便训练出来Simulation阶段用来一路算到决胜局使用的Rollout Policy)。然后基于这个在人类棋局上学习出来的SL Policy Network, 使用强化学习(Reinforcement Learning)的方法通过自己跟自己对弈,来进一步优化Policy Network。这么做的原因,一个可能的原因是通过人类棋局学出来的SL Policy Network,受到了人类自身能力的局限性的影响(KGS棋局中包含了很多非专业棋手,实力层次不齐),学不出特别好的策略来。那不如在此基础上,自己跟自己打,在此过程中不断学习不断优化自己的策略。这就体现了计算机的优势,只要不断电,计算机可以不分昼夜不断自己跟自己下棋来磨练棋艺。RL Policy Network初始参数就是SL Policy Network的参数,但青出于蓝而胜于蓝,实验指出RL跟SL策略对弈,RL胜率超过80%。RL Policy Network也是最终应用在实际对战过程中MCTS Selection阶段的策略。中国女排演员写真

  据人民网3月19日报道,周其仁提到,中国经济在过去之所以取得高速增长,很大的一个因素在于通过改革降低了体制成本;但目前体制成本从快速降低后再次回升。体制成本主要指法定成本、法定经营成本、市场主体对潜在机会做出反应的成本,以及市场对关键要素的获得成本等。邓肯布置战术

  第一,PC端与移动端视觉同步:移动端内容同步更新到PC端,PC端信息流的读取内容全面比照移动端,视觉上与移动端一致,更好地整合新闻呈现方式,同时也实现了最大编辑力量的释放。2019广州车展

  除了提供信贷资金之外,俞胜法还透露,今年网商银行将在服务小微企业、支持实体经济的宽度和深度上做文章,联手商业平台和金融机构,融入越来越多的场景,为更多的小微企业提供融资、供应链金融、账户管理、余利增值等综合金融服务。郑开马拉松

  为了进一步从Micromax手中抢夺市场份额,三星和联想均力推高性价比的手机。那些低价产品往往配备高端机型才有的功能。多什称,联想的手机定价甚至比几乎以成本价出售手机的小米还要低。20岁体操选手去世

  对于手游行业来讲,2015年是手游行业快速发展的一年:IP热、移动电竞、VR兴起、独立游戏等,无疑对2016年手游行业的发展寄予了厚望。英雄联盟最佳主持

  刚刚过去的3月10日,对所有的瓜子仁来说,是一个值得标注的日子。瓜子二手车直卖网在这一天成功完成了一项“不可能的任务”——单日交易量达1027台,实现交易额8372万元。3月10日,全体瓜子仁创造了一个新的历史,开始用我们的成绩改写中国二手车市场的格局。孙杨感谢尿检官