不再玩游戏了:AlphaGo AI可以应对一些现实世界的挑战

作者:仲孙埝

<p>上个月Humankind与人工智能(AI)失去了另一场重要的战斗,当时AlphaGo击败了世界领先的Go玩家Ke Jie三场比赛为零AlphaGo是由DeepMind开发的AI程序,DeepMind是Google的母公司Alphabet的一部分去年它击败了另一个领先者玩家,Lee Se-dol,四场比赛,但从那时起,AlphaGo已经大大改善了科杰所描述的AlphaGo的技能“就像一个Go of Go”AlphaGo现在将退出玩Go,留下了与自己对战的遗产他们被一位Go专家描述为“远在未来的游戏”,人类将多年来一直在研究改进自己的游戏Go是一款古老的游戏,基本上是两个玩家 - 一个玩黑色,另一个玩白色 - 通常标有19个横向线和19个垂直线的Go是计算机比国际象棋更难玩的游戏,因为每个位置的可能移动次数都很多rger这使得搜索前进很多 - 对于国际象棋中的计算机来说是可行的 - Go GoMind的突破是非常困难的是通用学习算法的开发,原则上可以在更多社会相关领域接受培训,而不是Go DeepMind说研究团队AplhaGo的目标是追求其他复杂的问题,例如寻找新的疾病治疗方法,大幅减少能源消耗或发明革命性的新材料</p><p>它补充说:如果人工智能系统证明他们能够在这些领域发掘重要的新知识和战略,突破可能真是卓越我们迫不及待地想看看接下来会发生什么这为未来开辟了许多机会,但挑战仍然存在AlphaGo结合了过去几十年中学习出现的两个最有力的想法:深度学习和强化学习值得注意的是,两者最初都受到生物大脑如何从人类经验中学习的启发大脑,感觉信息在一系列层中处理例如,视觉信息首先在视网膜中转换,然后在中脑中转换,然后通过大脑皮层的许多不同区域转换</p><p>这创建了一个表示层次结构,其中简单的局部特征是首先提取,然后通过这些构建更复杂的全局特征AI等效称为深度学习;因为它涉及简单的类似神经元的计算单元中的多层处理但是为了在世界上生存,动物不仅需要识别感官信息,还需要对其采取行动</p><p>科学家和心理学家的几代人研究了动物如何学习系列最大化奖励的行动这导致强化学习的数学理论现在可以在人工智能系统中实施其中最强大的是时间差异学习,通过最大化对未来奖励的期望来改善行动通过结合深度学习和强化学习在一系列人工神经网络中,AlphaGo首先从人类游戏的3000万次移动中学习了Go中的人类专家级游戏但是后来它开始与自身对抗,利用每个游戏的结果不断完善其关于每个游戏中最佳移动的决策</p><p>董事会职位一个价值网络学会了预测任何职位的可能结果,而政策网络l在每种情况下都能获得最佳动作虽然无法对每个可能的董事会职位进行抽样,但AlphaGo的神经网络提取了关于在任何位置都能很好地运作的策略的关键思想正是这些无数个小时的自我发挥导致了AlphaGo的改进</p><p>过去的一年不幸的是,目前还没有已知的方法来询问网络直接读出这些关键想法是什么相反,我们只能研究它的游戏,并希望从这些中学习</p><p>这是使用这种神经网络算法的问题之一帮助在例如法律制度中做出决定:他们无法解释他们的推理我们对生物大脑的实际学习方式仍然知之甚少,而神经科学将继续为改善人工智能提供新的灵感人类可以学会成为专家Go基于远远少于AlphaGo的经验的玩家需要达到该水平,因此显然还有进一步开发算法的空间AlphaGo的功能基于一种称为反向传播学习的技术,可以帮助它纠正错误 但是这与真正的大脑中的学习之间的关系仍然不清楚Go的游戏为优化这些学习算法提供了一个很好的约束开发平台但是许多现实世界的问题比这更麻烦,并且相当于自我游戏的机会较少(例如自动驾驶汽车)那么当前算法可以立即应用的问题吗</p><p>一个例子可能是受控工业环境中的优化这里的目标通常是完成一系列复杂的任务,同时满足多个约束并最小化成本只要可以准确地模拟可能性,这些算法就可以从更大的空间中探索和学习</p><p>人类可能获得的成果因此,DeepMind的大胆宣言似乎可以实现,正如公司所说,....

上一篇 : 斯蒂芬达克特
下一篇 : 露辛达贝尔