发了疯地学习⊙（上篇）——底层探究，激发学习的元〓动力

　　一直想分享这篇文章，今天静下心来，我们一起来品味，一同思考，你会想打王者荣耀一样发疯地学习吗？

　　我们先来看一下为什么很多人痴迷游戏，无法自拔。王者荣耀，一个游戏的经典制作，先问一个问题，对于一个非职业玩家，我们打王者荣耀，是为了什么？除去消遣时间这个客观因素，是为了推掉敌方水晶，还是拿到五杀，抑或只是和朋友一起，享受在游戏中畅快淋漓地倾泻技能，这些其实都不是本质原因。单次的获胜或五杀并不能驱使我们一定要打开◇下一局的游戏，本质上，我们对游戏的快感，都是大脑对游戏反馈机制的一种奖励，它由我们的多巴胺所决定。

发了疯地学习（上篇）——底层探究，激发学习的元动力

　　多巴胺既是快感吗？其实并不是，多巴胺不是快感的本身，而是对快感的预期，或是对快感的追求，当你获胜或拿到击杀，你的肾上腺素，催产素和内啡肽分泌增多，你会感到愉悦，兴奋，但对大脑神经来说，这些情绪只是暂时的体验，而多巴胺所构成的信号机制才是决定你会不会接着玩下去，并且以后还会打开游戏的关键。换句话说，多巴胺赋予你沉迷游戏的欲望，在多巴胺的信号机制中，你不会感到我玩王者荣耀很爽，而是让你觉得这把我能翻盘，下把一定赢，再赢一把我就升级段位了，也正由于多巴胺是直接▅作用于大脑的奖励回来，于是一次又一次的我们打开手机电脑，点开游戏，周而复始，这就是我们沉迷游戏的根本原因。

发了疯地学习（上篇）——底层探究，激发学习的元动力

　　反馈回路，我们已经知道大脑所构造的反馈回路，是促使大脑沉迷游戏的底层原因，再将反馈回路应用到学习之前，我们先来简单的了解一下它的工作原理。当你是个普通玩家，第一次进入游戏，孤身杀入敌方防御塔范围，但被击杀，你的大脑感觉失望，于是重新复活后你孤身进塔的动作概率被降低，你开始选择跟谁队友一起进入，并推掉了敌方防御塔，再经历数十个动作和状态转移后，最终胜利，你获ω　得了满足，根据奖励结果，大脑判断，第二种操作更好，因此下一次循环，你选择跟谁队友的概率会继续增加，并随之做出更多的正确操作，最终强化这条反馈回路的效果，而这也是脱颖而出的制胜原因，大脑的反馈机制使得响应更快，由此可见，反馈回路并不复杂，它只是一种信号，动作。

　　反馈机制机制由五个部分组成，每个部分都对应一个例子中的一个描述。环境，你的交互环境，比如游戏，状态，你所处在的状态（击杀，获胜），动作（打开游戏，操作角色，或关掉游戏），更新（提高或降低你做出某个动作的概率，概率可以理解为大脑信号的强弱），奖励（获胜的愉悦，也即是快感预期）；并且满足一下五个规则，当你进入游戏，你会以不同的概率在每个时间点上做出不同的动作，你的动作影响下一刻所处的状态，每一个状态都对应一个奖励，也既是大脑所获得的反馈，每一步动作都不止影响下一步的反馈，也可能影响更远的状态和反馈，反馈可以为正也可以为负。反馈回路的构造方法之一，就是加强对目标的预期反馈，也叫做反馈强化。

发了疯地学习（上篇）——底层探究，激发学习的元动力

　　反馈强化，游戏带给玩家的反馈是否足够，是否迅速，是决定一个游戏是否有趣的基础，而一个游戏厂商在做的事情，就是将反馈回路竭尽所能地加强和加快，比如提高动作的收益，推掉水晶，你获得的不只是胜利，游戏分数也会提升，或者不确定性，让玩家耗费更多次的尝试来确定反馈回路，比如皮肤的随机性。

　　回到学习本身，正如学习带给学习者的反馈，也是决定这个学习模式是否有趣的基础，再将学习和游戏联系起来之前，我们还是再深入的ㄨ了解一下游戏系统的三种反馈强化模式，固定比率强化，如打败是个对手一定可以升一级，连胜十场一定可以升段；二是固定时距强化，比如游戏中的宝箱3小时后一定可以解锁；三是不固定比率强化，也就是游戏中抽一次卡，有1%的几率抽到SSR。这三♂种方法，正是将强化学习中的不确定性奖励固化成为确定性收益，比如分数，卡牌，又分别对应来游戏厂商的三项核心KPI，留存率，在线人数和净收入。

　　讲了这么久游戏，那学习又怎样和游戏联结找出底层逻辑？在强化学习的过程中，我们又该如何具体实施执行呢？下期我们分享，且听下回分解。

　　奥图码数码科技(上海)有限公司致力于智慧教育驱动力协作发展，欢迎合作垂询。