一直想分享这篇文章,今天静下心来,我们一起来品味,一同思考,你会想打王者荣耀一样发疯地学习吗?
我们先来看一下为什么很多人痴迷游戏,无法自拔。王者荣耀,一个游戏的经典制作,先问一个问题,对于一个非职业玩家,我们打王者荣耀,是为了什么?除去消遣时间这个客观因素,是为了推掉敌方水晶,还是拿到五杀,抑或只是和朋友一起,享受在游戏中畅快淋漓地倾泻技能,这些其实都不是本质原因。单次的获胜或五杀并不能驱使我们一定要打开◇下一局的游戏,本质上,我们对游戏的快感,都是大脑对游戏反馈机制的一种奖励,它由我们的多巴胺所决定。
多巴胺既是快感吗?其实并不是,多巴胺不是快感的本身,而是对快感的预期,或是对快感的追求,当你获胜或拿到击杀,你的肾上腺素,催产素和内啡肽分泌增多,你会感到愉悦,兴奋,但对大脑神经来说,这些情绪只是暂时的体验,而多巴胺所构成的信号机制才是决定你会不会接着玩下去,并且以后还会打开游戏的关键。换句话说,多巴胺赋予你沉迷游戏的欲望,在多巴胺的信号机制中,你不会感到我玩王者荣耀很爽,而是让你觉得这把我能翻盘,下把一定赢,再赢一把我就升级段位了,也正由于多巴胺是直接▅作用于大脑的奖励回来,于是一次又一次的我们打开手机电脑,点开游戏,周而复始,这就是我们沉迷游戏的根本原因。
反馈回路,我们已经知道大脑所构造的反馈回路,是促使大脑沉迷游戏的底层原因,再将反馈回路应用到学习之前,我们先来简单的了解一下它的工作原理。当你是个普通玩家,第一次进入游戏,孤身杀入敌方防御塔范围,但被击杀,你的大脑感觉失望,于是重新复活后你孤身进塔的动作概率被降低,你开始选择跟谁队友一起进入,并推掉了敌方防御塔,再经历数十个动作和状态转移后,最终胜利,你获ω 得了满足,根据奖励结果,大脑判断,第二种操作更好,因此下一次循环,你选择跟谁队友的概率会继续增加,并随之做出更多的正确操作,最终强化这条反馈回路的效果,而这也是脱颖而出的制胜原因,大脑的反馈机制使得响应更快,由此可见,反馈回路并不复杂,它只是一种信号,动作。
反馈机制机制由五个部分组成,每个部分都对应一个例子中的一个描述。环境,你的交互环境,比如游戏,状态,你所处在的状态(击杀,获胜),动作(打开游戏,操作角色,或关掉游戏),更新(提高或降低你做出某个动作的概率,概率可以理解为大脑信号的强弱),奖励(获胜的愉悦,也即是快感预期);并且满足一下五个规则,当你进入游戏,你会以不同的概率在每个时间点上做出不同的动作,你的动作影响下一刻所处的状态,每一个状态都对应一个奖励,也既是大脑所获得的反馈,每一步动作都不止影响下一步的反馈,也可能影响更远的状态和反馈,反馈可以为正也可以为负。反馈回路的构造方法之一,就是加强对目标的预期反馈,也叫做反馈强化。
反馈强化,游戏带给玩家的反馈是否足够,是否迅速,是决定一个游戏是否有趣的基础,而一个游戏厂商在做的事情,就是将反馈回路竭尽所能地加强和加快,比如提高动作的收益,推掉水晶,你获得的不只是胜利,游戏分数也会提升,或者不确定性,让玩家耗费更多次的尝试来确定反馈回路,比如皮肤的随机性。
回到学习本身,正如学习带给学习者的反馈,也是决定这个学习模式是否有趣的基础,再将学习和游戏联系起来之前,我们还是再深入的ㄨ了解一下游戏系统的三种反馈强化模式,固定比率强化,如打败是个对手一定可以升一级,连胜十场一定可以升段;二是固定时距强化,比如游戏中的宝箱3小时后一定可以解锁;三是不固定比率强化,也就是游戏中抽一次卡,有1%的几率抽到SSR。这三♂种方法,正是将强化学习中的不确定性奖励固化成为确定性收益,比如分数,卡牌,又分别对应来游戏厂商的三项核心KPI,留存率,在线人数和净收入。
讲了这么久游戏,那学习又怎样和游戏联结找出底层逻辑?在强化学习的过程中,我们又该如何具体实施执行呢?下期我们分享,且听下回分解。
奥图码数码科技(上海)有限公司致力于智慧教育驱动力协作发展,欢迎合作垂询。