前沿的年轻人

前沿的年轻人
菜单
核心概念 神经科学和心理学 发表:2018年11月29日

方程的入侵!数学可以解释大脑如何如何

文摘

想象,每当你经历一个美丽的黄昏,你上传的照片Instagram。你的头几个照片得到大量的“喜欢”,但有一天你发布另一个和它只被少数人“喜欢”你下一个日落的照片你看到了吗?做出选择,看会发生什么事情帮助我们了解我们周围的世界,影响我们未来的选择。神经科学研究人员已经开发出的数学模型来解释人们如何从他们过去的好的和坏的结果的选择。这些模型通常被称为强化学习模型。在本文中,我们解释的情况下我们可以用强化学习在现实世界中,数学方程如何帮助我们理解这一过程,研究人员研究大脑如何从经验中学习,做出正确的选择。

强化学习是什么?

强化学习是一个过程,我们用过去的经验来帮助我们做出选择,可能会导致好的结果。让我们回到本文中描述的示例抽象,在Instagram发布日落照片,更详细地穿过它。你第一次发布一个日落照片,你会得到大量的“喜欢”,这使得你真的快乐,积极的接受那些“喜欢”的经验会让你更有可能把另一张照片。你发布第二个日落图片和得到同样多的“喜欢”;你发布一个第三个“喜欢”不断涌入。有一天,你上传你认为是一个很好的照片和接收几乎没有“喜欢。“相反,有人写评论你的照片。突然,不是所有你对发布的日落图片是积极的。你需要更新你已经学会考虑接收的负面经验意味着发表评论。下次你有机会发布一个日落照片,你可能有点不太可能这么做。

的结果可以认为是我们的选择强化信号。如果我们做出选择和经验好的正面强化信号我们将更有可能在未来重复选择。但是如果我们不好做决定和经验,下次我们可以选择不同的选项。这个过程称为强化学习。

为什么要用数学方程来理解学习和决策?

一般来说,积极的体验(如接收大量的社交媒体上的“喜欢”)使我们的期望如何奖励的东西将会增加,和消极的经历(如接收意味着评论)使我们的期望如何奖励的东西将会减少。然而,这个学习过程的一般描述不帮助我们做出具体的预测有多少经验将使我们改变我们的预期。例如,假设你邮报》9个图片,收到许多“喜欢”和一张照片,收到一个讨厌的评论。多少钱一个讨厌的评论改变你的估计是多么值得发布一个照片吗?多少你将不太可能在未来发布类似的图片吗?没有一个数学方程来描述学习的过程,我们不能回答这些问题。

此外,研究人员可以写方程不同部分,每个部分代表一个不同的思考和决策的过程。万博manbetxapp最新然后,我们可以看到当我们改变方程的每个部分来了解不同思维过程有助于学习。

Rescorla-Wagner模型

多年来,研究人员已经提出了不同的数学公式或”计算模型“——解释人们如何从正面和负面的经验中学习。第一个模型之一,仍然是有用的,叫做Rescorla-Wagner模型(1,2]。

研究人员罗伯特·Rescorla和艾伦·瓦格纳想更好地理解一系列著名的实验,已经由另一位研究员,伊凡巴甫洛夫。在这些实验中,巴甫洛夫重复响铃(实际上是一个不同的sound-making装置metronome-but为简单起见我们称之为bell),然后给狗食物。首先,狗不把食物的奖励和铃的声音。但是巴甫洛夫发现,经过几次重复的这个过程中,狗会开始分泌唾液当他们听到的声音,即使没有食物给他们。这些研究结果表明,随着时间的推移,狗学会了把铃声与食物的交付,这样,他们将预期的食物(和流口水!)当他们听到铃声。

然而,正如前面提到的,学习是一个渐进的过程。这意味着每次巴甫洛夫的狗听到铃声,有食物,他们的力量铃声与食物相关的增加一点,他们变得更容易流口水在铃的声音。

我们可以预测强烈狗预计食物当它听到铃声吗?我们可以知道狗的预测将会改变在每一个经验?Rescorla和瓦格纳想提出一个数学方程来回答这些问题。但是他们不能写任何方程需要编写一个准确反映学习过程。要做到这一点,他们首先需要理解的情况下动物学会形式之间的联系自己的经历。

而不是尝试狗、铃声和食物,Rescorla和瓦格纳进行了大部分的实验老鼠,用声音和电击。在这些实验中,大鼠会听到一种声音,然后接受电击。通常,老鼠在笼子里四处跑。但是老鼠不喜欢被震惊了,所以他们经常冻结时认为冲击即将发生。一只老鼠的力量将声音与冲击可以衡量多少老鼠冻结时听到的声音。例如,第一次老鼠听到了声音,老鼠不会期望一个冲击,所以它将继续正常移动笼子。但是如果它听到了声音,然后震惊,河鼠将开始学习声音和震动的连接。下次听到声音,老鼠少会多冻结。

Rescorla和瓦格纳在早期发现,当老鼠第一次学习声音之间的关系和冲击,他们表现出更大的变化的频率和冻结多久。震惊了许多次后,他们到达了一个更稳定的行为模式继续冻结,但他们只冻结的金额增加一点每次冲击。

这个观察,以及其他许多experiments-led Rescorla和瓦格纳发现强化学习是由惊喜。换句话说,动物学习当他们遇到一些他们不期望的更多。他们称这种类型的惊喜在学习”预测误差”,因为它代表了动物的程度预测会发生什么是不同的经历。例如,巴甫洛夫的狗第一次听到一个钟,他们没有理由期望得到任何食物。当他们得到了食物,他们经历过意外,或较大的预测误差,因为实际发生的事件(食物!)不同很大(!)他们预测会发生什么。这个预测误差引起他们学习,他们可能会收到食物当他们听到一个钟。当他们做了收到食物下次他们听到铃声,他们的预测误差较低,因为他们少一点惊讶的结果。当他们继续听到铃声和接收食物,他们期望的贝尔预测食品继续增加,但它并没有增加前几次一样,当他们更惊讶的食物。

我们经历“预测错误”。例如,你可能会认为你不喜欢吃花椰菜。但是有一天,你可能决定试一试,并发现它实际上味道不错!吃美味的椰菜的在这种情况下,你的经验会不同于你的预测,西兰花是恶心。你将经历一个预测错误,这将使你了解西兰花和改变你的信念如何美味。

没有预测错误,我们不通过强化学习任何东西。例如,您可能喜欢吃比萨饼。有一天,你可能会停止披萨从学校回家的路上。它是美味的!在这种情况下,你的经历吃美味的披萨没有不同于你的预测。你会经验预测错误,所以你不会学到任何东西。你将继续认为披萨很好吃。

Rescorla和瓦格纳写一个数学方程来描述这个学习过程。他们的方程的州增加在一个动物伙伴的力量与奖赏(如贝尔与食物)是通过计算之间的区别多少奖励动物收到多少奖励动物预测它将获得(图1)。

图1——学习是由预测错误。
  • 图1——学习是由预测错误。
  • 表显示了不同的例子狗的预测和有经验的结果如何影响学习。狗的数量将会增加其联系贝尔和食品协会“改变”列中(如图所示)是由多少食物的区别接收时听到铃声(“结果”列所示)和预测它将获得多少食物(“预测”列中显示)。这种差异被称为“奖励预测误差”和该列所示。

这个方程可以告诉我们如何强烈动物伙伴两件事或多少奖励一定的决定,像在Instagram发布一张图片,可能会带来。

除了重要的预测误差项的方程,也有另一个术语叫做“学习速率“学习速率就告诉我们有多少动物更新估计后乘以每个经验和预测误差。我们可以把学习速率的代表每只动物学习的速度有多快。如果一个动物学习速率高,那么它的更新估计很多经验预测误差时。但是如果动物学习速率较低,那么它可能在更大程度上依赖于它的所有过去的经历,只有改变它的估计有点每次经验预测错误。

从强化大脑如何学习?

强化学习模型帮助我们理解大脑是如何学习的。大脑是由大约1000亿个大脑细胞叫做神经元。神经元被称为神经递质的释放化学物质,帮助神经元(传输)消息发送给对方。多巴胺是大脑中一个重要的神经递质。多巴胺神经元响应奖励我们环境的经验。

使用前面描述的这样的实验,科学家们表明,多巴胺神经元的活动中发挥着关键作用在大脑中代表预测错误。学习之后,多巴胺神经元活动增加展示响应预测一个奖励的东西,像一个钟,之前一个动物甚至收到奖励。如果动物期望获得奖励,但不,多巴胺神经元减少他们的活动。强化学习模型,我们可以认为多巴胺预测误差信号多巴胺神经元信号的活动你认为你会得到多少奖励之间的差异与你得到多少奖励(3]。这有助于我们学习的强化,最终帮助我们使用我们先前的经验做出选择,我们认为将会引领我们奖励(图2)。

图2 -图显示了狗的大脑中发生了什么之前和之后的学习。
  • 图2 -图显示了狗的大脑中发生了什么之前和之后的学习。
  • 多巴胺神经元响应奖励和预测的回报。点代表多巴胺神经元的活动。线的高度上的点代表直接点下面的数量,具体的时间点。多巴胺神经元响应一个奖励,如食品(左上角)。后狗学会把铃声与食物,多巴胺神经元响应预测一个奖励的东西,像一个钟(左下角)。注意,多巴胺神经元不会应对食物本身在这种情况下,因为它不再是令人惊讶的。然而,如果预测奖励不会发生,多巴胺神经元变得不活跃(右下角)。改编自舒尔茨et al。3]。

很多大脑的不同部分显示的活动模式类似于多巴胺神经元的预测误差信号。这样的一个区域被一群区域位于大脑深处称为基底神经节。基底神经节是重要的不仅帮助我们学习,还控制运动和我们的习惯。最大的基底神经节是纹状体的一部分。纹状体多巴胺释放的主要网站,是一个核心部分的大脑奖励系统,控制我们的反应。

许多动物和人类的研究都表明,纹状体的活动与预测错误和在强化学习中起着重要的作用4]。相关的大脑活动模式预测错误也可以出现在大脑的额叶皮质,一个参与决策。纹状体和前额皮质有许多互相连接,被认为是至关重要的帮助我们快速做强化学习描述的计算方程。这些联系可以解释我们如何快速从经验中学习和使用这些知识来帮助我们与我们的未来决策(图3)。

图3——大脑区域参与强化学习。
  • 图3——大脑区域参与强化学习。
  • 额叶皮质(左),位于大脑的前部(前额后面),扮演着一个重要的角色在决策和纹状体(右)显示活动相关的预测错误。版权神经科学学会(2017)。进一步探索大脑使用3 d地图访问http://www.brainfacts.org/3d-brain

不过,活动的变化,已被证明在额叶皮质纹状体和只有一小块的拼图!重要的是要记住,大脑是由许多不同的部分组成,共同努力,帮助我们思考和复杂的事情喜欢学习。科学家继续研究纹状体,额叶皮层等脑区共同努力,帮助我们从强化学习,最终帮助我们做出最好的决策,我们可以利用我们所学到的信息。虽然我们涵盖了经典的学习模式Rescorla-Wagner模型在这篇文章中,有很多数学模型,试图帮助我们理解学习和它如何发生在大脑。

所以,下次你在考虑是否把照片Instagram,记住,你的大脑是快速解决一个数学问题,你即使知道它!

术语表

计算模型:是一个简单的计算模型、数学表示的一个更复杂的过程。强化学习模型本文中描述的是一个方程,可以代表了思维过程参与某些类型的学习。

预测误差:预测错误表示惊讶。他们代表什么动物的区别将经验和实际经验。

学习速率:动物的学习速率代表多快它更新信念基于新的信息。

多巴胺:多巴胺是大脑中的一种特殊类型的化学物质,称为神经递质,它往往是参与信号奖励。

利益冲突声明

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。


引用

[1]Rescorla, r . 1998。巴甫洛夫的条件反射。Psychol。43:151-60。

[2]Rescorla, R。,and Wagner, A. R. 1972. “A theory of Pavlovian conditioning: variations in the effectiveness of reinforcement and nonreinforcement,” in经典条件作用二:目前的研究和理论eds a . h .黑人和w·f·Prokasy(纽约:Appleton-Century-Crofts)。p . 64 - 99。

[3]舒尔茨,W。达扬,P。,and Montague, P. R. 1997. A neural substrate of prediction and reward.科学275:1593-9。

[4]达扬,P。,and Niv, Y. 2008. Reinforcement learning: the good, the bad and the ugly.当今一般。18:185 - 96。doi: 10.1016 / j.conb.2008.08.003

Baidu
map