首页>学术资源 > 学术资讯 > 艾德思：Nature重磅研究揭秘调控层级推理过程的关键脑区和机制

艾德思：Nature重磅研究揭秘调控层级推理过程的关键脑区和机制

论文润色 | 2019/06/19 14:00:22 | 432 次浏览

想象一个场景: 您在一家餐厅吃了一道很好吃的菜,意犹未尽,想在家尝试做一次,于是您照着您在网上找到的菜谱把这道菜做出来了,但是您一尝,不是您在那家餐厅里吃到的味道.于是您就在想,为啥我做的菜味道这么奇怪,是我水平有问题还是这个菜谱写错了?

由于您对自己的厨艺不是那么自信,您可能会仔细地按照那个菜谱再做几次,如果结果还是不满意,您可能就会怀疑是菜谱的问题,于是您就会换一个菜谱试试.

在这个例子中, 当您发现现实 (您做出的菜品的味道) 和期望 (您在餐厅吃到的菜品的味道) 有差距时,您会通过多次试验去找这个差距的原因,每次试验都得到一个结果,最后综合这些结果,做出最后的判断 .

这个过程是一个层次性的(hierarchical)过程 ,换句话说,就是每次试验之后,您有一个短时程的暂时的计算,估计您的期望和现实反馈之间的差距,当试验多次之后,您会综合所有试验的结果,有一个长时程的决断来判断错误的原因.

那么,我们的大脑是怎样做这项任务的呢?其背后的机制是什么的呢?这篇论文对此进行了研究.

层级推理的行为学数据及模型他们设计了这样一个实验,实验中有两个隐藏的游戏规则,不同游戏规则下,对同一个刺激的正确反应是相反的,这个隐藏的游戏规则会变动.但参与实验的猴子不知道,猴子需要在自己认为的规则下,对刺激做出正确的反应,当猴子对规则和刺激这两项都判断正确时,猴子才能得到奖励,如果其中有一项判断错误,就没有奖励.在这个实验中,猴子就需要对自己的错误进行层次性的判断,如图1(A)所示.

图1. 层级因果推论研究的行为实验设置

图1(C)中的下图说明了实验的具体流程,首先给猴子看(ii)图,让它根据自己对规则的判断选择其中一个规则(两种规则分别对应蓝点和红点),然后给猴子(iv)-(vi)的刺激,让其判断(iv)-(vi)两图之间的时间间隔是大于还是小于850ms,在(ii)图中蓝点对应的规则下,大于850ms要进行反向眼动(Antisaccade),也就是向右看,小于850ms要正向眼动(Prosaccade),也就是向左看,在红点对应的规则下,反之,如图1(B)所示.

当猴子在(ii)和(vii)中都做出正确判断后,猴子得到果汁奖励.当猴子发现自己没有得到奖励时,就会考虑是对时间间隔判断出错还是对规则判断出错,如果不改变规则的选择,多次试验之后还是出错,猴子就会去变换规则.当然,在实验中实验人员不会频繁更换游戏规则,每种游戏规则会持续至少10次试验,具体次数服从几何分布.

这是实验的其中一种模式,称之为推断(inferred)模式 ,还有另外一种模式,叫做指示(instructed)模式 ,如图1(C)的上图所示,在这种模式下,(ii)图中的中心点会有规则的提示,猴子只要按照提示选择红点或蓝点,然后按照相应的规则作出反应即可.在这个实验中,指示模式是对照组,推断模式是实验组.

为了评估猴子的行为,他们定义了几个变量,反向眼动的概率Pr(Anti)/时间间隔t d (真实刺激时长t S 与850ms的差值)以及猴子主观改变规则的概率Pr(Sw).首先我们来看在某规则下,猴子对刺激做出的反应结果.如图2(D)所示,猴子在指示模式下,t d 的绝对值越大,Pr(Anti)越稳定,且Pr(Anti)取决于不同的规则,红蓝规则下,两条曲线是相反的.

图2. 行为学数据统计结果

在推断模式下,按照猴子主观判断的规则进行统计分析,结果与指示模式是相同的,而当按照客观规则进行统计时,则发现猴子的Pr(Anti)有所降低,如图2(E,F)所示,说明在推断模式下,猴子还是按照他学习到的游戏规则去作出相应的正确的动作,但是在规则判断上有部分失误 .

其次我们来看猴子转换规则的情况.如图2(G)所示,在指示模式下,也就是图中的黄色数据,在规则刚刚改变时,猴子内心的规则就立即发生改变,Pr(Sw)迅速升高,因为猴子直接按照提示来改变规则即可,但是在推断模式下,猴子的内心规则改变有延迟,因为猴子需要根据几次试验的反馈来判断自己是对t d 判断出错还是对规则判断出错.图2(H)显示的是,Pr(Sw)与获得奖励之后的那次试验的t d 的关系,如果上次试验中获得奖励(绿色点),猴子在这次试验中就不会改变规则,如果上次试验中没有得到奖励(红色实心点),猴子就有一定的概率改变规则,而如果连续两次都没有得到奖励(红色空心点),则会有更大的概率改变规则,因为随着试错次数增加,猴子对于自身判断t d 的信心越来越大,因此把错误归因于规则改变的概率也就会越大.

不管是连续一次还是两次没有获得奖励,Pr(Sw)都与t d 相关,t d 绝对值越小,猴子对于自身判断正确t d 的信心越不足,Pr(Sw)也就越小.

作者通过逻辑斯蒂回归也证实了,t d 和连续错误次数(记为nB-Er)的回归系数都是正的,也就是说Pr(Sw)与t d 和连续错误次数都是正相关.由此可以说明,猴子基于他们对自己判断t d 的信心和连续错误的累积来更新他们的决策.

为了解释实验数据,作者构建了一个简单的CBM模型(confidence-based model).在模型中,每次试验都会计算变量,表征对历史错误的整合,因此它是t d 和连续错误次数的函数,如图2(I)所示,当获得奖励时,无论多高都会归零,当出现一次错误时,的值会根据t d 的大小相应地升高,当连续两次出现错误时,的值会在原来的基础上继续升高,当的值高于阈值时,就改变规则,是一个二值变量,表征下一次试验是否改变规则,是对未来的计划.如图2(H)所示,这个模型可以很好地拟合实验数据,因此他们提出了神经环路的计算逻辑可以通过和两个变量来理解的假设.

层级推理的电生理数据由于前人工作中指出了背内侧额叶(dorsomedial frontal cortex, DMFC)和前扣带皮层(anterior cingulate cortex, ACC)与预测结果/根据结果调节动作以及战略决策相关,因此,作者记录了猴子做任务时DMFC和ACC两个脑区中神经元的活动,由于作者关心的是动物怎样推理分析错误的来源,因此,他们只记录了试验与试验之间的时间段(intertrial interval, ITI)内的神经元活动,也就是从前一次实验得到反馈之后到后一次试验开始之前的时间段.

首先介绍一个统计量--- 选择度(selectivity) ,将每个神经元的动作电位发放率用多个实验参数来进行线性回归,每个实验参数都对应一个系数,将某一个实验参数的系数的绝对值除以所有神经元的系数的均值,就得到了该神经元对于该实验参数的敏感度,如下面公式所示.选择度越低,说明该实验参数对神经元的贡献越低,或者说该神经元的发放率与该实验参数的相关性越低.

作者将所有神经元数据按照试验中有无获得奖励/试验难度(t d 的大小)以及连续出错的次数来分类,将每个类别内部的神经元发放率进行平均,就得到了图3的上面两行数据.

从单个神经元层面来看,神经元在不同试验的结果/不同实验难度以及不同连续出错的次数下,发放率是有明显区别的,即这些信息对于单个神经元是有调制作用的.图3第三行的数据更加说明了两个脑区中的部分单个神经元对于这三个实验参数是有编码的.

图3. DMFC和ACC的电生理数据以及敏感度分析.左边三列是DMFC数据,右边三列是ACC数据,第一行是猴子K的数据,第二行是猴子I的数据,第三行是神经元群体的敏感度分析数据,黑色表示选择度有显著性的数据.

作者将两个脑区中所有神经元的和做平均后,发现DMFC和ACC在ITI的前期都受到奖励与否和规则变化与否的信息的调制,且都是正相关,如图4(A,B)所示.

其中,DMFC在ITI的早期选择性更强,峰值大约出现在得到反馈之后的145ms时刻,ACC也是一样,只是峰值出现在187ms.

另外,ACC还在ITI晚期受到较强的规则变化的调制,虽然DMFC也有受到规则变化的调制,但是与ACC相比弱很多.

在此结果下,可以提出这样一个假设, 即DMFC接受到单次试验的反馈信号,进而ACC接收到DMFC传递的反馈信号并对其整合,帮助猴子决定是否要改变规则 .

实验验证DMFC与ACC在层级推理中的功能假设为了验证他们的假设,作者首先做了一个实验来测试ACC在ITI后期的反应是否对DMFC在ITI前期的信号敏感.他们给DMFC在50-150ms之间加入微刺激,使得DMFC的发放率有微弱的增大,同时记录ACC的响应,发现ACC的发放率也有所增加,如图4(C)所示.

图4. DMFC与ACC在ITI时期的计算

为了进一步说明ACC的功能,他们还在指示模式下进行了相同的操作,指示模式与推断模式的不同之处在于,指示模式下,猴子不需要通过得到的反馈来改变规则,依据指示改变规则即可,而推断模式下,猴子需要根据是否得到奖励而推测规则是否改变.

图4(D)表明,在指示模式下,额外的DMFC刺激没有改变ACC的响应,而推断模式下增大了ACC的响应.因此可以说明, ACC在需要估计错误并决定是否改变规则时,会整合DMFC的输入来进行计算 .

上一个实验中他们验证了ACC位于DMFC的下游,且在ACC需要整合错误信息时,ACC才会受到DMFC的影响,由此推测ACC的功能可能是综合推断是否改变规则.如果ACC的确是在做这件事,那么结合之前所说的模型,ACC一定编码了(历史错误信息的整合)和(未来是否要改变规则)这两个量.

为了证实这一点,他们通过有针对性的维度还原技术 (一种分离变量的方式,先线性拟合,再降维,再正交化,最后将数据投影到正交的变量轴上,具体方式可参考[1]),使得我们可以清晰地看到神经元群体在某一时间段内对于和两个变量动态编码的情况,如图5(A,B)的上图所示.

图5. ACC对于与变化规则相关的变量的编码以及对ACC操纵后的行为变化

图5(A)上图表明,ACC神经元群体活动编码了信号,越大,ACC中编码部分的信号就越强,将该图中200-400 ms之间的值做一个线性拟合得到图5(A)下图,表明不管在规则变化还是不变的情况下,ACC都用同样的方法编码了.同理,图5(B)表明ACC神经元群体编码了这个变量,且在规则变化和不变的情况下,区别显著.

这样的分析还不能直接证明ACC具有的历史错误整合与未来预测规则的计算功能.因此他们做了这样一个实验,他们在猴子出错的试验后直接对ACC在200-400ms之间进行微刺激,看猴子是否会更容易做出改变规则的决定.

结果的确如此,在推断模式下,加入刺激之后,猴子选择改变规则的概率显著提升了,而在不需要通过整合历史信息改变规则的提示模式下,猴子的规则改变概率没有明显改变.综合上面两个实验, 可以证明ACC在进行因果推论中的确起到了历史错误整合与未来预测规则的作用.

综上所述,作者揭示了大脑层级推理的机制. 通过分析行为数据,构建了一个模型来理解层级推理的计算原理,通过神经记录和微扰刺激实验揭示了DMFC和ACC在层级推理任务中的功能,其中DMFC负责在低级的短时间内,计算单次试验中期望与现实反馈之间的误差,而ACC则会在高级的长时间内,对连续错误信号进行整合,并基于整合后的信息作出高级决策.

PS:这件事情是不是有点可怕,您有可能因为您的ACC被电了几下,就改变主意了...

参考资料:

V. Mante, D. Sussillo, K. V. Shenoy, W. T. Newsome, Context-dependent computation by recurrent dynamics in prefrontal cortex. Nature 503, 78–84 (2013).

作者信息

作者:伞姆塔 (brainnews创作团队)

校审:Simon (brainnews编辑部)

更多科研论文服务，动动手指，请戳论文润色、投稿期刊推荐、论文翻译润色、论文指导及修改、论文预审！

语言不过关被拒？美国EditSprings--专业英语论文润色翻译修改服务专家帮您！