首页 > 医疗资讯/ 正文

Cell:学习中的“蝴蝶效应”:早期微小偏好如何通过多巴胺滚雪球,决定你的最终技能风格

来源 2025-06-21 12:11:48 医疗资讯

引言

你是否曾好奇,为什么在学习一项新技能时——无论是驾驶、一门新语言,还是像网球这样的运动——每个人的进步轨迹都如此不同?有些人迅速掌握要领,有些人则在某个阶段停滞不前;有些人形成了自己独特的“野路子”,有些人则严格遵循教科书。这种学习过程中的个体差异,究竟是纯粹的偶然,还是背后隐藏着某种深刻的生物学规律?

近日,《Cell》上的研究“Dopamine encodes deep network teaching signals for individual learning trajectories”,为我们揭开了这个谜题的一角。研究人员通过巧妙的实验和复杂的计算模型,发现我们大脑中神奇的化学信使——多巴胺,不仅是快乐的源泉,更是一位“私人定制”的学习教练,它以一种超乎想象的精准方式,塑造了我们从新手到专家的每一段独一无二的学习历程。

图片

新手上路:为何你的学习之路与众不同?

想象一下,一群新手司机第一次坐在驾驶位。他们面对的是同样的方向盘、油门和刹车,学习同样的交通规则。然而几周后,他们的驾驶风格和学习瓶颈却千差万别。这正是研究人员在小鼠身上观察到的现象。

为了探究长期学习的奥秘,研究人员设计了一个视觉决策任务。他们将小鼠的头部固定,面前放置一个屏幕,屏幕的左侧或右侧会随机出现一个视觉刺激(一个光栅图案)。小鼠的任务是,通过转动前爪下的一个小轮子,将屏幕上的光栅“拨”到中央位置,做出正确的选择即可获得一滴水作为奖励。这个任务对小鼠来说并不简单,需要它们将“看到光栅在哪边”和“应该往哪边转轮子”这两件事关联起来。

研究人员对40只小鼠进行了长达数周的追踪训练,其中30只成功学会了这项任务,达到至少70%的正确率,这个过程平均需要19天。然而,通往“专家”的道路并非千篇一律。通过分析小鼠每天的决策数据,研究人员绘制出了它们的“学习画像”——心理测量曲线(psychometric curve)。这条曲线展示了在不同刺激条件下,小鼠选择向右转动轮子的概率。

一开始,所有小鼠都像无头苍蝇,它们的决策曲线是平的,说明它们根本不理会屏幕上的光栅,只是随机地或凭感觉选择方向。有趣的是,几乎每只小鼠在学习初期都表现出了明显的选择偏好(bias)——要么倾向于向左转,要么倾向于向右转。这种偏好并非一成不变,而是随着学习的进行发生着动态演变。

更令人惊讶的是,小鼠们最终“毕业”时的策略也呈现出巨大的多样性。

一部分小鼠成为了“平衡型选手”(balanced strategy)。它们学会了识别左右两侧的刺激,并做出相应正确的反应。它们的心理测量曲线在两侧都变得陡峭。

另一些小鼠则走了“捷径”,成为了“单边关联型选手”(associating strategy)。例如,一只“右侧关联”的小鼠只学会了“看到右边有刺激就向右转”这一条规则。当刺激出现在左边,或者干脆没有刺激时,它就默认选择向左转。因此,它的心理测量曲线只有在右侧刺激出现时才陡峭,而在左侧则是平的。反之亦然,也存在“左侧关联”的小鼠。

这意味着,即使是面对同一个任务,不同个体也会自发地探索出完全不同的解决方案。这种现象在人类学习中也比比皆是,比如有的人学外语靠背单词,有的人则靠沉浸式对话。

如果故事到此为止,我们可能会认为学习充满了随机性和不可预测性。但研究人员的发现远不止于此。他们发现,在这种多样性的背后,隐藏着惊人的系统性(systematicity)。小鼠在学习早期(实验第4-8天)表现出的微小选择偏好,竟然能强烈地预测它在数周后(实验最后5天)会采用哪种高级策略!数据显示,早期偏好与晚期偏好,以及晚期形成的左右两侧策略差异之间,存在着极强的正相关性(相关系数 r 高达 0.69)。换句话说,一只小鼠在刚开始学习时,如果稍微有点“右撇子”的倾向,那么它极有可能在未来几周内,发展成一个依赖右侧视觉线索的“单边专家”。

这个发现颠覆了我们对学习的传统认知。它表明,学习并非简单的试错和知识累积,而是一条被早期经验深刻塑造的、具有内在逻辑的轨迹。那么,是什么在大脑中扮演着这位“命运规划师”的角色,为每个个体铺设了这条独特的学习之路呢?研究人员将目光锁定在了大脑的奖励和学习中枢——多巴胺(dopamine, DA)系统。

多巴胺:你的专属学习教练,还是“偏科”的始作俑者?

多巴胺通常与快乐、动机和成瘾联系在一起。在学习领域,它扮演着一个关键角色——编码奖励预测误差(reward prediction error, RPE)。简单来说,当实际得到的奖励超出预期时,多巴胺神经元会兴奋,释放大量多巴胺,仿佛在说:“干得好!记住刚才的操作!”;如果结果不如预期,多巴胺水平则会下降,像是在提醒:“这条路不对,换个方法试试。”这个信号被认为是驱动强化学习(reinforcement learning, RL)的核心机制。

但是,传统理论能解释研究人员观察到的那种高度个体化、且具有系统性的学习轨迹吗?为了回答这个问题,研究人员利用光纤光度法(fiber photometry)技术,在小鼠学习的全程中,实时监测了其背外侧纹状体(dorsolateral striatum, DLS)的多巴胺水平。DLS是大脑中一个对基于感觉信息的决策学习至关重要的区域。

监测结果令人震撼:多巴胺的活动模式,与每只小鼠独特的学习策略“神同步”。

在学习初期,当小鼠还处于懵懂状态时,DLS的多巴胺主要在获得水奖励时才出现一个短暂的峰值。随着学习的深入,多巴胺的响应开始“前移”,在小鼠看到视觉刺激时就开始释放。这表明多巴胺正在帮助大脑建立刺激与未来奖励之间的联系。最关键的是,这种与刺激相关的多巴胺信号,完美地复刻了每只小鼠的行为策略。在一只“右侧关联”的小鼠大脑中,只有当右侧刺激出现时,DLS才会释放大量多巴胺;而当左侧刺激出现时,多巴胺却“无动于衷”。相反,在“平衡型”小鼠的大脑中,无论是左侧还是右侧的刺激,都能引发强烈的多巴胺响应。

为了排除这仅仅是行为表现差异(比如某一侧做得更好)导致的附带现象,研究人员巧妙地选取了“单边关联型”小鼠在某些天的数据,在这些天里,小鼠对两侧刺激做出正确反应的准确率几乎完全相同。即便在这种“表现匹配”的情况下,多巴胺信号依然表现出强烈的“偏科”——只对它所“关联”的那一侧刺激做出反应。这证明,多巴胺编码的不是简单的“正确与否”,而是个体所采纳的、高度特异性的“刺激-选择”关联规则

更有趣的是,研究人员还对比了DLS和另一个纹状体亚区——背内侧纹状体(dorsomedial striatum, DMS)的多巴胺信号。他们发现DMS的多巴胺信号模式完全不同,它主要响应对侧(与记录半球相反一侧)的刺激,并且从学习一开始就几乎没有奖励响应。这表明,大脑不同区域的多巴胺信号扮演着不同的“教学”角色,DLS中的多巴胺信号似乎是塑造这种长期、个体化学习轨迹的关键。

至此,一个清晰的图景浮现出来:DLS多巴胺就像一位贴身教练,它不仅记录,更可能是在主动塑造每只小鼠的学习路径。早期的微小偏好,通过多巴胺系统的正反馈,被一步步放大和固化,最终形成了稳定而独特的学习策略。但这仍然是一个相关性的结论,要证明因果关系,还需要更直接的干预。

给点“阳光”就灿烂?多巴胺的教学语言,比奖励更精准

为了验证DLS多巴胺在学习中的“执教”作用,研究人员动用了光遗传学(optogenetics)这一强大的神经科学工具。他们可以像用遥控器开关灯一样,精确地控制特定神经元的活动。

实验一:关掉“教练”的指导

研究人员首先想知道,如果剥夺了DLS的多巴胺信号,小鼠还能学会任务吗?他们通过光遗传技术,在小鼠学习的全过程中持续抑制DLS中多巴胺的释放。结果是毁灭性的:这些小鼠虽然也进行了数千次尝试,但它们的学习曲线始终停留在50%的随机水平,完全没有学会利用视觉信息。然而,它们的运动能力并未受损,转动轮子的反应速度甚至和正常小鼠一样会随着训练而变快。这表明,DLS多巴胺对于建立“刺激-选择”这种认知层面的关联是绝对必要的。没有了这位教练,小鼠就成了“睁眼瞎”。

实验二:模拟“教练”的口令

这个实验是整个研究的点睛之笔。研究人员提出了一个大胆的假设:DLS多巴胺的教学信号可能比我们想象的更“智能”。它可能不是一个“一刀切”的全局奖励信号(比如“这次对了,所有相关的线索都加强”),而是一个高度语境化的、异质性(heterogeneous)的教学信号。也就是说,它只会更新当前决策所依赖的那个特定关联。

为了验证这一点,他们对已经形成了“单边关联”策略的专家小鼠进行了干预。当这些小鼠在面对它们“不关联”的那一侧刺激而做出错误选择时,研究人员在结果揭晓的瞬间,用光精确地刺激DLS多巴胺的释放。这相当于人为地告诉大脑:“刚才这个选择,虽然没得到水,但也是个‘好’选择。”

如果多巴胺是一个通用的“做得好”信号,那么这种刺激应该会更新所有可能的关联,让小鼠在所有情况下都更倾向于做出那个选择。但结果并非如此!

光刺激DLS多巴胺时,这种人为的多巴胺信号,仅仅提升了小鼠在面对那个特定刺激时做出错误选择的概率。也就是说,它精确地、只更新了“不关联的刺激”与“错误选择”之间的联系,而对其他情况(如没有刺激的试次)下的选择行为毫无影响。

作为对照,当研究人员直接给予水奖励时,水的奖励效应则完全不同。它像一个“万能钥匙”,不仅提升了小鼠在面对那个特定刺激时的错误选择概率,还显著改变了它在没有刺激时的选择偏好,使整个心理测量曲线都发生了平移。

这个巧妙的对比实验,清晰地揭示了DLS多巴胺教学信号的本质。它不是一个像水奖励那样的“经典RPE”信号,而是一个“部分”或者说“归因”的RPE信号。它精确地将学习的更新“归因”于动物当前所使用的感觉线索,从而实现了对特定认知策略的精细雕琢。这解释了为什么“单边关联”的小鼠即使在获得奖励后,也学不会另一侧的关联——因为在那些试次中,它们根本没有“使用”那一侧的刺激作为决策依据,因此多巴胺这位“教练”也无从指导。

解密学习“黑箱”:用深度网络重现小鼠的“心路历程”

手握丰富的行为学和神经活动数据,研究人员开始构建一个能够解释这一切的计算模型。他们首先尝试了标准的“浅层”强化学习模型,但发现这些模型无法重现小鼠学习轨迹的多样性。浅层模型要么学得太快太完美,要么就学不会,无法产生稳定的“单边策略”。

于是,他们构建了一个更符合大脑结构的深度强化学习(deep RL)模型。这个模型的“深度”体现在它包含一个隐藏层(hidden layer),这类似于大脑皮层和纹状体之间的多级信息处理。该模型巧妙地设计了两个并行的处理通路:一个是刺激通路(stimulus pathway),专门处理来自视觉刺激的信息;另一个是恒定通路(constant pathway),处理那些不随试验变化的背景信息(如代表“开始”的提示音)。这两个通路的信息在隐藏层整合,最终输出对左、右两个选择的价值评估,模型据此做出决策。

最关键的创新在于模型的学习规则。研究人员摒弃了单一的、全局的RPE,为模型设计了异质性教学信号(heterogeneous teaching signals),这与他们在实验中观察到的DLS多巴胺信号特性完全一致:更新“皮层”层面(模型的第一层权重)的连接时,使用一个基于所有信息的“总体RPE”;而更新“纹状体”层面(模型的第二层权重)的连接时,则使用路径特异的“部分RPE”。刺激通路的更新只依赖于基于刺激信息的RPE,而恒定通路的更新则依赖于基于背景信息的RPE。

这个被研究人员称为“导师-执行者”(tutor-executor)的网络模型,取得了惊人的成功。

它不仅完美复现了小鼠学习轨迹的多样性和系统性,模拟出的网络也分化出了“平衡型”和“左/右单边关联型”,并且其早期的偏好同样能强烈预测最终的学习策略(早期偏好与晚期偏好的相关系数 r = -0.83,与真实数据趋势一致)。同时,模型中“刺激通路”的RPE信号,其动态演变过程与真实记录到的小鼠DLS多巴胺信号高度吻合。最重要的是,该模型是唯一能够解释光遗传学实验结果的,精确模拟了对特定通路信号干预和全局奖励信号干预的不同效果。

这个模型的成功,意味着研究人员不仅“知其然”(观察到了现象),更“知其所以然”(找到了可能的内在机制)。它表明,大脑的学习过程,可能真的就像一个拥有隐藏层和异质性教学信号的深度网络。

学习之路的隐藏地图:“鞍点”如何塑造你的每一步

这个深度模型为何能如此成功?为了探究其背后的数学原理,研究人员将其学习过程视为一个在高维权重空间中行进的动态系统,并分析了其“能量景观”。他们发现,这个景观并非一个平滑的斜坡,而是布满了关键的拓扑结构——鞍点(saddle points)

在数学上,鞍点是一个在某些维度上是局部最小值,而在另一些维度上是局部最大值的点,就像一个马鞍的中心。在学习的语境下,一个鞍点代表了一个不稳定的、中间状态的策略。当学习过程进行到鞍点附近时,梯度变得很小,学习会暂时减速,陷入一个平台期(plateau),仿佛在“思考”下一步该往哪走。随后,系统会沿着鞍点“最陡峭的下坡路”(不稳定流形)迅速滑向下一个状态。

研究人员发现,他们的深度模型中存在一整套等级化的鞍点,这些鞍点共同构成了一张学习的“隐藏地图”:

学习从代表“天真”状态的起点(0号固定点)开始,由于随机性,网络会先滑向一个代表“左偏好”或“右偏好”的偏好形成鞍点(1R/1L号)。接着,这是形成“单边策略”的关键阶段,网络会大概率走向单边关联鞍点(2R/2L, 3R/3L号),在这些阶段,网络开始学习特定刺激与选择的关联,并最终形成稳定的“单边关联”策略。最后,学习的终点(4号固定点)是代表“专家”状态的全局最小值。只有那些没有形成强烈早期偏好的“平衡”网络,才会直接滑向这个终点。

这套鞍点结构完美地解释了学习过程中的两大核心特征:

1. 多样性: 初始状态的微小随机扰动(相当于小鼠的早期偏好),决定了学习轨迹会沿着哪一条由鞍点构成的“山谷”前进,从而导致了最终策略的多样性。

2. 系统性: 学习的轨迹并非随机游走,而是被这张由鞍点构成的“地图”严格引导的。从一个鞍点到下一个鞍点的转移是有序且大概率的,这解释了为何早期偏好能够预测晚期策略。

此外,鞍点的存在也解释了小鼠学习过程中常见的“平台期”现象。当学习轨迹接近鞍点时,学习速度自然放缓,对应了行为上正确率停滞不前的阶段。这不仅在模型中被观察到,也与真实小鼠的学习曲线(在早期正确率长期维持在50%左右)相符。

最后的思考

这项发表于《细胞》的研究,以前所未有的深度和广度,描绘了一幅关于长期学习的壮丽画卷。它告诉我们,大脑的学习并非一个简单的、被动响应奖励的黑箱。相反,它是一个主动的、高度个体化的构建过程,由像多巴胺这样的神经递质,以一种远超我们想象的精准和巧妙的方式进行引导。

DLS多巴胺所编码的这种“部分”或“归因”的教学信号,可能是大脑解决“信用分配”(credit assignment)难题的一个关键机制——即如何准确地知道是哪个线索或动作导致了最终的成功或失败。而深度网络中的鞍点理论,则为理解学习过程中的多样性、系统性和阶段性平台期提供了一个强大而优美的数学框架。

这项工作不仅加深了我们对学习和决策神经基础的理解,也为教育学、人工智能等领域带来了深刻的启示。它提醒我们,在教学和训练中,或许应该更加关注和利用个体的早期偏好和自发形成的策略,因为这可能并非“弯路”,而是通往专精的、最高效的个体化路径。同时,它也为设计更类脑、更高效的强化学习算法指明了新的方向。

参考文献

Liebana S, Laffere A, Toschi C, Schilling L, Moretti J, Podlaski J, Fritsche M, Zatka-Haas P, Li Y, Bogacz R, Saxe A, Lak A. Dopamine encodes deep network teaching signals for individual learning trajectories. Cell. 2025 Jun 5:S0092-8674(25)00575-6. doi: 10.1016/j.cell.2025.05.025. Epub ahead of print. PMID: 40505657.

Tags: Cell:学习中的“蝴蝶效应”:早期微小偏好如何通过多巴胺滚雪球,决定你的最终技能风格  

搜索
网站分类
标签列表