大脑至亚细胞的各级计算框架与认知功能--36.语言与阅读解码-Jia-Guo的财新博客-财新网

我们在本书第3节提到，传统上认为负责说话的拓展后的布洛卡区（Broca）和负责语言解码的拓展后的韦尼克（Wernicke）区与耳朵、听觉皮层（BA41，42）、内嗅皮层及海马体前端都较近甚至重叠（图36.1）[1]，我们在上一节还在前额叶看到了单个神经元对应的单词发音（图35.2）。但是更为大一统的理解（第27节，图32.2），大脑皮层的特定区域提供了具体的“专家信息”，大脑的感知与生成仍然需要大脑皮层与屏状核、内嗅皮层和海马体各自的作用。

图36.1 语言产生和解码相关脑区，对应布罗德曼分区（Broadmann's Areas）。布洛克复合体在额叶，包括经典的BA44,45,加上BA46,47，以及部分BA6和基底神经节。韦尼克复合体在颞叶，核心区也由深灰色表示，拓展区由点状表示，涉及语言关联。在Broca和Wernicke区域之间，图上被遮挡的BA13，即我们在介绍屏状核时提到的岛叶(insula)皮层，很可能也参与了两个区域之间语义、语法等的协调。来自[1]，图3.5已有。

对于第二语言学习的研究，明确显示了海马体的作用（图36.2）。对学习第二语言的个体的研究表明，NREM睡眠时（丘脑与皮层）的纺锤波意味着陈述性记忆的形成（declarative memory，记忆单词、语法规则，例如多种欧洲语言涉及性别相关词尾变换），而快速眼动睡眠REM是程序性记忆（procedure memory，生成完整的句子）巩固的标志[2]

至少对于第二语言的学习来说，陈述性记忆可能包括新单词与母语中单词的翻译关系，新单词与它们所代表的物体和人的关系，以及单词的正确发音与运动协调的关系。一项英语母语的成年人研究展现了人物代词对应的海马神经元激活，在神经元细胞层面证明了代词与它指代的名词对应到了同一个神经元（图36.3）[3]。这体现了存储于大脑的一层替换规则，对于人工智能仍是个难点。对于幼儿，左侧海马的体积与词汇量相关；左侧前内侧颞叶（MTL，包括顶部的海马、前部的内嗅皮层和外嗅皮层，以及后部的旁海马皮层）的活动，包括在睡眠时听到新学习的单词时的激活，对应词汇量的增长[4]。这符合前文介绍的内嗅皮层-海马体与大脑皮层间的哈希索引（图15.3），在语言学习与运用时也是如此。

图36.2 第二语言学习中连词成句对应树突棘和海马体theta波强度变化。左侧还是单词、语法概念的学习，属于陈述性记忆，在NREM中加强。右侧已经有长程范式，属于程序性记忆，需要REM睡眠。来自，孟彦铮

一个造新词的例子来自人工智能领域。当英伟达1999年把新的芯片产品定名为GPU（图形处理单元），来接近早已为人熟知的CPU（中央处理器）时，该产品尚未具备在下一代芯片中才实现的对外部开发者开放的可编程功能。这一简单明了的新词在营销上显然是成功的，而产品的发展进一步加强了GPU与CPU之间的对比，在人们脑海中也是从新生的赫布学习（新生树突棘以NMDA谷氨酸受体为主）过渡到成熟的反赫布学习（区分概念，成熟树突棘以AMPA谷氨酸受体为主）的过程。

图36.3 阅读任务中代词与名词对应相同的海马神经元激活。（A）两个句子，逐个单词显示。（B）受试的22位癫痫病人回答准确率分布。（C）海马体插入的电极分布。（D）对应Shrek的神经元示例。（E）对读到Shrek有反应的一个神经元，在随后读到He时也有反应；如果性别不对，为She，则没有反应。来自[3]。

从一连串听到的语音中切出单词（分词）依赖于转移概率（在几个备选路径中选择最大似然），狗也可以被训练执行此操作[5]。我们在本书强化学习的第31节讲到，小鼠腹侧被盖区（VTA）多巴胺的释放最初会把有效行为前几秒的行为也标记，其后才逐步确认哪个才对[6]。语言的强化学习中，可能也有类似的试错与聚焦过程。其中可用于识别的特征，例如每个单词开头的辅音比单词中的辅音更长[7]。更高抽象层级的任务，如断句（给句子加标点）也可推测基于类似的机制，只是在更大尺度的网格细胞上进行。一些语法规则可能类似于算术运算（例如单数复数对应动词不同）（图36.2）。来自大脑皮层神经元的单词和语法规则，可能也被组合成类似网格细胞的模式，以对抗生成网络的方式（GAN，第27节，图32.2）产生句子。至少对于第二语言来说，这些表征语法规则的神经元可能还需要能经常听到对应规则的句子，以免对应的突触被其他更健壮的树突棘抢占，而记不清语法规则；或者说规则都只剩个大概，以至于真要说的时候会错误百出。

正如我的高中英语口语老师朱莉娅所说，当一个人开始用英语做梦时，才能真正流利地说英语。在记忆了所有零散的信息[8]后，（内嗅皮层-）海马的θ波以及表现为尖波涟漪的精确突触活动很可能呈现出自然流畅的语言表达（图36.2）。这种流畅的表达伴随着习得的长程模式——类似于鸟类鸣唱的模式（图35.3），并与呼吸协调同步。

海马体theta波可能还有助于更古老功能的协调，例如脑干控制的呼吸节奏和发声音量（图35.1）。我们在上一节的小鼠研究中就看到了发声与呼吸的协调。从婴儿的哭声到话语，发声需要在呼吸间调节节奏[9] 。音节以4-8赫兹的速率产生，与海马theta波的频率相同[10，11]。

对话的社交性，还使得抢话与冷场都是尴尬的。我们花一秒钟或更长时间来计划要说什么，并在对话中保持约0.2秒的间隙[12, 13, 14]。这种计划与节奏，预计也需要屏状核-MEC-海马与大脑皮层间的信息交互，以生成对接下来准备要说的单词和句子的工作记忆和发声准备。不仅是自己要说的话，配合作的手势，以及听众的反应都可能占据一些工作记忆（或者说图32.5的全局工作空间），不同步骤之间的切换也需要海马体的协调。

说话时听觉皮层的后部（/尾部）活跃，而前部（/头部）的活动被抑制（图36.1）[8]。估计这也属于注意力，不忙着说才能好好听。海马体神经元的位置场也是前部比后部更大的。

以上种种，可能决定了说话时海马theta波的节奏慢不下来，占据的工作记忆与能耗也减不下来。另一方面，阅读的过程可能是一个非社交的，可以慢下来的过程。从世界范围来看，口头语言形成书面语言的概率并不高。

我们前文讲到猴子在图片上找一个红点过程中的眼动轨迹，它眼睛注视的位置在搜寻时的步长和角度变化上呈现探索行为 [15]（图36.4）。这种二维平面上的视觉网格[15,16,17]，可能在人类书面语言的阅读中起作用。

除了语言中的既定语法模式外，我们讲故事的方式也有助于读者找到和创建适当的哈希（图4.11），例如基于人物或对象、时间和空间，以存储新信息。例如，《自然》杂志上的一篇新闻文章以“在老挝北部的一个洞穴中发现的一枚化石化牙齿可能属于一个年轻的丹尼索瓦女孩，她在164,000到131,000年前死亡。如果得到证实，这将是第一个化石证据，证明丹尼索瓦人——一种与尼安德特人和现代人类共存的灭绝人类物种——生活在东南亚。”[18]。对于那些之前没有保存过丹尼索瓦人，但知道尼安德特人的读者来说，提到尼安德特人和现代人类有助于将不太为人所知的人类物种丹尼索瓦人归入其中。这个年代数字足够久远，但提到年轻女孩可能我们也都能通过自身经历过的人和事来生成一些想象。

所谓“一目十行”。当有了先验知识，可以让人在速读时能把握一段文字的含义，并在必要时深入研究细节。从这个角度来看，流畅的阅读涉及较大的网格。

但海马体表面的前后切换对应的网格切换应当是必要的。比如网格过大时容易认错字。后海马区的细胞更接近视觉皮层，这也是本书开头讲到的节约布线的体现，可能是相邻模块功能演化中天然的互相拟合。

图36.4 猴子在视觉探索任务中，网格细胞参与状注意力转移。猕猴（Macaca mulatta）m1-m3被植入了铂/钨多芯四极管，植入到海马CA3/DG区域；m4使用125和200微米钨微电极进行每日记录，轨迹瞄准CA3/DG和CA1/亚侧皮层。使用基于视频的眼动追踪记录眼球运动。（A）在包含海马尖波涟漪（SWRs，第4.4节；第5章）的成功试验中搜索期间的四个扫描路径示例（继续）用颜色渐变表示固定（圆圈）和扫视（线条），根据扫描路径（蓝色，试验开始；黄色，试验结束），用圆圈大小表示固定持续时间。最近的尖波涟漪事件在时间上与固定点相邻，用红色轮廓表示，用红色仅表示相邻的固定点和扫视。尖波涟漪事件发生时的搜索时间，以及搜索目标被检测到的总时间，显示在每个图像下方。尖波涟漪事件期间的固定持续时间比非尖波涟漪事件固定持续时间长约40毫秒，这在典型的搜索固定持续时间内，更符合局部搜索策略而非全局搜索策略。此外，扫视幅度较小，也与局部搜索一致。（B）尖波涟漪事件发生，作为扫描路径距离的函数，从指向目标位置的固定点。分别显示成功或不成功的试验（命中，红色；未命中，蓝色）的分数发生率。与目标固定点同时发生的尖波涟漪事件，显示在中间组，比未命中的命中更多。对于给定的检测类型（命中/未命中），与目标固定点窗口之前和之后的非同时尖波涟漪事件的百分比（九个固定点）与与目标固定点同时发生的尖波涟漪事件的百分比进行比较。图片来自[15]，图18.3复用。

我们在视觉章节（图11.4）讲到的大脑识别面部及物体的脑区，不同神经元或尖或圆的偏好，可能在认字时也适用。

一些字母及中文的字体相比另一些可能更容易识别（例如繁体汉字[19]、阿拉伯语小标（图36.5）），这可能从图像角度是一些可量化的指标（例如图36.6, [20]）。

图36.5 阿拉伯语字母表，主写辅音，元音小标。

已知精神分裂症和帕金森病等疾病患者在视网膜中存在异常，表现为视觉处理能力受损[21]。精神分裂症与较低的教育成就有遗传联系[22, 23]。这暗示了视觉和教育的潜在关系，尽管精分的发病通常在成年而非接受教育的少年时间。

视觉解码系统可能需要为每种字母或象形文字进行训练，分配并调整一个个神经元的偏好（图36.5，图36.6）。猫头鹰视觉皮层的第2与3层神经元接收来自一只或两只不同眼睛的输入并进行混合[24]。左右视觉皮层需要相互通信以识别对称字母，如“w”[25]，左右视觉皮层的综合可能涉及通过丘脑的投射[26]。

图36.6 流形几何、费雪信息和互信息之间的关系。示例模拟说明了一个一维刺激空间被六种不同的神经编码（A-F）编码的情况。神经网络只包含两个神经元，它们的活动定义了每个部分的水平和垂直维度。对于刺激空间中30个等间距的点，平均响应以红色点表示。神经响应流形是一条连续的线（未显示），它穿过红色点。背景中显示了对于刺激空间均匀先验的响应分布（灰色）。神经噪声（这里是高斯和各向同性的）在（A-C）较低，而在（D-F）较高。流形几何和噪声决定了每个刺激的费雪信息（FI）、总FI和刺激与响应之间的互信息（MI，由熵定义）（详见参考文献51）。考虑具有调谐函数fi(θ)和独立高斯噪声的n个神经元，FI是响应模式相对于刺激变量θ的梯度的平方范数。总FI与流形的长度成正比，与噪声的标准偏差成反比。所有编码（A-F）的流形长度相同。低噪声编码（A-C）的总FI为30，高噪声编码（D-F部分）的总FI为6。在每个噪声水平内，FI相同，而几何形状和MI发生变化。这反映了FI测量流形上的可分辨性，而几何形状和MI测量所有刺激之间的可分辨性。折叠流形（C、F）使得相反岸的刺激变得有些难以区分，降低了MI，但不影响FI。因此，FI不能决定几何形状或MI。数值（每个部分的右下角）显示了MI和总FI。来自[20]。

对健康人类受试者在矩阵推理测试（正确填充数字矩阵缺失的那个数字）中大脑活动的fMRI数据分析，确定了与此种智力测试成绩相关的脑区，该区域包括多个在语言使用中起作用的区域，作者认为受试者在推理任务中使用了默念[27]。当我们阅读一本书时，我们可能也会使用这些语言区域，伴随着更多的记忆回放和想象力。

Language extension https://www.science.org/doi/10.1126/science.ade7981

了解了语言的神经基础，对于我们更好地学习、研究，甚至更新拓展[28]语言是否有帮助呢？相比当前人工智能研究的堆层数，语言的长程模式对应了哪些可以归纳的网格呢？

参考文献：

[1] Ardila, A., Bernal, B. & Rosselli, M. How localized are language brain areas? a review of brodmann areas involvement in oral language. Arch. Clin. Neuropsychol. 31, 112–122 (2016).
[2] K, Thompson, Gibbings A, Shaw J, Ray L, Hébert G, De Koninck J, and Fogel S. 2021. “Sleep and Second-Language Acquisition Revisited: The Role of Sleep Spindles and Rapid Eye Movements.” Nature and Science of Sleep 13 (October): 1887–1902. https://doi.org/10.2147/NSS.S326151.

[3] Dijksterhuis, D. E., Self, M. W., Possel, J. K., Peters, J. C., van Straaten, E. C. W., Idema, S., Baaijen, J. C., van der Salm, S. M. A., Aarnoutse, E. J., van Klink, N. C. E., van Eijsden, P., Hanslmayr, S., Chelvarajah, R., Roux, F., Kolibius, L. D., Sawlani, V., Rollings, D. T., Dehaene, S., & Roelfsema, P. R. (2024). Pronouns reactivate conceptual representations in human hippocampal neurons. Science, 385(6716), 1478–1484.

[4] Johnson, Elliott Gray, Lindsey Mooney, Katharine Graf Estes, Christine Wu Nordahl, and Simona Ghetti. 2021. “Activation for Newly Learned Words in Left Medial-Temporal Lobe during Toddlers’ Sleep Is Associated with Memory for Words.” Current Biology 31 (24): 5429-5438.e5. https://doi.org/10.1016/j.cub.2021.09.058.

[5] Boros, Marianna, Lilla Magyari, Dávid Török, Anett Bozsik, Andrea Deme, and Attila Andics. 2021. “Neural Processes Underlying Statistical Learning for Speech Segmentation in Dogs.” Current Biology 31 (24): 5512-5521.e5. https://doi.org/10.1016/j.cub.2021.10.017.

[6] Tang, J.C.Y., Paixao, V., Carvalho, F. et al. Dynamic behaviour restructuring mediates dopamine-dependent credit assignment. Nature 626, 583–592 (2024). https://doi.org/10.1038/s41586-023-06941-5

[7] Blum, F., Paschen, L., Forkel, R. et al. Consonant lengthening marks the beginning of words across a diverse sample of languages. Nat Hum Behav 8, 2127–2138 (2024). https://doi.org/10.1038/s41562-024-01988-4

[8] Ullman, M T, and Michael T. Ullman. 2001. “A Neurocognitive Perspective on Language: The Declarative/Procedural Model.” Nature Reviews. Neuroscience 2 (10): 717–26. https://doi.org/10.1038/35094573.

[9] Wei, Xin Paul, Matthew Collie, Bowen Dempsey, Gilles Fortin, and Kevin Yackle. 2022. “A Novel Reticular Node in the Brainstem Synchronizes Neonatal Mouse Crying with Breathing.” Neuron 110 (4): 644-657.e6. https://doi.org/10.1016/j.neuron.2021.12.014.

[10] Ghazanfar, Asif A, and Daniel Y Takahashi. 2014. “The Evolution of Speech: Vision, Rhythm, Cooperation.” Trends in Cognitive Sciences 18 (10): 543–53. https://doi.org/10.1016/j.tics.2014.06.004.

[11] Guilleminot, Pierre, and Tobias Reichenbach. 2022. “Enhancement of Speech-in-Noise Comprehension through Vibrotactile Stimulation at the Syllabic Rate.” Proceedings of the National Academy of Sciences 119 (13): e2117000119. https://doi.org/10.1073/pnas.2117000119.

[12] Norman, Yitzhak, Erin M. Yeagle, Simon Khuvis, Michal Harel, Ashesh D. Mehta, and Rafael Malach. 2019. “Hippocampal Sharp-Wave Ripples Linked to Visual Episodic Recollection in Humans.” Science (New York, N.Y.) 365 (6454): eaax1030. https://doi.org/10.1126/SCIENCE.AAX1030.

[13] Castellucci, Gregg A., Christopher K. Kovach, Matthew A. Howard, Jeremy D. W. Greenlee, and Michael A. Long. 2022. “A Speech Planning Network for Interactive Language Use.” Nature 602 (7895): 117–22. https://doi.org/10.1038/s41586-021-04270-z.

[14] Jasmin, Kyle, César F. Lima, and Sophie K. Scott. 2019. “Understanding Rostral–Caudal Auditory Cortex Contributions to Auditory Perception.” Nature Reviews Neuroscience 20 (7): 425–34. https://doi.org/10.1038/s41583-019-0160-2.

[15] Leonard, T. K., J. M. Mikkila, E. N. Eskandar, J. L. Gerrard, D. Kaping, S. R. Patel, T. Womelsdorf, and K. L. Hoffman. 2015. “Sharp Wave Ripples during Visual Exploration in the Primate Hippocampus.” Journal of Neuroscience 35 (44): 14771–82. https://doi.org/10.1523/JNEUROSCI.0864-15.2015.

[16] Killian, Nathaniel J., Michael J. Jutras, and Elizabeth A. Buffalo. 2012. “A Map of Visual Space in the Primate Entorhinal Cortex.” Nature 491 (7426): 761–64. https://doi.org/10.1038/nature11587.

[17] MLR, Meister, and Buffalo EA. 2018. “Neurons in Primate Entorhinal Cortex Represent Gaze Position in Multiple Spatial Reference Frames.” The Journal of Neuroscience : The Official Journal of the Society for Neuroscience 38 (10): 2430–41. https://doi.org/10.1523/JNEUROSCI.2432-17.2018.

[18] Kreier, Freda. 2022. “Ancient Tooth Suggests Denisovans Ventured Far beyond Siberia.” Nature 605 (7911): 602–3. https://doi.org/10.1038/d41586-022-01372-0.

[19] Tsu, Jing. 2022. Kingdom of Characters : The Language Revolution That Made China Modern. Riverhead Books.

[20] Kriegeskorte, N. & Wei, X.-X. Neural tuning and representational geometry. Nat. Rev. Neurosci. 22, 703–718 (2021).

[21] Silverstein, Steven M, and Richard Rosen. 2015. “Schizophrenia and the Eye.” Schizophrenia Research. Cognition 2 (2): 46–55. https://doi.org/10.1016/j.scog.2015.03.004.

[22] Trampush, J W, M L Z Yang, J Yu, E Knowles, G Davies, D C Liewald, J M Starr, et al. 2017. “GWAS Meta-Analysis Reveals Novel Loci and Genetic Correlates for General Cognitive Function: A Report from the COGENT Consortium.” Molecular Psychiatry 22 (3): 336–45. https://doi.org/10.1038/mp.2016.244.

[23] Hellard, Stéphanie Le, Yunpeng Wang, Aree Witoelar, Verena Zuber, Francesco Bettella, Kenneth Hugdahl, Thomas Espeseth, et al. 2017. “Identification of Gene Loci That Overlap Between Schizophrenia and Educational Attainment.” Schizophrenia Bulletin 43 (3): 654–64. https://doi.org/10.1093/schbul/sbw085.

[24] Scholl, Benjamin, Clara Tepohl, Melissa A. Ryan, Connon I. Thomas, Naomi Kamasawa, and David Fitzpatrick. 2022. “A Binocular Synaptic Network Supports Interocular Response Alignment in Visual Cortical Neurons.” Neuron 110 (9): 1573-1584.e4. https://doi.org/10.1016/j.neuron.2022.01.023.

[25] Mesulam, M. 1998. “From Sensation to Cognition.” Brain 121 (6): 1013–52. https://doi.org/10.1093/brain/121.6.1013.

Shepherd, Gordon M.G., and Naoki Yamawaki. 2021.

[26]“Untangling the Cortico-Thalamo-Cortical Loop: Cellular Pieces of a Knotty Circuit Puzzle.” Nature Reviews Neuroscience 22 (7): 389–406. https://doi.org/10.1038/s41583-021-00459-3.

[27] Fraenz, Christoph, Caroline Schlüter, Patrick Friedrich, Rex E. Jung, Onur Güntürkün, and Erhan Genç. 2021. “Interindividual Differences in Matrix Reasoning Are Linked to Functional Connectivity between Brain Regions Nominated by Parieto-Frontal Integration Theory.” Intelligence 87 (July): 101545. https://doi.org/10.1016/j.intell.2021.101545.

[28] Brochhagen T, Boleda G, Gualdoni E, Xu Y. (2023) From language development to language evolution: a unified view of human lexicon creativity.” Science. 381:431-436.

话题：