阅读 330

贝叶斯大脑假说:用大脑观察并改变世界

全文共5960字,预计学习时长12分钟
要是你们能够洞察时间所播的种子,知道哪一种会成长,哪一颗不会成长……
《麦克白》,威廉·莎士比亚

生活充满不确定性,以致于无人可以预测未来。布莱士·帕斯卡尔(Blaise Pascal)曾说过:“我们在一个辽阔的区域内航行,四处漂流不定,从这头被推到那头。”没人知道死亡何时会降临,生活何时会变得艰难困苦,何时又会给我们点甜头尝尝。

人这一生,总会在某个时刻明白这个苦涩的道理。尽管如此,在这个未知的宇宙中,人类总能克服困难,将生活过得井井有条。我们砌砖建房,我们将钱存入银行,我们在为自己存下退休金的同时,还给子孙后代留下遗产。我们构成稳定的社会关系,建造纪念碑使生命延续。我们能够感知将要发生的事情并加以控制,这是我们当之无愧的能力。
人类诞生于纷繁复杂、千变万化的进化过程,能够具备上述能力真的是非常伟大。那么,这种从不确定的未来中获得确定感的能力,是怎样发展出来的呢?
贝叶斯大脑假说(Bayesian brain hypothesis)认为,人类行为背后有着一种深层隐性结构,这一结构可以追溯到生命的本质。假说认为,从某种程度上来说,大脑除了预测并实现一个理想的未来外,一无是处。大脑符合生命系统的规则,总是在和自然环境为它们准备的“惊喜”苦战。

图自Unsplash/ Ramón Salinero摄

稳态重要性

稳态(homeostasis)是蕴含在所有生命背后的基本原理。Homeostasis一词是沃尔特·坎农(Walter Bradford Cannon)在1926年根据拉丁文homeo(平等)和stasis(静止)创造。稳态指维持生命系统内部的物理和化学过程,使得生命系统保持完整,防止消散,是一种能够与自然界的无序倾向相抵抗的自组织原则。
安东尼奥·达马西奥(Antonio Damasio)在其著作《事物的奇怪秩序》(The Strange Order of Things)中指出,稳态一词是有误导性的,其含义远远大于静止不动。生命是有自主性的,不会满足于维持当前的功能。假设选定两个具有竞争性的有机体,其中一个满足于当前的生命状态,另一个则会不断优化,以更好地适应未来的生活。那么哪一个有机体有更大的几率存活数亿年呢?如今我们发现,生命总是在无声无息地将自己推向遥远的未来,这是因为生命已经在过去进化出一些特质,能够激励它不断向未来进军。
保持运转,保持呼吸,不断前进。


德尔菲的女祭司/John Collier绘

预测未来
人类千方百计地想要预测并改变未来。在古代,算命是牧师和萨满才能掌握的复杂技艺。最著名的例子莫过于德尔菲神谕(Oracle of Delphi),数百年间希腊政客和罗马帝王都从神谕中寻求建议和讯息。古代政治充满不确定性,当时的人们想要减少这种不确定性,也无可厚非。
但是从现代科学的角度来看,我们已经意识到在恍恍惚惚的状态下,吸入有毒气体或打哑谜对于洞察世界的运作毫无帮助。为了减少未来的不确定性,我们(以及我们的大脑)需要采取一种更加普通的方法,即基于当前对世界的认识,尽可能地对未来作出预测。比如,基于我今天对世界的观察,预测明天将会发生什么,并思考我应该怎样指导自己的行为,使得结果更加有利于生存。
贝叶斯定理
当今备受尊崇的托马斯·贝叶斯(Thomas Bayes)在18世纪提出了这个简洁、不起眼的定理。这一定理在他在世时并未发表,但之后却在各个领域发挥出巨大的作用。贝叶斯定理真的非常简单,但这并不妨碍它成为当代认知科学最炙手可热的理论之一,给贝叶斯这一名字带来荣誉。
下图展现了正在闪着蓝光的贝叶斯定理:

贝叶斯定理

贝叶斯定理指出,有随机事件A和B,在B发生的情况下A发生的可能性P(A|B)等于,在A发生的情况下B发生的可能性P(B|A)乘以A发生的可能性P(A),再除以B发生的可能性P(B)。
贝叶斯定理使得我们能够根据已知的相关事件发生的概率推算出某件事情发生的概率。
读者可能已经猜到为什么贝叶斯定理在预测未来时那么有用了。
贝叶斯定理最常应用于天气预测。天气永远充满不确定性,体现了大自然的残酷。

图自Unsplash/Elliott Engelmann摄

假设你在散步时出于某种原因迷失在了一片干燥炎热、一眼望不到头的沙漠里。由于你原本只打算出门去公园散散步,所以只带了一小瓶饮用水。在沙漠中困了三天之后,你非常口渴。清晨,你抬头望向天空,细细搜寻云彩,最后在地平线上方看到了一小片云。
那么这一片云带来降雨、将你从渴死的边缘拯救回来的几率是多少呢?
这里需要计算的是概率P(降雨|云朵),即在你看到一片云的情况下降雨的条件概率(conditional probability)。为此还需要:
1. P(云朵|降雨):如果某一天是雨天,那么是否从这天开始的时候天空中就有云呢?假设沙漠中80%的雨天都是从多云开始的。这也就意味着很大概率上,雨天是从多云开始的。
2. P(云朵):沙漠中出现多云天气的概率比较低,为10%。
3. P(降雨):降雨的概率更低。沙漠中往往每一百天才会下一次雨,所以降雨的概率为1%。
由此可知,在看到一片云的情况下降雨的概率为:
P(降雨|云朵)=P(云朵|降雨)*P(降雨)/P(云朵)=0.8*0.01/0.1=0.08
那么在看到云之后,你可以得出下雨的概率大概在8%。这只能带来一点小小的安慰,但是聊胜于无。
贝叶斯定理的一个重点在于,在计算想要计算的条件概率时,其他三个概率都是必不可少的。缺少任何一个都将会极大改变计算结果。
假正
贝叶斯定理可以帮助我们纠正假正(false positives),比如当我们假设一件事情能给一个结果提供有用信息时,而这个结果本身不太可能出现,就容易出现误报。与误报相关的一个很著名的例子就是癌症检测(或者其他罕见疾病检测)。
假设某种癌症的患病率为0.1%。你的医生告诉你有一种最先进的癌症检测,在检测已患癌症的病人是否患有癌症时的准确率高达90%。但这种检测也有缺点,就是在实际并未患癌的情况下检测出癌症的概率为9%。
你生性焦虑,于是就想做个检测来缓解不安。你的检测结果为阳性。知道结果的一瞬间,你真的非常害怕。因为你认为这一结果表明你患上癌症的概率为90%。
不,其实并不是这样的。应用贝叶斯定理,你就可以很快推算出你得癌症的真正概率。需要注意的是,在这种情况下,你需要除以得到真正阳性的概率以及得到假正的概率:
P(癌症|阳性)=P(阳性|癌症)*p(癌症)/(p(阳性)*p(癌症)+p(假正)*p(健康))=9.17%
检测结果为假正的概率是结果为阳性、真正患有癌症的概率的十倍,所以你基本不可能患癌,也就无需担心(这其实很难做到,毕竟你是一开始是出于焦虑而做了检测)。
关于独角兽

这不太可能是真的独角兽。图自Unsplash/Andrea Tummons摄

因此,对于任何有兴趣预测未来的人来说,对即将发生的事情的先验概率有一个清楚的了解是非常有用的。
为了判断一件事情(如看见一朵云或一个阳性癌症检测结果)对预测另一件事情(如降雨或患有癌症)能够提供多少有用的信息,我们需要在观察云朵或做癌症检测时,得出降雨或患癌的总体概率。
大脑在分类感官从外界收集的信息的同时,也在不断地判断概率。因此,我们可以猜想一下,为什么大脑的运作过程体现了贝叶斯定理。
比如,你看到一只四条腿的动物在地平线上飞驰的模糊轮廓。那只动物的前额似乎附着一样长而尖的东西。
此时大脑会自动得出“那是一只独角兽”的结论吗?
只要是个正常人,恐怕都不会得出这一结论。因为根据观察到的形状得出观察到了一只独角兽的结论的概率P(独角兽|形状)必须被观察到独角兽的先验概率P(独角兽)赋权。而后者在现存宇宙中为0。
世界的内部模型
如果想要对世界的行为,特别是未来的行为建模,大脑需要有一个“世界是什么”的内部模型,来了解“世界可能成为什么”。
大脑需要能够在接受世界状态的最新信息,如最新样本后,更新世界的内部模型。假设你在日常通勤路上经常见到独角兽。那么在多久之后你会开始怀疑“没有独角兽”这一假设的正确性?或者假设在做癌症检测时,50个得到阳性结果的人当中,有20个真的得了癌症。你是否还会相信上文得出的预测,即只有9.17%的阳性结果表明患者真的得了癌症?
采用统计最优的方法,基于最新信息更新内部模型的概率分布,这就是贝叶斯推理(Bayesian Inference)。
我们通常可以在行为实验中,或关联各个感官输入时,观察到大脑的这种推理。比如,研究表明,在巴甫洛夫的相关刺激实验中,不同刺激之间的互信息是最优的。另一个著名的例子是1992年Britten等人的目视动作分析(https://www.ncbi.nlm.nih.gov/pubmed/1464765)。他们的研究表明,猴子大脑会基于对刺激作出的神经反应或发射率,尝试解码目视动作一致性,其解码速率会向贝叶斯最佳解码速率靠近。
结果显示,大脑的预测方式是可以预测的。
贝叶斯大脑假说
现在我们已经准备好深入了解贝叶斯大脑假说的实际意义了。
贝叶斯大脑存在于外部世界中,并被赋予了外部世界的内部表征。这两者被马尔可夫毯(Markov blanket)隔了开来。
大脑试着利用世界生成模型来推断其感觉的成因。为了成功地对外界建模,大脑必须能够在一定程度上对外界发生的事情进行模拟。Karl Friston认为:
如果大脑想要推断感觉的成因,它必须先对生成感觉输入的世界的(隐性)状态之间随意的关系(联结)建模。在这之后,神经元联结便会对生成感觉信息的随意联结进行编码(建模)。
这就是理解贝叶斯大脑假说的第一个重点,也是很深奥的一点:大脑中的世界内部模型认为,大脑模型中的进程在物理世界中进行。为了成功地预测未来,大脑需要在其硬件上模拟世界。这些过程必须遵循与外部世界相似的随意性,而在观察外部世界的大脑中,一个自身的世界会变得活跃起来。第二个重点与贝叶斯推断相关:即在某种程度上,大脑是最优的,因为人类需要预测自然何时会受到影响。
上文提到,在分类知觉的内容或在不确定的情况下作决定时,贝叶斯大脑的工作水平近似于贝叶斯最优水平。这也就意味着,大脑在推断世界的未来(隐性)状态时,会尽可能多地考虑所有可获得的信息和所有概率约束。
对于所优化的量,有很多种命名。但是和大部分深奥、统一的理论一样,结果表明,对不同事物从不同角度进行优化,最后得到的量都是相同的。有一种方法就是把它看作证据,在信息理论中,这就相当于最大化感知数据和世界内部模型的互信息。
自由能
自由意志热力学一文对Karl Friston的主动推理理论(大致讲述了贝叶斯大脑所作所为的理论)作了更为详细的介绍。
Friston通过最小化自由能来优化一个模型的证据或边缘似然,这一模型则通过最小化“模型的意外”来定义(即最小化不符合世界模型的体验)。
这一理论进一步将主动元件引入了生命系统,如大脑的行为中,使得系统能够在世界中执行动作。也就是说,人类不仅可以描绘未来,还可以通过对世界作用和实现期待来主动改变未来。
Karl Friston认为,主动推理(Active Inference)的缩写为AI(与人工智能Artificial Intelligence的缩写相同)并不是一个偶然。他在一篇文章中表示,“在5到10年内,大部分机器学习都会结合最小自由能”。
这使得我们又想到了上文提到过的达马西奥对稳态的批判:
生命系统并不是静态的,为了将意外最小化,并在充满不确定性的未来中存活下去,它们在世界中不断活动。
意外时间平均能够充当熵的一种度量,这就把最小化自由能与熵联系了起来。Friston认为,这有着影响深远的物理结果:
这意味着,贝叶斯大脑在最大化证据的同时,也在暗中最小化熵。换句话说,贝叶斯大脑与热力学第二定律相违背,并对自然的无序倾向给出了自组织的原则性解释。
因此,贝叶斯大脑假说是关于基本范围的理论。它将大脑的行为与稳态重要性联系了起来,与在一个情愿消散的世界中挣扎求生的生命联系了起来。
如何观察贝叶斯大脑?
一方面,我们需要提出一个涵盖更大范围的理论。另一方面,我们需要从大脑运作方式中找出支持理论的证据。如果大脑的运作方式和贝叶斯大脑一样,我们需要进一步了解大脑是如何进行贝叶斯推理的。
贝叶斯推理发生在多个认知层面,从动作控制到注意力和工作记忆。每一个认知任务都会根据贝叶斯推理得出自己的预测、自己的内部模型以及独一无二的时间表。
预测性编码(Predictive Coding)是尝试理解大脑贝叶斯推理行为的理论中较有前景的一个。预测性编码就是做了贝叶斯大脑应该做的事情。其算法通过改变预测的参数来最小化意外,以防今后需要再次应对同样的情况,从而做好应对未来的准备。研究已经发现了支持该理论的证据,如词汇预测实验中的N400效应(详见:https://www.nature.com/articles/nn1504)。
认知科学认为,大脑并不仅仅是一个消极接受外界信息并对其做出回应的检测器。事实上,大脑采用自上而下的模式,对世界是什么样的,以及世界将会是什么样的作出假设,从而不断更新其对世界的印象(自上而下的模式指高阶概念首先对接受低阶感觉数据的方法进行塑造,如上文独角兽的例子)。研究人员因此已经采取了一个很棒的现实概念,即控制性幻觉(详见Anil Seth的演讲:https://www.ted.com/talks/anil_seth_how_your_brain_hallucinates_your_conscious_reality/transcript)。
一篇文章(https://www.jneurosci.org/content/38/27/6076)描述了先验幻觉最经典的一个例子:如果先朗读了“kick”一词,那么之后会把“pick”误听成“kick”。
幻觉现实用可预见的方式给了我们一种决定性的进化优势,满足了我们想要从混乱复杂的世界中找到结构的迫切需要。
科学家们仍然在激昂地争论这一理论的有效性,以及大脑实际上是如何在功能水平上应用贝叶斯推理的重大问题。任何明确的声明都仍需要进一步的研究。但是本文认为,根据这一理论的合理性和我们目前所有的证据,我们可以相信,我们正走在一条正确的道路上。
我们正在揭开宇宙中最神秘的事物——贝叶斯大脑。这一事物使我们能够观察并改变世界,使我们对未来充满希望。

留言 点赞 关注

我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”


(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)