学习就是像科学家一样推理
脑是怎么选择最佳假设的?外部世界的模型应该基于怎样的标准来被接受或被拒绝?事实上,有一个理想策略来回答这些问题。此策略的关键在于近些年发展出的一些有效学习理论的核心,即“脑像一个刚出道的科学家一样行事”这一假设。根据这个假设,学习就是像一个优秀统计学家一样在几个备选理论中选择正确率最高的一个,因为它最能解释既有数据。
科学推理的原理是什么?当科学家构建一个理论时,他们不只是写下数学公式,还要做预测。一个理论的优势在于其原始预测的丰富性。随后对这些预测的确认或推翻决定了这个理论的有效或失败。研究者会运用一个简单逻辑:陈述几个理论,揭示他们的一系列预测,然后排除那些预测不被实验和观察确证的对应理论。当然,单一实验不足以论证,为了区分真实结果与误差,不同实验室进行几次复制实验通常是必要的。重述哲学家卡尔·波普(Karl Popper)的话:随着一系列推断与驳斥对一个理论的推进性完善,无知就会逐渐衰落。
科学缓慢的进展与我们的学习相似。随着我们的脑通过观察越发准确地构建关于外部世界的理论,每个人思想里的无知会逐渐消退。但是,“孩子是刚出道的科学家”难道不是一个模糊的比方吗?不,它实际上是一个关于人脑如何运作的精准表述。而且,在过去的30年间,“刚出道的科学家”这个假设引领了一系列关于儿童如何推理和学习的重大发现。
数学家及计算机科学家很早以前就已经从理论上说明了在不确定性面前推理的最佳方式。这一精准理论被称为“贝叶斯”,是以其发明者托马斯·贝叶斯的名字命名的。贝叶斯是一位英国长老教会的牧师,也是一位数学家,后来成为皇家学会的成员。或许我们得称这个理论为“拉普拉斯式理论”(laplalian theory),因为是伟大的法国数学家皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)将其第一次正式推出的。不论它的古老源头为何,这个观点直到最近20年才开始获得认知科学及机器学习领域的重视。越来越多研究者开始意识到,只有扎根于概率理论的贝叶斯理论才能确保从每个数据点中提取信息的最大化。学习就是要从每一个观察中提取尽可能多的推断,即使这个推断是很不确定的。而这正是贝叶斯理论管用的原因。
贝叶斯和拉普拉斯究竟发现了什么?简单来说,推理的正确方法就是通过概率来推理,从而追溯每个观测结果最有可能发生的原因,无论观测结果多么微小。让我们先回到逻辑的基础。古时起,人类就已经知道如何基于真相进行推理,真或假。亚里士多德发明了被我们称为三段论的推理准则,我们或多或少都会通过直觉运用它们。比如,modus tollens(10)(直译为“否定的方法”)认为,如果由P可以推出Q,而Q被发现是假的,那么P一定也是假的。这就是福尔摩斯在《福尔摩斯探案集·银色马》(Silver Blazer)中所使用的原理。
“还有其他什么地方需要我注意的吗?”伦敦市警察厅的格雷戈里警官问道。
福尔摩斯:“我很好奇当晚那只狗干了什么。”
格雷戈里:“那只狗那天晚上什么都没做。”
福尔摩斯:“那正是有趣的地方。”
福尔摩斯推断,如果那只狗看到了陌生人,那他一定会叫。由于他没有叫,犯罪者就一定是狗熟知的人……推理帮助这位知名侦探缩小了搜索范围并最终揪出了罪犯。
“这与学习有什么关系?”你也许会这样问。好吧,因为学习也像侦探推理一样,为了能推导出最能解释现象的模型,它需要追溯隐藏的源头。但在现实世界里,观察从来无关对错,它们具有不确定性和概率。这也正是贝叶斯和拉普拉斯的核心贡献所在。贝叶斯理论告诉我们如何以概率来推断,当数据不完美、对错有一定概率时,我们必须运用什么样的三段论。《概率论:科学的逻辑》(Probability Theory: The Logic of Science)是统计学家杰恩斯(E. T. Jaynes)写的关于贝叶斯理论的一本非常好的著作22。他在书中展示了所谓的概率不过就是我们对不确定性的表达罢了。这个理论用精确的数学理论表述了当我们进行新的观察时,不确定性的演绎所必须遵从的规则。它是逻辑在概率和不确定性领域中的完美延伸。
下面这个例子与贝叶斯在18世纪建立其理论时所用的例子相似。假设我看到某人投掷一枚硬币,这个人用的是普通硬币,没有作弊,那么投掷出字面或花面的可能性就是平等的,即50对50。根据这个前提,古典概率理论告诉我们如何计算观察到一定结果的概率(比如连续获得5次花面的概率)。贝叶斯理论则让我们穿越到相反的方向,从结果反推原因。它用数理知识精确地告诉我们如何回答“几轮投掷过后,我应该改变对硬币的看法吗”这样的问题。原始假设是,这个硬币是“公正”的……但是,如果我观察到已经有20次都投出了花面,我就得修改我的假设:这个硬币基本上可以肯定是被动过手脚的。很明显,我的原始假设已经变得不可能,但是有多不可能呢?这个理论准确解释了如何在每次观察后更新我们的观点。每个假设都被附上一个与可能性或置信等级相对应的数值。对每一次观察来说,这个数值会根据观察结果的不可能性程度而改变一个数值。就像在科学中,一次实验性观察的不可能性越高,它就越发违背最初理论的预测,我们便能更自信地推翻这个理论并寻找其他解释。
贝叶斯理论是非常有效的。第二次世界大战期间,英国数学家艾伦·图灵(Alan Turing)曾用贝叶斯理论来破解恩尼格码。那时,德国军事信息用恩尼格码密码机加密,它是一个由齿轮、转轴及有线电组成的复杂精细仪器,可以制造出上亿种不同字母组合。每天早晨,编码者会按照当天长官的特殊指令编码,恩尼格码密码机就会形成一组字母排列,只有拥有加密口令的人才会解码。对其他人来说,这组字母看上去完全没有顺序可言。图灵的聪明之处就在于:他发现如果两台机器的初始设定是一样的,输出的字母分布就只有些许差异,这个差异非常小,以至于没有任何单一字母能得出确切结果。然而,通过大量积累这些不可能性,在对比一个又一个字母之后,图灵得以搜集越来越多证据证明被使用了两次的是同一设定。基于此,加上当时被称为“炸弹”(电脑的前身,一个大型的、发出滴答声的电子机械设备)的装置的帮助下,他和他的团队频繁破解了恩尼格码。
这与我们的脑又有什么关系呢?有,因为同一种推理似乎也发生在大脑皮层中。23根据贝叶斯理论,脑的每个区域会构建一个或多个假设并将对应的预测发送到其他区域。这样,每个脑模块会通过交换关于外部世界的概率性预测信息,限制下一个脑模块的假设。这种信号处理方式被称为“自上而下”,因为它们始于高层级的脑区,比如前额叶皮层,然后向下到达低层级的感觉区域,比如初级视皮层。这个理论认为,这些信号就是脑认为可行的并且愿意去测试的假设。
在感觉区域,这些自上而下的假设会与来自外部世界的“自下而上”的信息,比如从视网膜进入的信息碰面。这时,模型会与现实相切磋。贝叶斯理论认为脑应该计算出一个误差信号,即模型预测出的与实际观察结果之间的差异。然后,贝叶斯理论会指出如何使用这个误差信号来改善关于外部世界的内部模型。如果没有错误,就意味着这个模型是正确的。否则,误差信号会将脑区链提升并调节模型的参数。很快地,这个运算就会整理出一个符合外部世界的心理模型了。
根据这个关于脑的观点,成人的判断包括两个层级的观点:人类物种天生具备的知识(贝叶斯派学者称之为先验,通过进化继承的一系列可能假设),以及我们个人掌握的知识(后验:基于生命中积累的所有推理,修正后的先验假设)。这个观点终止了关于“先天与后天”的经典争论。脑的结构为我们同时提供了有力的始发工具和同样强大的学习机能。所有知识都必须基于两个部件:一是我们与环境互动前就存在的一组先验假设;二是一旦我们经历过真实数据,就能够根据后验可能性来区分这些先验假设的能力。
我们可以从数理的角度来阐释贝叶斯理论是最佳的学习方法。它是提取学习情境的核心及从中获得最多信息的唯一方法。哪怕只有一点儿信息,就像图灵从恩尼格码中发现的可疑巧合一样,也足够学习了。一旦系统开始处理信息,就像一个优秀统计学家耐心收集数据一样,最终都必然会带来足够的数据以推翻一些理论,以及证实另一些理论。
脑真的是这样工作的吗?它能够从出生起就提出大量的假设并学习从中进行选择吗?它会根据观察到的数据有多符合假设来对其进行消除和选择吗?婴儿从出生起就像聪明的统计学家一样吗?他们会从每次学习经验中提取尽可能多的信息吗?让我们来近距离探究一下关于婴儿脑的实验数据。