历史上最引人注意的正确预测来自英国天文学家埃德蒙·哈雷,他在1705年曾经预测,一颗巨大的彗星会在1758年回归。曾经有很多人怀疑过他的预测,但彗星恰恰就在1758年回归了。在古代,彗星被视为上帝赐予的完全无法预测的事物,如今却成了有规律且可预测的事物。
天文学家预测,哈雷彗星下一次最接近地球的时间是在2061年7月28日,到那个时候,现在困扰着我们的自然界的许多预测难题,都会在我们的知识范围内了。
自然法则并没有改变多少,只要人类知识不断积累(自从古腾堡的印刷机问世以来确实是这样),即使不能完全领悟大自然的奥秘,我们对大自然中信号的理解也会逐渐加深。
然而,如果说科学与技术是本书的主角,那么在大数据时代,人们对科技所能完成的事恐怕过于乐观了。
没有理由认为人类活动越来越可预测,同样也没有理由认为人类活动越来越不可预测。科学使得社会变得明朗,但科学同样也使得社会组织变得更加复杂。技术完全改变了人们彼此之间的联系。1990年发明万维网的蒂姆·伯纳斯·李对我说:“正因为有了互联网,整个环境、所有方程式、所有信息的动态传播都发生了变化。”
大量的信息成倍增加,但有用的信息却非常有限,信号的比例正在缩小,我们需要找到更好的方法对信号和噪声进行区分。
本书讨论我们已知的部分较少,讨论更多的是已知与未知之间的差异,并向人们推荐了缩小鸿沟的策略——人们既需要迈出重大转变的步子,同时也得走好细微谨慎的步子。而重大的一步就是要求大家采用贝叶斯关于预测的概率式思考方法。
以概率的方法思考问题
贝叶斯定理的开始和结束,都是以对真实世界可能性的盖然论表达出来的。贝叶斯定理并不要求每个人都相信这个世界从本质上来讲就是不确定的,这一定理提出的时候正是牛顿运动定律成为科学典范的时候。然而,贝叶斯定理却要求人们接受这样的观点,那就是人对这个世界的主观看法确实是十分接近真相的。
贝叶斯定理主张的概率式思考方法,起初可能会让人感到有些不舒服。除非是玩牌或其他概率性游戏,否则人们不会以概率的方法思考问题。例如在数学课上,人们花在几何和微积分这样的抽象学科上的时间要大大多于花在概率论和统计学上的时间。而在现实世界的各行各业里,不确定性甚至会被误认为是不自信的表现。
当你第一次对概率进行预测时,可能不会特别准确。但有两条利好消息:第一,这些预测只是一个开始,当你得到新信息时,贝叶斯定理会指导你对你的预测进行修正。第二,有证据表明,我们可以通过学习识别各种信号改进预测。例如,军队有时就会使用这些技术训练士兵,效果相当不错。医生也会用贝叶斯定理进行医疗诊断。
与电视专家相比,效仿医生和士兵的方法可能会更好一些。
大脑在处理信息时使用的是近似法。与其说这是一种既成事实,不如说它是一种生物必要性:我们察觉到的信息远多于我们有意识进行思考的信息,我们处理信息的方式是按照规律和模式对它们进行分类。
在高度的压力下,生活的规律会慢慢被揭示出来。针对 “9·11”恐怖袭击事件的幸存者作过的一项研究发现,幸存者对他们所经历的事只能回忆起几分钟的细节,但对于“更大的环境”他们几乎完全不记得了。在这样的情况下,第一直觉和第一近似解可能非常不准确,无法意识到威胁的严重性。那些在强压下被迫做出决定的人,如在战场上的人,更容易成为带领其他人脱离险境的英雄。
在日常生活中,大脑也会尽可能地简化事物并求取其近似值。利用既有经验,这些简化和求取近似值的过程会成为有用的向导,构建起我们在日常生活中应用的可操作性知识。这两种方法并不完美,而我们也经常意识不到它们的粗糙性。
仔细思考以下7条陈述,它们与有效市场假说和个人投资者能否击败股票市场有关。每条陈述都只是上述关系的近似值(即粗略说明),但每一条都建立在最后一条的基础上,而且越来越准确。
1.没有哪个投资者能够击败股票市场。
2.长期看来,没有哪个投资者能够击败股票市场。
3.相对于其风险水平而言,长期看来,没有哪个投资者能够击败股票市场。
4.相对于其风险水平而言,考虑到其交易成本,长期看来,没有哪个投资者能够击败股票市场。
5.相对于其风险水平而言,考虑到其交易成本,长期看来,没有哪个投资者能够击败股票市场,除非他有内部信息。
6.相对于其风险水平而言,考虑到其交易成本,长期看来,几乎没有哪个投资者能够击败股票市场,除非他有内部信息。
7.长期看来,有多少投资者能够击败股票市场是一件很难说清的事,因为数据非常嘈杂,但我们知道,相对于其风险水平而言,大多数投资者都无法击败股票市场,因为股票交易存在交易成本,也就不会产生净超额回报。这样一来,除非他有内部信息,投资指数基金或许能有不错的赢利。
第一条陈述,即“没有哪个投资者能够击败股票市场”这条无限制条件的陈述,似乎极为确定。而到了最后一条则充满了不确定性,并不适合用作“车贴”式的标语,但这却是一个对客观世界更加完整的描述。
生活中处处都有近似事物,这很正常。如果你遇到一个对股票一无所知的陌生人,你告诉他,即使是在第一条陈述所描述的无限制条件的情况下,人们也很难击败股票市场,知道这一点也比一无所知好得多。
但是,一旦我们把近似误认作现实,问题就出现了,菲尔·特罗克提出的刺猬型专家就是这样。越简单的陈述似乎越符合一般情况,越能证明更加伟大的真相或是理论。然而,特罗克发现,刺猬型专家很不擅长作预测,他们总会遗漏所有能够使生活更加真实、使预测更加准确的点点滴滴。
我们的大脑有智慧,但我们生活的宇宙更是大得令人费解。以概率的方法思考问题的优点是,我们可以借这种方法强迫自己停下来,查出数据,放慢速度,仔细思考自己想法的不足之处。随着时间的流逝,我们会发现概率法会使我们的决定更加合理。
知道自己的观点源于何处
贝叶斯定理要求我们在权衡各种迹象之前,就要指出——并且是明确地指出——这一事件发生的可能性有多大。这种预测被称作“初始观点”。
我们的初始观点从何而来呢?从理论上讲,我们希望将初始观点建立在过去的经验——最好是社会经验——的集合之上。这是市场可以扮演的有用的角色之一。市场当然不是完美无瑕的,但绝大多数时间内群体判断都要优于个体判断。市场在权衡新迹象的时候形成了一个好的起点,在你还没有在某个问题上花费太多时间的情况下,尤其如此。
当然,市场并不适用于所有情况,将一些个案挑出来作为默认情况也是很有必要的。即使是常识,也可以作为贝叶斯定理的前提条件,与容易轻信的统计模型的输出结果进行比对。(这些统计模型虽然看似可以保证数学精确性,但其给出的都是近似结果,而且非常粗糙。)信息只有在恰当的环境下才会成为知识,没有环境,我们就无法从噪声中区分信号,我们对真相的追寻也会陷入错误判断的泥潭。
贝叶斯定理不能接受的,就是你假装自己没有任何初始观点的做法。人们应该努力减少偏见,但如果你说一点儿偏见都没有,反而暗示了你有很多偏见。预先陈述自己的观点——如“我的观点正源于此”——是诚信预测的方式,由此也可以认识到,我们对事实的感知是经过主观过滤的。
在不断的试错中进步
不断犯错,不断尝试,这或许是贝叶斯定理应用起来最容易的一个原则了:进行大量的预测。你可能不会将自己的公司或是生活赌在预测上,尤其是刚起步的时候,但这是唯一能够让自己取得进步的方式。
贝叶斯定理告诉我们,任何时候获得新信息,我们都应该更新自己的预测。简单地说就是,不断犯错,不断尝试。真正“拥有”大数据的公司,比如谷歌公司,并不会在建立模型的问题上花费太多时间。它每年会进行上千次实验,并在真正的客户身上检验它的想法。
贝叶斯定理鼓励我们权衡新信息时要遵守规律。如果我们的想法确实有价值,我们就应该建立可以证伪的假设来验证它们,并且将它们应用于预测当中。大多数时候,我们意识不到数据是多么嘈杂,所以对于最新的数据我们总是强加了太多个人偏见。政治记者经常会忘记,他们所报道的民调会存在误差幅度,而金融记者总是不能很好地向公众传达大多数经济统计数据是多么不精确。制造新闻的人往往是局外人。
但是,当我们在解决某个问题时,个人情感过多或是过于专业化,当事实发生改变而我们却无法改变时,就可能会产生相反的偏见。如果某个专家属于刺猬型,那么当数据与他的世界观不一致时,他可能会因为过于骄傲而不去改变自己所作的预测。各党派支持者总是期望他们的每个想法都能印在保险杠贴纸上,在他们承认自己对事实进行了过分简化之前,会经历各种错误。
验证想法的频率越高,就能越早地避开这些问题。眺望大海,等待着灵感迸发,想法就出现了,这是电影里才会有的情节。在真实世界中,即使已经准备就绪,想法也很少会出现,“大”想法就更不用说了。更加常见的情况是,我们只能凭借微小的、渐进式的,有时甚至是偶然出现的想法取得进步。
对可预测性的认知能力
预测之所以难做与其之所以重要的原因是一样的:预测是主观事实与客观事实交汇的产物。从噪声中区分信号既需要科学知识,也需要自知之明,比如,平静地承认我们无法预测的事物、勇敢地说出我们能够预测的事物,还有就是明智地区分二者的不同。
多年来,对于我们能否预测世界的观点经历了各种兴衰成败。一个简单的衡量标准就是,学术期刊中“可预测性”和“不可预测性”这两个词出现的频率。20世纪之初,这两个词出现的频率相当。“大萧条”和第二次世界大战使得“不可预测”一词占据上风,而等到世界从危机中走出,“可预测性”一词便强势回归,在20世纪70年代达到顶峰。而最近几年,“不可预测性”一词又卷土重来,气势高涨。
对“可预测性”的认知能力受科学思潮和人类短暂的记忆力(比如记性不好的我们常会问,最近发生什么不好的事了吗?)的影响,要多于预测技能中的任何实质性改变对它的影响。我们对自己的预测有多满意和我们的预测准确与否,这两者之间或许是负相关的关系。20世纪50年代,世界仍因为战争而动荡不安,局势相当难以预测,而到了20世纪70年代,人们以为自己能够预测所有事物,但实则不能,这两个10年相比,20世纪50年代的经济和科学生产力更胜一筹。
这些态度的转变所产生的影响,已经远远地超过了学术期刊的影响。如果根据英文小说中“可预测性”和“不可预测性”两个词的使用情况绘制一张图表,可能会与图2所示几乎一致。一个不可预测的灾难,即使对我们不会产生直接影响,也会动摇我们掌握自己命运的信心。
但我们还是倾向于认为我们所作的预测比实际的要好。新千年的前12年里,无法预料的灾难一个接着一个,实在是坎坷连连。我们想在灰烬中重生,不向命运低头,对我们的预测能力就应该多保持谦虚的态度,才能尽量避免重蹈覆辙。