数据收集:看似简单的难题
按照信息论的观点,要消除不确定性就需要信息,因此信息的收集非常关键。大数据与传统的数据统计方法相比,在收集数据方面有了很大的不同。
首先,传统的数据方法常常是先有一个目的,然后开始收集数据。比如,人们在发现天王星之后,发现它的运动轨迹和牛顿力学预测出来的不一样,于是预测在天王星之外应该有一个质量较大的行星干扰它的轨迹。根据这个设想,天文学家拍了很多星空的照片,想看看有没有一颗位置在移动的、未知的星星,后来找到了,这就是海王星。在大数据时代,在收集数据时常常没有这样预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么结论就是什么结论。正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来很多预想不到的惊喜,也才使得大家觉得计算机变得很聪明了。
在获取数据方面,大数据和传统的统计方法另一个不同点在于,过去我们是通过少量的采样获得所谓具有代表性的数据,这些数据被称为样本。根据统计学的原理,只要样本具有代表性,通过分析这些少量的样本数据,就可以总结出规律性。在过去的几个世纪里,科学家们就是这么做的,不过他们在宣布自己从有限数据中获得的规律性具有普遍意义时,很快便有其他科学家会找到反例,在局部范围内推翻原来的理论。这里面固然有人类认知局限性的原因,也有样本数据太少难以具有代表性的因素。亚里士多德曾经给出一个看似很荒谬的结论“男人的牙齿比女人多”,一些人认为他可能是拍脑子想象出来的,不过作为格物致知的先行者,亚里士多德并非一个说话没有根据的人,他或许是数了几个男人和几个女人的牙齿,恰巧那几个男人的智齿长了出来,而那几个女人的智齿埋在牙龈中,于是他得出了“男人的牙齿比女人多”的结论。这说明,我们常常认为具有代表性的数据,可能并不那么具有代表性。
当然,可能会有读者朋友质疑我对亚里士多德的分析本身就是一种猜测,不能说明人类无法获得具有代表性的数据。但真实世界的情况是,获得足够量的具有代表性的数据远比我们想象的要难得多。回到电视收视率统计,对于收视率较高的几个电视节目,统计结果一般是比较准确的,但是对于那些收视率较低的节目,统计的结果和真实情况相差一两倍是很正常的事情。在Google内,我们也发现类似的现象。我们过去一直采用1%的流量预测用户在搜索某个关键词时所点击的搜索结果,对于常见搜索,这个准确率非常高。但是对于不常见的关键词组合,或者说长尾搜索,搜索结果的概率分布比真实情况相差一两倍是很常见的,甚至有时会相差一个数量级。
当然有人可能会问,你为什么要那么较真,对于那些一天搜索不了几次的关键词,点击数据的准确性差个一两倍又有何妨,而在大部分情况下,传统统计方法得到的结果也不过3%〜5%的误差,是可以接受的。但是,在商业上对这些细节进行准确了解真的很重要,Google和必应(Bing)在搜索质量上的一点点差异就体现在这些细节上。如果统计永远有3%〜5%的误差,我们就无法在多维度上得到可信的统计结果。
大数据则避免了采样之苦,因为大数据常常以全集作为样本集。但是怎样收集到全集就是一件很有挑战的事情了,因为不能再采用过去抽样调查的方式了。比如我们想要了解电视的收视率,我们采用大数据思维,去了解每一个人收视的情况,显然我们不能再采用过去发调查问卷的方式了。事实上,收集到这个数据(全集)最好的方法是通过电视机的机顶盒记录用户的收视情况,当然那些智能电视机也能记录这些信息。如果能够获得这些数据,那么不仅能知道各个电视节目的收视率,还能得知所插播的广告的效果,如果进一步分析,还能够知道每一个观众的特点。因此,这种没有目的性的、全面的数据收集看上去优点非常多。
图5.7 如果一个随机变量呈高斯分布,总有5%左右的样本会落在两倍方差之外
上面的想法固然不错,但是能够通过机顶盒设备和电视机掌握用户数据的只有它们的生产厂商和有线电视运营商,而二者都不会轻易把这个数据分享出来。这便是很多想利用大数据做事的人和公司所面临的困境。因此,数据的收集可以说是一个看似简单的难题。
那么,聪明的公司会怎样解决收集数据的难题呢?最常见的方法就是绕一个弯路,间接地收集数据,然后利用数据的相关性,导出自己所要知道的信息。但是这条路并不好走。
Google是一个重视数据的公司,它很想了解每一个家庭的具体情况。为此,它做了很多尝试,但大部分都失败了。2010年,Google推出了自己的电视机顶盒GoogleTV,为获取数据进入电视广告市场做准备,但是,GoogleTV的销售如此之差,以至于后来每个季度退回来的机顶盒比卖出去的还多。最终Google彻底放弃了这个产品,但是没有放弃收集数据的想法。2014年,Google斥巨资32亿美元收购了只有130名员工、用户数量200万左右、还处在亏损状态的nest公司。该公司的产品是具有自主学习功能和Wi-Fi的智能空调控制器,可以根据人在家里活动的习惯控制空调节省20%左右的电。如果单算经济账,这笔投资不知道猴年马月才能赚回来,或许永远挣不回来。Google之所以花如此高的价格购买nest,最主要的目的是获取每一个家庭的数据。nest智能空调控制器的工作原理是靠跟踪家里人在每一个房间里的活动,比如几点回家,几点看电视,几点吃饭,晚上都待在哪里,什么时候睡觉。在Google收购nest不久,它又花了5.55亿美元的巨资收购了家庭录像监控公司Dropcam,这样就能获得更多的居家数据。
图5.8 Google颇为失败的GoogleTV产品,当初它的广告是电视机与互联网的结合
在现实的世界里有一个匪夷所思的现象。一方面,微软、苹果和Google这些IT公司,为了挖掘每一个家庭的消费潜力,想尽办法千方百计地要掌握每一个家庭客厅的数据。它们有的通过游戏机,有的通过类似机顶盒的设备(Google过去的机顶盒、后来的Chromecast,苹果的AppleTV),在为用户提供服务的同时,在不经意之间收集用户数据。另一方面,拥有这些数据的公司除了统计一下收视率,计算一下可能的广告观众,并没有什么大的作为。从这个现象可以看出,一些公司已经敏锐地看到了数据的价值,而另外一些公司却拿着金饭碗在要饭,这其实反映出两种类型的公司在方法论上的差异。
图5.9 Google旗下nest智能空调控制器,其实是一个数据收集器
在收集数据时,我们还需要再一次强调它是在无意之间完成的。我们前面提到的关于央视收视率调查的例子就是一个很好的反例。在数据的收集过程中,非常忌讳那种“大胆假设,小心求证”的思维方式,因为在很多时候,如果事先有了定论,再找数据来证实它,总能找到有利的证据,而这些看似被数据证实的结论,很可能与真实情况相差十万八千里。经济学家马光远先生曾经讲过一个故事,说明带有偏见的“大胆假设,小心求证”的危险性。
在2008年夏天,中国经济领域自认为潜在的风险是热钱的涌入,只要翻翻当时的报纸就能看到媒体天天在谈防止热钱涌入这件事。但是,经济学家马光远无意中从银行里接电话的业务员那里了解到,在电话里,客户们都是要换外汇把钱转移走,这和媒体上的说法完全相反。事实证明,电话一端的基层业务员的信息是正确的,媒体反而错了。媒体上的说法来自官方,官方的说法也是有数据支持的,并非完全拍脑袋想的。但是,由于中国的经济结构并非完全市场化的,很多政策是官方顶层设计的结果,那么想要找到支持官方观点的数据很容易,这样一来,看似有数据支持,但这样的数据已经不具有任何代表性了。
在大数据这个概念不断地被炒作,数据变得越来越值钱时,一些公司和个人开始赤裸裸地收集用户的数据,然后想办法卖钱88。事实上这样刻意收集来的数据意义不大,因为收集数据的过程会引起用户的警觉、恐慌和反感,一部分对信息安全敏感的人可能会关闭收集数据的传感设备,导致收集的数据不全面;而另一部分人的行为会变得不自然。这种变了形的数据,既不具有统计意义,也失去了大数据的完备性。因此,真正高明的公司都会像微软、苹果和Google那样采用曲线救国的方法。有些时候,为了收集数据,这个弯需要绕得特别大。
Google为了推出它的基于手机的语音识别系统Google Voice,需要大量的语音数据。在过去,各家语音识别公司和实验室都是找人来录入数据,比如美国标准的电话语音库Switchboard就是这么构造的。这种类似于采样方法导致的缺陷我们在前面已经介绍了,不再赘述。Google的方法则不同,它为了收集数据,先推出了一个类似玩具的电话语音识别系统Google-41189(识别率相比后来真正的产品Google Voice是非常低的),很多人出于试验和玩的目的打这个电话,这样就在无意中为Google提供了大量的电话录音。
数据的收集是一个开放性的话题,不存在唯一的、最佳的方法。但是好的方法一定能够保证数据的全面性(完备性)和不变性。