什么是“大数据”?

今天杨老师问什么是大数据。我刚好做了一个小小的总结。也放在这里。

很早以前,只有科学家依赖于用数据发现规律和解决问题。科学家可以先通过观察或者实践需求提出问题,然后收集这个问题相关的现象的数据,接着从数据里面发现具有一定普适性的表现规律和这个普适性的边界,接着构造一个理想模型来符合这个表现出来的规律,最后这个模型经过检验之后,用于解决当时提出的问题甚至更多的问题,甚至成为发展其他模型的基础。一个典型的例子就是Newton运动定理和万有引力的发现。首先是大概的猜想——地心说或者日心说,然后对某些地方想不通想把记录搞得更准确,接着就是真的把数据搞得更准确了,然后从数据里面发现规律,接着问这个规律到底怎么产生的,于是有了新的猜想,发明了新的数学分析工具,最后理论建立好了,还能够用来预测其他天体的运动了。因此,Tycho、Kepler、Newton都是数据科学家:提出问题、获取数据、发现数据规律、提出进一步的新问题、提出新的数据分析方法、数据验证,还有解决问题。其中最关键的思想就是:一切以数据和从数据分析得到的结果和模型为准。当然,更加核心和底层的思想上的突破是批判性思维——谁说的不算数,必须是经过逻辑、计算和数据验证的陈述或者理论,才算数。

但是,那个时候,关于人类生活的规律和为什么有这样的规律,基本靠猜。或者说,可能都不去思考到底有没有一些规律,浑浑噩噩过日子算了。能够关心一下自然的世界就不错了,人的行为和社会什么的就算了。

现在,随着信息技术的发展,我们进入了一个人类交往——也就是人和人之间发生思想、物质或者金钱、情感的交换——远远比以前丰富的多的时代。并且,这个交往还常常留下了数字痕迹。于是,有关人类生活的数字痕迹越来越多了。终于,有人开始思考,是不是能够用这些数字痕迹来了解人类行为,服务人类社会,尤其是商业还有社会学研究等。于是,就进入了一个数据为王的时代。

于是,原来研究自然界的科学家们还有原来研究社会的科学家们都看到了好机会:这么多数字痕迹,我们总可以拿来研究点什么吧!他们还没动手的时候,忽然发现,计算机科学家们兴奋起来了,说,这么多数据的分布式存储、分布式计算就是一个好问题啊。于是,计算机科学家们竟然先开始投入到这个大数据的领域。这个时候,大数据的意思真的是数据要大,要不然,需要那一帮计算机科学家来专门研究存储、计算干什么,如果很小的话。由于这样的大数据很多时候和互联网商业有关,于是,这就热起来了:希望基于大量用户的各种数据的分析能够帮助赚钱。其中一个直接的例子就是推荐系统。最简单的,按照排序来推荐:计算所有的用户合起来看哪个电视剧最多,于是推荐给其他用户。稍微复杂一点:按照相似性推荐,经常看跟你一样的某些电视剧的其他人还看某个另外的电视剧,于是把那个电视剧推荐给你;或者某电视剧和你已经看过的挺像,于是推荐给你。或者更加复杂一点:依赖你的朋友关系,如果你的朋友经常看某电视剧,那么,你也应该会想了解一点;甚至你的朋友关系都是通过现有的显式记录,或者日常交往隐式计算出来的。这个例子说多了。江湖传言比父母先发现其女儿怀孕,以及尿片和啤酒放在一起更好卖,也是这样的例子。

但是,但是,我们一定要回到一开始的自然科学,一开始的数据科学的思想和哲学:大数据不一定数据量很大,尽管一般也确实挺大,更重要的是,从合适的数据里面用合适的方法来回答合适的问题,以及,一切基于数据和数据分析结论来说话这个思想。这个过程,本质上,就是通过数据搞清楚事物之间的关系,然后,再用这个关系建立模型做进一步计算。这不就是物理学吗。于是,我们发现,大数据这个不是计算机科学家的活,而是物理学家的活。分析天体运动、云室轨迹、CERN的加速器数据分析,其实都在做这个事情。只不过,现在我们关系的对象扩大了,不仅仅是自然的世界,还要关心人类社会。原来的模型不一定适用了。但是,科学的精神——也就是批判性思维,问更多的为什么,还有科学的核心——尊重实验尊重数据以及构建理想的关系模型来解释实验和数据,这些还是适用的。

因此,big不是大小的意思,而是,很牛的意思,数据为王的意思,必须以数据和数据分析结果为准的意思。数据量很小,但是,还是数据驱动数据验证的研究,也可以认为是大数据研究。不过就是牵涉到人类生活的数据,一般来说,信息确实比较丰富比较大而已。将来,随着数据开放获取变得更容易,更加重要的事情是:提出新问题、提出新分析方法,也就是发现和解决问题的能力

顺便,这也是为什么我把自己的研究小组叫做“Big Data, Bigger Physics”的意思。