小数据是大数据之魂
作者:袁岳
我们正在把大数据变成数据大个子之间的游戏——大的数据源的拥有者:阿里巴巴、腾讯、百度、中国移动、中国银行,与大的数据挖掘工具拥有者:IBM、INTEL等等之间的游戏。这里被忽略了几个关键的问题:大数据只能是由大个子掌握的,而小个子们主要是使用被定义与处理出来的大数据结果,因此大数据成为了一种操纵工具,而且大数据鸿沟就变得很显著;有大个数据的就是大数据,但是我们无法抗衡与挑战大数据本身的质量,也无法要求得到接近大数据源的机会,但是单源数据的质量本身是不可能即时与公开检验的,人们需要多源数据;大数据太大了,以至于这些数据本身不能解决一个具体的学术问题、研发问题、服务优化问题,因为他们太一般了。
数据本来就可以客观存在,个人都可以有观点与行为,只有把个人与企业个体的行为收集起来才能形成小数据库,而打通不同的小数据库就可以获得更多的较大的数据库或者成为中数据,而中数据的打通才真正构成了多源大数据。这多源数据才有了互相印证、连接、弥补的可能,而最重要的是,只有更多的个体参与整理、构建属于自己的小数据库与中数据,那么我们才有了与其他数据拥有者进行交易的可能性与条件。没错,我们可以要求公共部门更多公开数据,但是我们凭啥要求一个商业机构公开数据,除非我们付费或者我们有可交易的数据筹码。交易,是数据源多源化的王道。
我们今天有大量的流动性差、互动性差的大数据,我们还有大量在无奈行为与不理想行为下的消极大数据,比如在很多电子商务平台上因为都是传统的便宜货,因此网民的选择性行为痕迹,能反映出在这样的选择条件下人们的行动轨迹,却不能真正反映出他们到底期待怎么样理想的选择。这样的大数据能够反映人们在非互联网产品的黑暗里面挣扎,但不能提供出唯有交互数据才能提供了理想选择的那道曙光。因此,在这里大数据需要与中数据与小数据实现更好的结合。因此真实的有应用价值的大数据路径是:在有限的小数据意义上的记录、整理,迈向多源小数据打通后形成的中数据,在中数据筹码意义上透过交易与交换形成多源大数据,将大数据发现与重构的小数据结合,支持到与具象的决策单位的微观决定。在这里,数据的旷野上,并不是我们真的走向恐龙横行的大数据时代,而是一个多层多源数据的生态环境极其丰富的演绎。