茫茫大数据，找不到真实的我

2019-01-19 15:57:42 2301

一、从App年度总结想开去……

这几年每到年末，手机上一堆App就会为你推送各种年度总结回顾，IT之家小编也和大家一样，什么网易云音乐的年度总结啊、支付宝年度账单等等，看得不亦乐乎。

人嘛，对自我总是有着本能的关注，但尼采又说，“离每个人最远的，就是他自己”，说明自我认知是一件困难的事情。

不过在互联网科技发达的今天，我们有了认识自己的新途径：数据，大数据。实际上互联网厂商们争相做的年度总结，就是大数据帮你认识自己的例子之一。

然而乐此不疲地刷着各种年度总结H5的时候，IT之家小编又产生了一些新的思考：这些总结真的准确吗？未必，甚至有时候偏差很大。

茫茫大数据，找不到真实的我

例如网易云音乐的总结中，小编在2018年的某天将某首歌连续听了50多次，从这条记录应该能得出一个直接的结论：IT之家小编很喜欢这首歌，但其实小编那天单曲循环这首歌时，人在忙别的，根本没在听歌；例如还是网易云音乐总结，IT之家小编2018年最喜欢的十首歌有七首都是小编不怎么听的，因为小编更喜欢将喜爱的歌下载到本地，也经常会用手机自带播放器听；再如支付宝年度账单，2018年的总结IT之家小编觉得是比较符合自己的估判的，但记得自己2017年看到账单时是有些懵的，全年总消费那一栏里，自己当年压根没那么多收入啊，记得当时网上也有很多网友如此反映。

当然，IT之家小编说这些并不是否定年度总结存在的意义，只是由此产生了一些思考：大数据的时代，真的能够通过数据准确定义个人或者群体吗？人是很复杂的动物，记得在哪里看过一句话：“事情可以计算准确，但人是很难计算的”，而大数据应用，最核心的还是统计人的行为，这似乎成为悖论。

如今大数据的重要性被推到很高的高度，已然成为未来大趋势，商业、医疗、教育等各行各业在进行越来越深刻的数据化改造，将来我们各种决策都需要大数据的指引。但人，如何不被大数据支配，这是又是一个新的问题。

二、大数据究竟是什么？

我们首先要清楚认识大数据，理解它的意义。

百度百科上的解释是：

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

这段解释涵盖了大数据的三个特点：海量、高速变化、多样化，从中可以衍生出另外两个特点：因为海量，所以是低价值密度的；因为海量、高速变化且多样化，所以也是具有真实性的。总结起来就是五个特点：海量、高速变化、多样化、低价值密度、真实。当然，这不是IT之家小编总结的，是行业的普遍共识~

茫茫大数据，找不到真实的我

▲图片来源Wikimedia Commons

但怎么理解这五个特点呢？其实IT之家小编只需说一个例子就可以讲通这五个特点，即对比传统的统计调查数据。在传统统计学中，因为过去我们收集数据处理数据的能力有限，不可能把所有数据都收集到，所以很强调数据样本，样本量的大小、丰富度，以及是否随机，都影响统计分析的结果。通过数据样本，分析数据相关性的规律，总结出一定的理论、模型，这是我们以前做的事情。

而大数据，则是反其道行之，它要的不是样本，而是追求所有的数据，所有的数据相信大家都懂的，这是多么庞大，而且是源源不断产生的，每个人做不同的行为，都会产生不同的数据，所以也是多样的，因为没有样本，它的价值稀疏，毕竟不是每个人做得每件事产生的每个数据都是有价值的，但是它很真实，而样本和现实之间，永远存在误差。

大数据的思路之所以能够实现，是因为在互联网科技强大的今天，我们有能力去收集如此海量的数据，也有能力去处理、分析它们。通过一个大数据的逻辑图，大家可以更好地理解它：

茫茫大数据，找不到真实的我

总体来说，大数据的体系逻辑包含数据收集、数据存储、资源管理和服务协调、计算引擎和数据分析这五个层次。

数据收集，主要通过互联网数据抓取和客户端、终端推送，例如你在电商网站购买东西，使用手环运动的数据也会上送到数据中心，它的特点是分布式，多样化，源源不断地产生，并且是异构的，即有很多数据源；

因为收集的数据有这些特性，所以对于数据存储，要求具有可扩展性，容错能力高，并且支持多种存储模型，这甚至体现在数据库设计这种最要求精确的领域，传统的关系型数据库（如MySQL）和文件系统就比较难适应大数据时代的要求；

资源管理和服务协调，这里涉及到应用的部署，大数据时代，需要将应用部署在公共集群中，这样才能提高资源利用率和实现数据的快速共享，否则那么多数据对应独立的服务器，要被拖死；

计算引擎和数据分析同理，数据量的极大丰富让应用场景也越来越繁杂，计算引擎越来越多样且专注，数据的分析同样也需要分布式计算方法。

总的来说，大数据从技术上来说就是因为数据量实在是太大了，无论是数据的收集、存储还是处理都需要很多机器一起做，这个过程，不得不提的就是云计算。

所谓云计算，IT之家小编总结就是将庞大集群的虚拟化电脑进行统一调度的能力，它天然满足大数据的需求，所以云计算是释放浩瀚大数据价值的驱动力，两者如同共生，为了不跑题，这里就不进一步讲了。

三、只求相关，不问因果

大数据能成为未来的趋势，有两个条件，一是具备颠覆性，二是正面意义大于负面意义。那么大数据颠覆了什么？

英国牛津大学教授、数据科学家维克托·迈尔·舍恩伯格在他的《大数据时代》这本书中，将大数据的颠覆性凝练为三条：

首先，要分析与某事物相关的所有数据，而不是依靠分析少量的数据样本。
其次，我们乐于接受数据的纷繁复杂，而不再追求精确性。
最后，我们的思想发生了转变，不再探求难以捉摸的因果关系，转而关注事物的相关关系。

从上面IT之家小编的介绍相信你能总结出，大数据带来的各种改变，归根结底在于其数量实在庞大多样，它要的不是样本，而是所有数据，这就造成它必然混杂，难以追求精确性，在大数据里，混乱不是缺点，而是一种必要，这已经是颠覆人的正常思维了；

再往下，以往我们需要样本，总是需要在样本数据中找到一些既定的因果关系，然后提炼成理论，从样本到整体，然后总结成方法，这是我们做事的基本逻辑，而在大数据时代，你不需要这样了，因为我们有足够多的数据，我们要做的事情是找到目标数据之间的相关关系，然后发现趋势，大数据会告诉我们接下来该干什么，而我们，不需要问为什么，负责决策就行了，不要小看这个转变，它说明我们认识世界方式的改变。

2003年，美国计算机专家奥伦·艾奇奥尼(Oren Etzioni)乘坐飞机，和乘客的交谈中发现自己的机票买贵了，内心一万头草泥马奔腾而过后，他萌生了一个想法：能不能有一个工具能够预测机票的波动趋势，帮大家省钱？说干就干，然后他就真的创立了一个系统：通过从旅游网站爬取41天内的12000个价格样本，来判断机票的未来走势，这个小项目后来发展成为科技创业公司Farecast并被必应收购。在后来的系统中，Farecast基于美国一个行业的机票预订数据库，跟踪每一条航线每一架飞机每一个作为一年内的票价记录，从而判断机票价格变动的趋势，然后这个系统大获成功，还被用到其他领域。

茫茫大数据，找不到真实的我

▲奥伦·艾奇奥尼，图片来源：Wikimedia Commons

这是大数据应用的一个经典案例，在这个案例中，奥伦·艾奇奥尼明确表示，他不需要弄清楚机票价格波动和时间或者其他因素之间的因果关系，只是要从所有的数据中分析出规律，然后给出可能的结果。你不要问为什么，只需要知道机票接下来会涨还是会跌就行了。

还有一些例子，如沃尔玛在上世纪九十年代就开始进行将产品记录为数据的工程，2004年，他们对这个庞大的数据库进行观察，发现每当季节性飓风来临，不仅飓风用品销量增加，POP-Tarts蛋挞的销量也随之增加，所以他们把飓风用品和蛋挞放在一起，在这个例子中，你同样不用知道人们买飓风用品的同时为什么还喜欢买蛋挞而不是其他，你只需要发现这个现象，然后做决策就行，而且海量的大数据，能够为这个趋势的准确性提供一定的保证。

还有德国通过手机家庭太阳能用电的海量数据预测未来2-3个月智能电网需要的电量来降低成本；丹麦的维斯塔斯风能系统通过研究风力和天气、湍流度等数据以及全球数万个受控涡轮机组传感器数据，来判断涡轮发电机设置的位置，从而提高能源产出的效率和数量等等。

上面这些案例中，大家都不需要考虑事物之间的因果关系，不需要研究背后的原理，不需要建立模型，只需要对海量的庞大数据做分析。IT之家小编认为，这是大数据最大的颠覆性，如果我们的思维不转变，最终会被大数据时代抛弃。

四、争议

谷歌研发总监曾Peter Norvig在2011年的一次讲话中表示，“我们没有更好的算法，我们仅仅是有更多的数据”，后来他在一次对自己言论澄清的文章中说：

如果模型无论如何都有可能出错，为什么不看看你是否能让计算机从数据中快速地学习模型，而不是让一个人费力地从许多思想中推导模型？

这应该是对大数据很直接的解释了。

茫茫大数据，找不到真实的我

▲谷歌研发总监曾Peter Norvig，图片来源：Flickr

比这个更为激进的是《连线》杂志主编克里斯·安德森（Chris Andersen），他在2008年就说过“数据爆炸使科学的方法都落伍了”，后来，他又在《The Petabyte Age》这篇文章中提出了“理论的终结”的观点，说

现在已经是一个有海量数据的时代，应用数学已经取代了其他所有的学科工具，而且只要数据足够，就能说明问题。

茫茫大数据，找不到真实的我

▲克里斯·安德森，图片来源Wikimedia Commons

安德森的这篇文章当时引起了很大的争议，数据取代理论，这听起来的确有些荒谬。在《大数据时代》中，舍恩伯格对这个观点进行了辩驳，他表示大数据从来不会叫嚣“理论已死”，相反，大数据的方方面面也被理论影响着。例如在数据分析的时候，我们也需要理论的支持。

五、愿问东西，且问因果

2009年，谷歌流感趋势研究团队（GFT）在《自然》杂志上发表论文，展示了分析数十亿搜索中45个与流感相关的关键词，从而能比疾病预防控制中心提前两周预报2007-2008季流感发病率的过程。这在当时引起了震惊，这说明人们不需要等待疾控中心的报告，就能及时知道未来医院的就诊人数，从而提前预防，显然这将让很多人避免痛苦，免受巨大的损失。这成为谷歌运用大数据最早和最经典的案例之一。

然而，后来有学者发现，2009年，谷歌没有准确预测到非季节性流感A-H1N1，而在2011年8月到2013年8月的时间里，谷歌有100周高估了CDC报告的流感发病率，到2013年，谷歌调整算法后仍然存在高估的现象。

茫茫大数据，找不到真实的我

又回到文章开头：有时候，大数据可能也不那么准，甚至可能离谱。

IT之家小编认为，存在这种情况的原因，可能恰恰就在于大数据最大的颠覆性：只追求数据的相关性，而不关心因果关系。所以，这就像硬币的正反两面，如果使用不当，也可能带来严重的危害。特别是在风口期，大数据被鼓吹以至被滥用时，风险更大。

IT之家小编在文章开头所说的App年度总结和你实际状况不符合的案例，其实只是大数据最细枝末节的应用，现在到未来，毫无疑问大数据会被运用在更多的行业，风口也会越刮越强，但如果你没有理智运用大数据，只是一昧的迷信，那么后果可能也会惨烈，例如金融企业在数据量没有达到标准的情况下就自以为通过大数据判断个体的信誉程度而对外放贷，后果可想而知；再例如教育方面，未来你真的敢于完全听凭大数据的分析结果来决定报考哪座院校和规划职业生涯方向，而不是遵从自己的兴趣？还有利用大数据相亲的，则更不消说了。

你真的敢相信大数据里描绘的你的画像，就是真实的你？即便它与你有90%以上的相似度，你真的敢将自己的所有决策放心交给大数据？

所以，IT之家小编认为，在大数据时代全面到来之前，我们首先需要探讨的，是大数据运用的边界在哪里？

当然，这个边界不是IT之家小编一人就能划定的，但小编认为，大数据之外，“小数据”仍然重要，“大小结合”是一种更可取的方式，我们既要判断趋势，也需要深究原理。

还有就是，在讨论到和自我相关的问题时，永远要遵从内心的自我，就像在大数据里，混杂比精确更重要，在现实里，对自己的感觉，往往比数据更重要。

总之，愿问东西，且问因果，则幸甚。

本文参考资料：

芯联天下，2018-06-21，《终于有人把云计算、大数据和人工智能讲明白了！》

CSDN，2017-30-014，《从谷歌流感趋势谈大数据分析的光荣与陷阱》

维克托·迈尔·舍恩伯格，2012，《大数据时代》

董西成，2018，《大数据技术体系详解：原理、架构与实践》

联系我们

咨询电话：0635-8808750

联系人：张老师：15653112065

学校地址：聊城市东昌西路（百大三联西侧）国际商务港5楼509

聊城优智教育