2014-12-18 19:37:47来源:中国循环杂志阅读:27次
今年以来,“大数据技术”和“大数据分析”显得分外“火热”。 但近期,来自美国加州大学伯克利分校的MichaelI. Jordan说,大数据可能只是一场“空欢喜”,而且大数据的“冬天”即将到来。
他说,“大数据要在几十年之后才能真正有用,大家要能真正沉下心来做完整的统计分析。”
“待检验的关联的数量越多,研究结果正确的可能性就越小”
在Jordan看来,当前执着于大数据的人有“把黄铜当金子”的成分。
他指出,“当我们有了大量的数据之后,你就会想提出更多的假设。而一旦提出假设的速度超出了数据的统计内涵,那么你的推断里有很多都可能是错误的。它们也许就只是‘白噪声’。”
John PA Loannidis曾发表过一篇文章,名字是《为什么大部分已发表的研究是错误的》。在文中,他指出,“某一领域中,待检验的关联的数量越多,研究结果正确的可能性就越小。”
大数据分析也可能存在这样的问题,比方说,在某一数据库里,每个人都会有很多对应的属性,如年龄、身高、体重、收入等,每个人你都会得到数以百万计的特性。假如组合起来看这些属性——你是否在北京生活,是否骑自行车上班,是否从事某项工作,是否处于某个特定的年龄,那么你得某种疾病或者喜欢一个广告的概率是多少呢?
这些就是想要考虑的假设。“在任何一个特定的数据库里,都能找到这些列的某种组合来完美地预测任何结果,哪怕只是随机地挑选。这就好比让好几十亿只猴子在那儿打字,总有一个会写出莎士比亚。”
毫无科学根据地建造很多桥梁,就有很多会崩塌
Jordan认为,“数据分析能够根据某些质量标准发布一些推断,然而我们必须交代清楚这些质量标准到底是什么样的。我们必须在我们所有的预测上加上误差线,而这正是在目前很多机器学习文献中所欠缺的。”
Jordan用“造桥”做类比:“假设我不依从任何准则,毫无科学根据地建造了上千座桥梁,那么它们有很多都会崩塌,造成巨大的灾难。”
与此类似,假设人们使用数据并根据这些数据做出推断而完全没有考虑误差线、数据异构、噪声数据、采样模式,以及作为一个工程师和统计学家必须慎重对待的一切事情,他们就会做出很多预测,并且很可能会偶尔解决一些真正有意思的问题。还时不时地还会做出一些灾难性的糟糕决定。
Jordan认为,从整个社会而言,不能放任这种情况发展。
目前靠大数据来操盘医疗保健是在赌博
在大数据和医疗的报道中,差不多每3篇就有1篇认为,将来我们几乎可完全靠大数据来获得临床诊断。
关于这个话题,Jordan表示,“对这种事,既不能全盘怀疑也不能彻底乐观,应该就在这两个极端之间。但是如果你把某些数据分析中得到的假设全部列出来,那么总有一部分是有用的,只是不知道是哪一部分。”
所以如果你随便挑出几条来,比如“吃燕麦麸就不会得胃癌”,因为从数据上看似乎如此。但这还是在赌博,除非你真的做了完整的工程统计分析来给出误差线并且量化错误率。
当然,这比没有数据就直接赌博要好些,这是一种部分的轮盘赌。
大数据炒作过头就会像泡沫一样破碎
Jordan认为,如果继续在这条错误的轨迹上前进,我们将面临“大数据的冬天”(暗指20世纪七八十年代的“人工智能的冬天”)。在一场泡沫之后,即人们已经投了钱,一大批公司作了承诺却又拿不出严肃的分析结果,泡沫就会破碎。此后2~5年间,人们就会说“大数据来了又走了,它死了,并且是错的。”
“当炒作过了头的时候,这就是在那些循环往复之中会发生的事情。这些炒作或者说断言,既不是基于对真正的问题是什么的理解,也不是基于解决问题可能要好几十年或者说我们会取得逐步进展的理解,而是基于一种我们还没有在技术进步中取得关键性跨越的理解。在此之后可能会有一个时期,获取资源来做数据分析变得十分困难。(当然)这个领域会继续发展,因为它是真实的也是有实际需求的。不过这种反弹势必会对一大批重要的研究项目造成不利影响。”Jordan表示。
大数据要过几十年才能形成工程学的方法
Jordan猜测,大数据可能还要过几十年才能形成一个真正的工程学方法,以便我们能够在一定程度上保证,我们正在公布合理的答案并且对出错的可能性进行量化分析。
Jordan表示,“我们正着手把这门工程科学组装起来。”过去30年间涌现了许多关于如何控制所谓的“族群误差”的想法,也就是在有多个假设的情况下想知道误差率。但许多想法仍没有从实际计算的角度进行研究。
他强调,“解决这些问题是很难的数学和工程课题,并且需要时间。”
(本文根据DVBCN数字电视中文网《加大伯克利分校著名科学家:大数据的“冬天”即将到来》改编)
转载请标明:来源于“中国循环杂志”