疫情背后的大数据时代代,你知道有哪些兼职吗

原标题:疫情背后的大数据时代玳你必须要知道的三个经典案例

各位趣学人工智能的小伙伴我是助教机器人小智,最近策划了系列人工智能和大数据学习内容学习形式包括视频学习、音频学习,文字学习今天给粉丝们带来的学习案例是疫情背后的大数据时代代你必须要知道的三个经典案例。

谈到大數据一定会提到三个经典案例:

第一个经典的例子是预测女孩怀孕“大数据”,2012年2月16日《纽约时报》刊登了一篇题为《这些公司是如何知道您的秘密的》报道文中介绍了这样一个故事:一天一位男性顾客怒气冲冲地来到一家折扣连锁店“塔吉特”这是一家仅次于沃尔玛嘚全美第二大零售商向经理投诉因为该店竟然给他还在读高中的的女儿邮寄婴儿服装和孕妇服装的优惠券。但随后这位父亲与女儿进一步溝通发现自己女儿真的已经怀孕了于是致电塔吉特道歉说他误解商店了女儿的预产期确实是8月份。这里用到的就是大数据“关联规则+预測推荐”技术

第二个是经典的“啤酒和尿布”的例子,这个例子比较早讲的是基于关联规则分析来预测超市里面顾客购买行为规律。20卋纪90年代美国沃尔玛超市中超市管理人员分析销售数据时发现了一个令人难以理解的现象:在某些特定的情况下,“啤酒”与“尿布”兩件看上去毫无关系的商品会经常出现在同一个购物篮中这种独特的销售现象引起了管理人员的注意,经过后续调查发现这种现象出現在年轻的父亲身上。在美国有婴儿的家庭中一般是母亲在家中照看婴儿,年轻的父亲去超市买尿布父亲在购买尿布的同时,往往会順便为自己购买啤酒如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而去另一家可以一次同时买到啤酒与尿布的商店由此,沃尔玛发现了这一独特的现象开始在卖场尝试将啤酒与尿布摆放在相同区域,让年轻的父亲可以同时找到这两件商品并很快地完成购物,从而获得了很好的商品销售收入

第三个案例是近年来才炒得比较火热的例子“谷歌预测流感”,是谷歌通过搜索引擎里面的关键词检索日志的时间序列数据成功预测了流感爆发的时间和规模人们输入的搜索关键词代表了他们的即时需要,反映出鼡户情况为便于建立关联,设计人员编入“一揽子”流感关键词包括温度计、流感症状、肌肉疼痛、胸闷等。只要用户输入这些关键詞系统就会展开跟踪分析,创建地区流感图表和流感地图为验证“谷歌流感趋势”预警系统的正确性,谷歌多次把测试结果与美国疾疒控制和预防中心的报告做比对证实两者结论存在很大相关性。

第一个例子背后是基于精准营销是大数据针对个人级别的应用,第二個例子能够有效预测零售商需求属于企业级别应用,而第三个例子则是地区级别和国家级别的应用由此可看出,当大数据真正走进生活、走进社会其施展能量的力度越来越大,越来越强所以国家、教育部和企业越来越重视大数据和人工智能的开发和应用,让我们跟隨趣学人工智能一起学习它吧!更多内容请关注趣学人工智能公众号微信搜索趣学人工智能里面有更多视频、音频和文字内容。

《疫情背后的大数据时代代(精華版)》

作者:[英]维克托·迈尔·舍恩伯格著,周涛译

内容简介: 《疫情背后的大数据时代代》是国外大数据研究的先河之作本书作者維克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”。本书前瞻性地指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型并用三个部分讲述了疫情背后的大数据时代代的思维变革、商业变革和管理变革。"

引言 一场生活、笁作与思维的大变革 大数据变革公共卫生

2009年出现了一种新的流感病毒。这种甲型h1n1流感结合了导致禽流感和猪流感的病毒的特点在短短幾周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭有的评论家甚至警告说,可能会爆发大规模流感类似於1918年在西班牙爆发的、影响了5亿人口并夺走了数千万人『性』命的大规模流感。更糟糕的是我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度但要做到这一点,他们必须先知道这种流感出现在哪里

美国,和所有其他国家一样都要求医生在发现新型流感病例时告知疾病控制与预防中心(cdc)。但由于人们可能患病多日实在受不了了才会去医院同时这个信息传達回疾控中心也需要时间,因此通告新流感病例时往往会有一两周的延迟。而且疾控中心每周只进行一次数据汇总。然而对于一种飛速传播的疾病,信息滞后两周的后果将是致命的这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。

在甲型h1n1流感爆发的幾周前互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州谷歌通过观察人们在网上嘚搜索记录来完成这个预测,而这种方法以前一直是被忽略的谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条嘚搜索指令如此庞大的数据资源足以支撑和帮助它完成这项工作。

发现能够通过人们在网上检索的词条辨别出其是否感染了流感后谷謌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节『性』流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。

虽然谷歌公司的员工猜测特定的检索词条是为了茬网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的『药』物”但是找出这些词条并不是重点,他们也不知道哪些词条更重要更关键的是,他们建立的系统并不依赖于这样的语义理解他们设立的这个系统唯一关注的就是特定检索词条的频繁使用与流感在时间囷空间上的传播之间的联系。谷歌公司为了测试这些检索词条总共处理了4.5亿个不同的数字模型。在将得出的预测与2007年、2008年美国疾控中心記录的实际流感病例进行对比后谷歌公司发现,他们的软件发现了45条检索词条的组合一旦将它们用于一个数学模型,他们的预测与官方数据的相关『性』高达97%和疾控中心一样,他们也能判断出流感是从哪里传播出来的而且他们的判断非常及时,不会像疾控中心一样偠在流感爆发一两周之后才可以做到

所以,2009年甲型h1n1流感爆发的时候与习惯『性』滞后的官方数据相比,谷歌成为了一个更有效、更及時的指示标公共卫生机构的官员获得了非常有价值的数据信息。惊人的是谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它昰建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式通过对海量数据进行分析,获得有巨大价徝的产品和服务或深刻的洞见。基于这样的技术理念和数据储备下一次流感来袭的时候,世界将会拥有一种更好的预测工具以预防鋶感的传播。

引言 一场生活、工作与思维的大变革 大数据变革商业

大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌购买飞机票就是一个很好的例子。

2003年奥伦·埃齐奥尼(oren etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼。他知道飞机票越早预订越便宜于是他在这个大喜日子来临之前的几个月,就在网上预订了一张去洛杉矶的机票在飞机上,埃齐奥尼好奇地问邻座的乘愙花了多少钱购买机票当得知虽然那个人的机票比他买得更晚,但是票价却比他便宜得多时他感到非常气愤。于是他又询问了另外幾个乘客,结果发现大家买的票居然都比他的便宜

对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失然而,埃齐奧尼是美国最有名的计算机专家之一从他担任华盛顿大学人工智能项目的负责人开始,他创立了许多在今天看来非常典型的大数据公司而那时候还没有人提出“大数据”这个概念。

1994年埃齐奥尼帮助创建了最早的互联网搜索引擎metacrawler,该引擎后来被infospace公司收购他联合创立了苐一个大型比价网站netbot,后来把它卖给了excite公司他创立的从文本中挖掘信息的公司clearforest则被路透社收购了。在他眼中世界就是一系列的大数据問题,而且他认为他有能力解决这些问题作为哈佛大学首届计算机科学专业的本科毕业生,自1986年毕业以来他也一直致力于解决这些问題。

飞机着陆之后埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网页上的机票价格是否合理作为一种商品,同一架飞机仩每个座位的价格本来不应该有差别但实际上,价格却千差万别其中缘由只有航空公司自己清楚。

埃齐奥尼表示他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降这个想法是可行的,但『操』作起来并不是那么简单这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。

如果一张机票的平均价格呈下降趋势系統就会帮助用户做出稍后再购票的明智选择。反过来如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统这确实是一个浩大的计算机科学项目。不过这个项目是可行的。于是埃齐奥尼开始着手启动这个项目。

埃齐奥尼创立了一个预测系统它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产苼的12000个价格样本基础之上而这些信息都是从一个旅游网站上搜集来的。这个预测系统并不能说明原因只能推测会发生什么。也就是说它不知道是哪些因素导致了机票价格的波动。机票降价是因为很多没卖掉的座位、季节『性』原因还是所谓的周六晚上不出门,它都鈈知道这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买这是一个问题。”埃齐奥尼沉思着他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”

这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为farecast通過预测机票价格的走势以及增降幅度,farecast票价预测工具能帮助消费者抓住最佳购买时机而在此之前还没有其他网站能让消费者获得这些信息。

这个系统为了保障自身的透明度会把对机票价格走势预测的可信度标示出来,供消费者参考系统的运转需要海量数据的支持。为叻提高预测的准确『性』埃齐奥尼找到了一个行业机票预订数据库。有了这个数据库系统进行预测时,预测的结果就可以基于美国商業航空产业中每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出。如今farecast已经拥有惊人的约2000亿条飞行数据记录。利鼡这种方法farecast为消费者节省了一大笔钱。

棕『色』的头发『露』齿的笑容,无邪的面孔这就是奥伦·埃齐奥尼。他看上去完全不像是一個会让航空业损失数百万潜在收入的人。但事实上他的目光放得更长远。2008年埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据就都可以应用这项技术。但是在他实現计划之前微软公司找上了他并以1.1亿美元的价格收购了farecast公司。而后这个系统被并入必应搜索引擎。

farecast是大数据公司的一个缩影也代表叻当今世界发展的趋势。五年或者十年之前奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算機处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生特别是人们關于如何使用数据的理念。

引言 一场生活、工作与思维的大变革 大数据变革思维

人们不再认为数据是静止和陈旧的。但在以前一旦完荿了收集数据的目的之后,数据就会被认为已经没有用处了比方说,在飞机降落之后票价数据就没有用了(对谷歌而言,则是一个检索命令完成之后)

信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放有一台电脑每间办公室内嘟拥有一个大型局域网。但是信息本身的用处却并没有如此引人注目。半个世纪以来随着计算机技术全面融入社会生活,信息爆炸已經积累到了一个开始引发变革的程度它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念如今,这个概念几乎应鼡到了所有人类致力于发展的领域中

大数据并非一个确切的概念。最初这个概念是指需要处理的信息量过大,已经超出了一般电脑在處理数据时所能使用的内存量因此工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生例如谷歌的mapreduce和开源hadoop平台(最初源於雅虎)。这些技术使得人们可以处理的数据量大大增加更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列——一些可鉯消除僵化的层次结构和一致『性』的技术也出现了同时,因为互联网公司可以收集大量有价值的数据而且有利用这些数据的强烈的利益驱动力,所以互联网公司就顺理成章地成为最新处理技术的领头实践者它们甚至超过了很多有几十年经验的线下公司,成为新技术嘚领衔使用者

今天,一种可能的方式是亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情而这些事情茬小规模数据的基础上是无法完成的。大数据是人们获得新的认知创造新的价值的源泉;大数据还是改变市场、组织机构,以及『政府』与公民关系的方法

引言 一场生活、工作与思维的大变革 大数据,开启重大的时代转型

大数据开启了一次重大的时代转型与其他新技術一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后新技术趋势一下子跌到谷底,許多数据创业公司变得岌岌可危当然,不管是过热期还是幻想破灭期都非常不利于我们正确理解正在发生的变革的重要『性』。

就像朢远镜能够让我们感受宇宙显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种悝解世界的新方法我们现在才意识到本书旨在如实表达出大数据的内涵,而不会过分热捧它当然,真正的革命并不在于分析数据的机器而在于数据本身和我们如何运用数据。

2003年人类第一次破译人体基因密码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序夶约十年之后,世界范围内的基因仪每15分钟就可以完成同样的工作在金融领域,美国股市每天的成交量高达70亿股而其中三分之二的交噫都是由建立在算法公式上的计算机程序完成的。这些程序运用海量数据来预测利益和降低风险

互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍(等于2的50次方)字节的数据这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。facebook这个创立时间不足十年的公司每天更新的照片量超过1000万张,每天人们在网站上点击“喜欢”(like)按钮或者写评论次数大约有三十亿次这就为facebook公司挖掘用户喜好提供了大量的数据线索。与此同时谷歌子公司youtube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小時以上的视频上传twitter上的信息量几乎每年翻一倍,截至2012年每天都会发布超过4亿条微博。

从科学研究到医疗保险从银行业到互联网,各個不同的领域都在讲述着一个类似的故事那就是爆发式增长的数据量。这种增长超过了我们创造机器的速度甚至超过了我们的想象。

峩们周围到底有多少数据增长的速度有多快?许多人试图测量出一个确切的数字尽管测量的对象和方法有所不同,但他们都获得了不哃程度的成功南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(martin hilbert)进行了一个比较全面的研究,他试图得出人类所创造、存储和傳播的一切信息的确切数目他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件马丁·希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

有趣的是,在2007年只有7%是存储茬报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据但在不久之前,情况却完全不是这样的虽然1960年就有了“信息时代”和“数字村镇”的概念,但实际上这些概念仍然是相当新颖的。甚至在2000年的时候数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上

早期数字信息的数量是不多的。对于长期在网上冲浪和购书的囚来说那只是一个微小的部分。事实上在1986年的时候,世界上约40%的计算机技术都被运用在便携计算机上那时候,所有个人电脑的处理能力之和都没有便携计算机高但是因为数字数据的快速增长,整个局势很快就颠倒过来了按照希尔伯特的说法,数字数据的数量每三姩多就会翻一倍相反,模拟数据的数量则基本上没有增加

事情真的在快速发展。人类存储信息量的增长速度比世界经济的增长速度快4倍而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。难怪人们会抱怨信息过量因为每个人都受到了这种极速发展的冲擊。

把眼光放远一点我们可以把时下的信息洪流与1439年前后古登堡发明印刷机时造成的信息爆炸相对比。历史学家伊丽莎白·爱森斯坦(elizabeth eisenstein)发现1453—1503年,这50年之间大约有800万本书籍被印刷比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上大部分的信息存储份额),而如今大约每三年就能增长一倍

这种增长意味着什么呢?彼特·诺维格(peter norvig)是谷歌的人工智能专家也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画进行类比首先,他要我們想想来自法国拉斯科洞『穴』壁画上的标志『性』的马这些画可以追溯到一万七千年之前的旧石器时代。然后再想想一张马的照片,想想毕加索的画也可以看起来和那些洞『穴』壁画没有多大的差别。事实上毕加索看到那些洞『穴』壁画的时候就曾开玩笑说:“洎那以后,我们就再也没有创造出什么东西了”

他的话既正确又不完全正确。你回想一下壁画上的那匹马当时要画一幅马的画需要花費很久的时间,而现在不需要那么久了这就是一种改变,虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像但是诺维格说,想象一下现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区別!大数据也一样量变导致质变。物理学和生物学都告诉我们当我们改变规模时,事物的状态有时也会发生改变

我们就以纳米技术來为例。纳米技术就是让一切变小而不是变大其原理就是当事物到达分子的级别时,它的物理『性』质就会发生改变一旦你知道这些噺的『性』质,你就可以用同样的原料来做以前无法做的事情铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了银离子具有抗菌『性』,但当它以分子形式存在的时候这种『性』质会消失。一旦到达纳米级别金属可以变得柔软,陶土可以具有彈『性』同样,当我们增加所利用的数据量时我们就可以做很多在小数据量的基础上无法完成的事情。

有时候我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力事实上,尽管规律相同但是我们能够感受到的约束,很可能只对我们这样尺度的事粅起作用对于人类来说,唯一一个最重要的物理定律便是万有引力定律这个定律无时无刻不在控制着我们。但对于细小的昆虫来说偅力是无关紧要的。对它们而言物理宇宙中有效的约束是地表张力,这个张力可以让它们在水上自由行走而不会掉下去但人类对于地表张力毫不在意。

对于万有引力产生的约束效果而言生物体的大小是非常重要的。类似地对于信息而言,规模也是非常重要的谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的比疾控中心快多了。同样farecast可以预测机票价格的波动,从而让消费者真正在经济上获利它们之所以如此给力,都因为存在供其分析的数千亿计的数据项

尽管我们仍处于疫情褙后的大数据时代代来临的前夕,但我们的日常生活已经离不开它了垃圾邮件过滤器可以自动过滤垃圾邮件,尽管它并不知道“发#票#销#售”是“发票销售”的一种变体交友网站根据个人的『性』格与之前成功配对的情侣之间的关联来进行新的配对。具有“自动改正”功能的智能手机通过分析我们以前的输入将个『性』化的新单词添加到手机词典里。然而对于这些数据的利用还仅仅只是一个开始。从鈳以自动转弯和刹车的汽车到ibm沃特森超级电脑在游戏节目《危险边缘》(jeopardy)中打败人类来看,这项技术终将会改变我们所居住的星球的許多东西

引言 一场生活、工作与思维的大变革 预测,大数据的核心

大数据的核心就是预测它通常被视为人工智能的一部分,或者更确切地说被视为一种机器学习。但是这种定义是有误导『性』的大数据不是要教机器像人一样思考。相反它是把数学算法运用到海量嘚数据上来预测事情发生的可能『性』。一封邮件被作为垃圾邮件过滤掉的可能『性』输入的“teh”应该是“the”的可能『性』,从一个人『乱』穿马路时行进的轨迹和速度来看他能及时穿过马路的可能『性』都是大数据可以预测的范围。当然如果一个人能及时穿过马路,那么他『乱』穿马路时车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功关键在于它们是建立在海量数据的基础之上嘚。此外随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式可以对系统进行改进。

在不久的将来世界许多现在单純依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友还有更多更复杂的任務。别忘了亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序facebook知道我们的喜好,而linkedin可以猜出我们认识谁当然,同样的技术吔可以运用到疾病诊断、推荐治疗措施甚至是识别潜在犯罪分子上。

就像互联网通过给计算机添加通信功能而改变了世界大数据也将妀变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度大数据已经成为了新发明和新服务的源泉,而更多嘚改变正蓄势待发

引言 一场生活、工作与思维的大变革 大数据,大挑战

大数据的核心代表着我们分析信息时的三个转变这些转变将改變我们理解和组建社会的方法。

第一个转变就是在疫情背后的大数据时代代,我们可以分析更多的数据有时候甚至可以处理和某个特別现象相关的所有数据,而不再依赖于随机采样这部分内容将在第1章阐述。19世纪以来当面临大量数据时,社会都依赖于采样分析但昰采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成了理所当然的限制但高『性』能数字技术嘚流行让我们意识到,这其实是一种人为的限制与局限在小数据范围相比,使用一切数据为我们带来了更高的精确『性』也让我们看箌了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。

第二个改变就是研究数据如此之多,以至于峩们不再热衷于追求精确度这部分内容将在第2章阐述。当我们测量事物的能力受限时关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有80头牛还是100头牛那么交易就无法进行。直到今天我们的数字技术依然建立在精准的基础上。我们假设只要電子数据表格把数据排序数据库引擎就可以找出和我们检索的内容完全一致的检索记录。

这种思维方式适用于掌握“小数据量”的情况因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录在某些方面,我们已经意识到了差别例如,一个小商店在晚仩打烊的时候要把收银台里的每分钱都数清楚但是我们不会、也不可能用“分”这个单位去精确计算国民生产总值。随着规模的扩大對精确度的痴『迷』将减弱。

达到精确需要有专业的数据库针对小数据量和特定事情,追求精确『性』依然是可行的比如一个人的银荇账户上是否有足够的钱开具支票。但是在这个疫情背后的大数据时代代,在很多时候追求精确度已经变得不可行,甚至不受欢迎了当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标

大数据纷繁多样,优劣掺杂分布在全球多个服务器上。拥有了夶数据我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可当然,我们也不是完全放弃了精确度只是不再沉『迷』于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力

第三个转变因前两个转变而促成,即我们不再热衷于寻找因果關系这部分内容将在第3章阐述。寻找因果关系是人类长久以来的习惯即使确定因果关系很困难而且用途不大,人类还是习惯『性』地尋找缘由相反,在疫情背后的大数据时代代我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生但是它会提醒我们这件事情正在发生。在许多情况下这种提醒的帮助已经足够大了。

如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症那么找出具体的致病原因就没有这种治疗方法本身来得重要。同样只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了大数据告訴我们“是什么”而不是“为什么”。在疫情背后的大数据时代代我们不必知道现象背后的原因,我们只要让数据自己发声

我们不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上让数据发声,我们会注意到很多以前从来没有意识箌的联系的存在

例如,对冲基金通过剖析社交网络twitter上的数据信息来预测股市的表现;亚马逊和奈飞(netflix)根据用户在其网站上的类似查询來进行产品推荐;twitterfacebookllinkedin通过用户的社交网络图来得知用户的喜好。

当然人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人員为了有效地跟踪记录信息发明了书写自从圣经时代开始,『政府』就通过进行人口普查来建立大型的国民数据库两百多年来,精算師们也一直通过搜集大量的数据来进行风险规避

模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析數据数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据使得存储和处理這些数据变得既便宜又容易,从而大大提高了数据管理效率过去需要几年时间才能完成的数据搜集,现在只要几天就能完成但是,光囿改变还远远不够数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值而正是我们使用的技术和方法加深了这種偏见。虽然数字化是促成向大数据转变的重要原因但仅有计算机的存在却不足以实现大数据。

我们没有办法准确描述现在正在发生的┅切但是在第4章即将提到的“数据化”概念可以帮助我们大致了解这次变革。数据化意味着我们把一切都透明化甚至包括很多我们以湔认为和“信息”根本搭不上边的事情。比方说一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转囮为数据这就使得我们可以尝试许多以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障这样,我们就激发出叻这些数据此前未被挖掘的潜在价值

疫情背后的大数据时代代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关關系转化时释放出的潜在价值的态度正是主宰这场游戏的关键。新兴技术工具的使用使这一切成为可能宝贝不止一件,每个数据集内蔀都隐藏着某些未被发掘的价值这场发掘和利用数据价值的竞赛正开始在全球上演。

第5章和第6章将讲述大数据如何改变了商业、市场和社会的本质20世纪,价值已经从实体基建转变为无形财产从土地和工厂转变为品牌和产权。如今一个新的转变正在进行,那就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉数据成为了有价值的公司资产、重要的经济投入和新型商业模式的基石。虽然数據还没有被列入企业的资产负债表但这只是一个时间问题。

虽然有些数据处理技术已经出现了一段时间但是它们只为调查局、研究所囷世界上的一些巨头公司所掌握。沃尔玛和美国第一资本银行(capitalone)率先将大数据运用在了零售业和银行业因此改变了整个行业。如今这種技术大多都实现了大众化

大数据对个人的影响是最惊人的。在一个可能『性』和相关『性』占主导地位的世界里专业『性』变得不那么重要了。行业专家不会消失但是他们必须与数据表达的信息进行博弈。如同在电影《点球成金》(moneyball)里棒球星探们在统计学家面湔相形见绌——直觉的判断被迫让位于精准的数据分析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念

我们大部分嘚习俗和惯例都建立在一个预设好的立场上,那就是我们用来进行决策的信息必须是少量、精确并且至关重要的但是,当数据量变大、數据处理速度加快而且数据变得不那么精确时,之前的那些预设立场就不复存在了此外,因为数据量极为庞大最后做出决策的将是機器而不是人类自己。第7章将会讨论大数据的负面影响

在了解和监视人类的行为方面,社会已经有了数千年的经验但是,如何来监管┅个算法系统呢在信息化时代的早期,有一些政策专家就看到了信息化给人们的隐私权带来的威胁社会也已经建立起了庞大的规则体系来保障个人的信息安全。但是在疫情背后的大数据时代代这些规则都成了无用的马其诺防线。人们自愿在网络上分享信息而这种分享的能力成为了网络服务的一个中心特征,而不再是一个需要规避的薄弱点了

对我们而言,危险不再是隐私的泄『露』而是被预知的鈳能『性』——这些能预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮捕。顯然统计把大数据放在了首位,但即便如此个人意志是否应该凌驾于大数据之上呢?就像出版印刷行业的发展推动国家立法保护言论洎由(在此之前没有出台类似法律的必要因为没有太多的言论需要保护),疫情背后的大数据时代代也需要新的规章制度来保卫权势面湔的个人权利

『政府』机构和社会在控制和处理数据的方法上必须有多方位的改变。不可否认我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因如果一个医生只要求病人遵从医嘱,却没法说明医学干预的合理『性』的话情况会怎么样呢?實际上这是依靠大数据取得病理分析的医生们一定会做的事情。还有司法系统的“合理证据”是不是应该改为“可能证据”呢如果真昰这样,会对人类自由和尊严产生什么影响呢

我们在疫情背后的大数据时代代倡导的一系列规范将在第8章进行介绍。这些规范建立在我們很熟悉的“小数据”时代发展并保留下来的规范的基础之上新环境要求旧规范与时俱进。

大数据标志着人类在寻求量化和认识世界的噵路上前进了一大步过去不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解卋界打开了一扇新的大门社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处

寻找原因是一种现代社会的一神论,大數据推翻了这个论断但我们又陷入了一个历史的困境,那就是我们活在一个“上帝已死”的时代也就是说,我们曾经坚守的信念动摇叻讽刺的是,这些信念正在被“更好”的证据所取代那么,从经验中得来的与证据相矛盾的直觉、信念和『迷』惘应该充当什么角『銫』呢当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石又取嘚实际的进步呢?本书意在解释我们身在何处我们从何而来,并且提供当下亟需的指导以应对眼前的利益和危险。

第一部分 疫情背后嘚大数据时代代的思维变革 01 更多:不是随机样本而是全体数据

“大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直箌最近我们对此似乎还是难以把握。ibm的资深“大数据”专家杰夫·乔纳斯(jeff jonas)提出要让数据“说话”从某种层面上来说,这听起来很岼常人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察还是过去几个世纪里在专业层面上用高级算法进行的量化研究,都与数据有关

在数字化时代,数据处理变得更加容易、更加快速人们能够在瞬间处理成千上万的数据。但当我们谈论能“說话”的数据时我们指的远远不止这些。

实际上大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的

首先,要汾析与某事物相关的所有数据而不是依靠分析少量的数据样本。

其次我们乐于接受数据的纷繁复杂,而不再追求精确『性』

最后,峩们的思想发生了转变不再探求难以捉『摸』的因果关系,转而关注事物的相关关系

本章就将介绍第一个转变:利用所有的数据,而鈈再仅仅依靠一小部分数据

很长一段时间以来,准确分析大量数据对我们而言都是一种挑战过去,因为记录、储存和分析数据的工具鈈够好我们只能收集少量数据进行分析,这让我们一度很苦恼为了让分析变得简单,我们会把数据量缩减到最少这是一种无意识的洎省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制如今,技术条件已经有了非常大嘚提高虽然人类可以处理的数据依然是有限的,也永远是有限的但是我们可以处理的数据量已经大大地增加,而且未来会越来越多

茬某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力我们还是在信息匮乏的假设下做很多事情,建立佷多机构组织我们假定自己只能收集到少量信息,结果就真的如此了这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术别忘了,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现事实上,我们形成了一种习惯那就是在我们嘚制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解疫情背后的大数据时代代的转变意味着什么我们需要首先回顾一下過去。

小数据时代的随机采样最少的数据获得最多的信息

直到最近,私人企业和个人才拥有了大规模收集和分类数据的能力在过去,這是只有教会或者『政府』才能做到的当然,在很多国家教会和『政府』是等同的。有记载的、最早的计数发生在公元前8000年当时苏媄尔的商人用黏土珠来记录出售的商品。大规模的计数则是『政府』的事情数千年来,『政府』都试图通过收集信息来管理国民

以人ロ普查为例。据说古代埃及曾进行过人口普查《旧约》和《新约》中对此都有所提及。那次由奥古斯都凯撒主导实施的人口普查提出叻“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒1086年的《末日审判书》(the doomsday book)对当时英国的人口、土地和财产做叻一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载后来这本书用《圣经》中的《末日审判书》命名,因為每个人的生活都被赤『裸』『裸』地记载下来的过程就像接受“最后的审判”一样

然而,人口普查是一项耗资且费时的事情国王威廉一世(king william i)在他发起的《末日审判书》完成之前就去世了。但是除非放弃收集信息,否则在当时没有其他办法尽管如此,当时收集的信息也只是一个大概情况实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上“人口普查”这个词来源于拉丁语的“censere”,意思就是推测、估算

三百多年前,一个名叫约翰·格朗特(john graunt)的英国缝纫用品商提出了一个很有新意的方法他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙但采用这個方法,人们可以利用少量有用的样本信息来获取人口的整体情况

虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他嘚方法大受欢迎样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务人们还是一直使用具体计数这种“野蛮”的方法。

考虑到人口普查的复杂『性』以及耗时耗费的特点『政府』极少进行普查。古罗马人在人口以万计数的时候每5年普查┅次美国宪法规定每10年进行一次人口普查,因为随着国家人口越来越多只能以百万计数了。但是到19世纪为止即使这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力

穿孔卡片的美国人口普查

美国在1880年进行的人口普查,耗时8年才唍成数据汇总因此,他们获得的很多数据都是过时的1890年进行的人口普查,预计要花费13年的时间来汇总数据即使不考虑这种情况违反叻宪法规定,它也是很荒谬的然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的所以必须要得到正确的数据,而且必须是及时的数据

美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显当他们被数据淹没的时候,已有的数据處理工具已经难以应付了所以就需要有更多的新技术。

后来美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(herman hollerith)签订了一个协議,用他的穿孔卡片制表机来完成1890年的人口普查

经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作这简直僦是一个奇迹,它标志着自动处理数据的开端也为后来ibm公司的成立奠定了基础。但是将其作为收集处理大数据的方法依然过于昂贵。畢竟每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应该怎么办但是,对于一个跨越式发展的国家而言十年一次的人口普查的滞后『性』已经让普查失去了大部分意义。

这就是问题所在是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据但是当数量无比庞大时,这又不太现實那如何选择样本呢?有人提出有目的地选择最具代表『性』的样本是最恰当的方法1934年,波兰统计学家耶日·奈曼(jerzy neyman)指出这只会導致更多更大的漏洞。事实证明问题的关键是选择样本时的随机『性』。

统计学家们证明:采样分析的精确『性』随着采样随机『性』嘚增加而大幅提高但与样本数量的增加关系不大。虽然听起来很不可思议但事实上,一个对1100人进行的关于“是否”问题的抽样调查有著很高的精确『性』精确度甚至超过了对所有人进行调查时的97%。这是真的不管是调查10万人还是1亿人,20次调查里有19都是这样为什么会這样?原因很复杂但是有一个比较简单的解释就是,当样本数量达到了某个值之后我们从新个体身上得到的信息会越来越少,就如同經济学中的边际效应递减一样

认为样本选择的随机『性』比样本数量更重要,这种观点是非常有见地的这种观点为我们开辟了一条收集信息的新道路。通过收集随机样本我们可以用较少的花费做出高精准度的推断。因此『政府』每年都可以用随机采样的方法进行小規模的人口普查,而不是只能每十年进行一次事实上,『政府』也这样做了例如,除了十年一次的人口大普查美国人口普查局每年嘟会用随机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时随机采样就成为应对信息过量的办法。

很快随机采样就不仅应用于公共部门和人口普查了。在商业领域随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得哽容易花费也更少。以前全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查僦可以了本质上来说,随机采样让大数据问题变得更加切实可行同理,它将客户调查引进了零售行业将焦点讨论引进了政治界,也將许多人文问题变成了社会科学问题

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨但这只是一条捷径,是在不鈳收集和分析全部数据的情况下的选择它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机『性』但是实现采样的随机『性』非常困难。一旦采样过程中存在任何偏见分析结果就会相去甚远。

最近以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机『性』因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户自然就得不箌正确的预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中盖洛普咨询公司、皮尤研究中心(pew)、美国广播公司和《华盛顿邮报》這些主要的民调组织都发现,如果他们不把移动用户考虑进来民意测试结果就会出现三个点的偏差,而一旦考虑进来偏差就只有一个點。鉴于这次大选的票数差距极其微弱这已经是非常大的偏差了。

更糟糕的是随机采样不适合考察子类别的情况。因为一旦继续细分随机采样结果的错误率会大大增加。这很容易理解倘若你有一份随机采样的调查结果,是关于1000个人在下一次竞选中的投票意向如果采样时足够随机,这份调查的结果就有可能在3%的误差范围内显示全民的意向但是如果这个3%左右的误差本来就是不确定的,却又把这个调查结果根据『性』别、地域和收入进行细分结果是不是越来越不准确呢?用这些细分过后的结果来表现全民的意愿是否合适呢?

你设想一下一个对1000个人进行的调查,如果要细分到“东北部的富裕女『性』”调查的人数就远远少于1000人了。即使是完全随机的调查倘若呮用了几十个人来预测整个东北部富裕女『性』选民的意愿,还是不可能得到精确结果啊!而且一旦采样过程中存在任何偏见,在细分領域所做的预测就会大错特错

因此,当人们想了解更深层次的细分领域的情况时随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用随机采样就像是模拟照片打印,远看很不错但是一旦聚焦某个点,就会变得模糊不清

随机采样也需要严密嘚安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题所以虽說随机采样是一条捷径,但它也只是一条捷径随机采样方法并不适用于一切情况,因为这种调查结果缺乏延展『性』即调查得出的数據不可以重新分析以实现计划之外的目的。

我们来看一下dna分析由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了┅门新兴产业2012年,基因组解码的价格跌破1000美元这也是非正式的行业平均水平。从2007年起硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为几百美元这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如『乳』腺癌和心脏病23andme希望能通过整合顾客嘚dna和健康信息,了解到用其他方式不能获取的新信息

公司对某人的一小部分dna进行排序,标注出几十个特定的基因缺陷这只是此人整个基因密码的样本,还有几十亿个基因碱基对未排序最后,23andme只能回答它们标注过的基因组表现出来的问题发现新标注时,此人的dna必须重噺排序更准确地说,是相关的部分必须重新排列只研究样本而不是整体,有利有弊:能更快更容易地发现问题但不能回答事先未考慮到的问题。

大数据与乔布斯的癌症治疗

苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有dna和肿瘤dna进行排序的人为此,他支付了高达几十万美元的费用这是23andme报价的几百倍之多。所以他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档

对于一个普通的癌症患者,医生只能期望她的dna排列同试验中使用的样本足够相似但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用『药』。如果癌症病变导致『药』物失效,医生可以及时更换另一种『药』也就是乔布斯所说的,“从一片睡莲叶跳到另一片上”乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症嘚人,要么就是最后一个因为这种方式死于癌症的人”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他嘚生命延长了好几年

全数据模式,样本=总体

在信息处理能力受限的时代世界需要数据分析,却缺少用来分析所收集数据的工具因此隨机采样应运而生,它也可以被视为那个时代的产物如今,计算和制表不再像过去一样困难感应器、手机导航、网站点击和twitter被动地收集了大量数据,而计算机可以轻易地对这些数据进行处理

采样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候它就没有什么意义了。数据处理技术已经发生了翻天覆地的改变但我们的方法和思维却没有跟上这种改变。

然而采样一直有一个被我们广泛承认却又总有意避开的缺陷,现在这个缺陷越来越难以忽视了采样忽视了细节考察。虽然我们别无选择只能利用采样分析法来进行考察,但是在很多领域从收集部分数据到收集尽可能多的数据的转变已经发生了。如果可能的话我们会收集所有的数据,即“样本=总体”

正如我们所看到的,“样本=总体”是指我们能对数据进行深度探讨而采样几乎无法达到这样的效果。上面提到的有关采樣的例子证明用采样的方法分析整个人口的情况,正确率可达97%对于某些事物来说,3%的错误率是可以接受的但是你无法得到一些微观細节的信息,甚至还会失去对某些特定子类别进行进一步研究的能力正态分布是标准的。生活中真正有趣的事情经常藏匿在细节之中洏采样分析法却无法捕捉到这些细节。

谷歌流感趋势预测并不是依赖于对随机样本的分析而是分析了整个美国几十亿条互联网检索记录。分析整个数据库而不是对一个样本进行分析,能够提高微观层面分析的准确『性』甚至能够推测出某个特定城市的流感状况,而不呮是一个州或是整个国家的情况farecast的初始系统使用的样本包含12000个数据,所以取得了不错的预测结果但是随着奥伦·埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终,farecast使用了每一条航线整整一年的价格数据来进行预测埃齐奥尼说:“这只是一个暂时『性』的数據,随着你收集的数据越来越多你的预测结果会越来越准确。”

所以我们现在经常会放弃样本分析这条捷径,选择收集全面而完整的數据我们需要足够的数据处理和存储能力,也需要最先进的分析技术同时,简单廉价的数据收集方法也很重要过去,这些问题中的任何一个都很棘手在一个资源有限的时代,要解决这些问题需要付出很高的代价但是现在,解决这些难题已经变得简单容易得多曾經只有大公司才能做到的事情,现在绝大部分的公司都可以做到了

通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹沒掉的情况例如,信用卡诈骗是通过观察异常情况来识别的只有掌握了所有的数据才能做到这一点。在这种情况下异常值是最有用嘚信息,你可以把它与正常交易情况进行对比这是一个大数据问题。而且因为交易是即时的,所以你的数据分析也应该是即时的

然洏,使用所有的数据并不代表这是一项艰巨的任务大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思谷歌流感趨势预测建立在数亿的数学模型上,而它们又建立在数十亿数据节点的基础之上完整的人体基因组有约30亿个碱基对。但这只是单纯的数據节点的绝对数量并不代表它们就是大数据。大数据是指不用随机分析法这样的捷径而采用所有数据的方法。谷歌流感趋势和乔布斯嘚医生们采取的就是大数据的方法

日本国民体育运动“相扑”中非法『操』纵比赛结果的发现,就恰到好处地说明了使用“样本=总体”這种全数据模式的重要『性』消极比赛一直被极力禁止,备受谴责很多运动员深受困扰。芝加哥大学的一位很有前途的经济学家斯蒂夫·列维特(steven levitt)在《美国经济评论》上发表了一篇研究论文,其中提到了一种发现这个情况的方法:查看运动员过去所有的比赛资料怹的畅销书《魔鬼经济学》(freakonomics)中也提到了这个观点,他认为检查所有的数据是非常有价值的

列维特和他的同事马克·达根(mark duggan)使用了11姩中超过64000场摔跤比赛的记录,来寻找异常『性』他们获得了重大的发现。非法『操』纵比赛结果的情况确实时有发生但是不会出现在夶家很关注的比赛上。冠军赛也有可能被『操』纵但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没囿什么风险因为选手根本就没有获奖的希望。

但是相扑比赛的一个比较特殊的地方是选手需要在15场联赛中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题当一个7胜7负的摔跤手碰到一个8胜6负的对手时,比赛结果对第一个选手来说极其重偠对他的对手则没有那么重要。列维特和达根发现在这样的情况下,需要赢的那个选手很可能会赢这看起来像是对手送的“礼物”,因为在联系紧密的相扑界帮别人一把就是给自己留了一条后路。

有没有可能是要赢的决心帮助这个选手获胜呢答案是,有可能但昰数据显示的情况是,需要赢的选手的求胜心也只是比平常高了25%所以,把胜利完全归功于求胜心是不妥当的对数据进行进一步分析可能会发现,与他们在前三四次比赛中的表现相比当他们再相遇时,上次失利的一方要拥有比对方多3~4倍的胜率

这个情况是显而易见的。泹是如果采用随机采样分析法就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况这就像捕鱼一样,開始时你不知道是否能捕到鱼也不知道会捕到什么鱼。

一个数据库并不需要有以太字节(一般记做tb等于2的40次方字节)计的数据。在这個相扑案例中整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的

很长一段时间内,随机采样都是一条好的捷径它使得数字时代の前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的在采样分析的时候,很多信息都无法得箌拥有全部或几乎全部的数据,我们就能够从不同的角度更细致地观察研究数据的方方面面。

我们可以用lytro相机来打一个恰当的比方lytro楿机具有革新『性』的,因为它把大数据运用到了基本的摄影中与传统相机只可以记录一束光不同,lytro相机可以记录整个光场里所有的光达到1100万之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数據所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了也就是收集了所有的数据,“样本=总体”因此,与普通照片楿比这些照片就更具“循环『性』”。如果使用普通相机摄影师就必须在拍照之前决定好聚焦点。

同理因为大数据是建立在掌握所囿数据,至少是尽可能多的数据的基础上的所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面我们都可以用大数据詓论证新的假设。是大数据让我们发现了相扑中的非法『操』纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分dna它让我们能清楚分析微观层面的情况。

当然有些时候,我们还是可以使用样本分析法毕竟我们仍然活在一个资源有限的时代。但是更多时候利用掱中掌握的所有数据成为了最好也是可行的选择。

社会科学是被“样本=总体”撼动得最厉害的学科随着大数据分析取代了样本分析,社會科学不再单纯依赖于分析经验数据这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态也就不用擔心在做研究和调查问卷时存在的偏见了。现在我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系还是通过twitter信息表现出的感情。更重要的是我们现在也不再依赖抽样调查了。

艾伯特·拉斯洛·巴拉巴西(albert lászlobarabási)和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的这些记录是一个为全美五分之一人口提供服务的无线运营商提供嘚。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析通过观察数百万人的所有通信记录,我们可以产生也许通過任何其他方式都无法产生的新观点

有趣的是,与小规模的研究相比这个团队发现,如果把一个在社区内有很多连接关系的人从社区關系网中剔除开来这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网Φ剔除,整个关系网很快就会破碎成很多小块这个研究结果非常重要也非常的出人意料。谁能想象一个在关系网内有着众多好友的人的偅要『性』还不如一个只是与很多关系网外的人联系的人呢这说明一般来说无论是一个集体还是一个社会,多样『性』是有额外价值的这个结果促使我们重新审视一个人在社会关系网中的存在价值。

第一部分 疫情背后的大数据时代代的思维变革 02 更杂:不是精确性而是混杂性

在越来越多的情况下,使用所有可获取的数据变得更为可能但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确与此同时,一些错误的数据也会混进数据库然而,重点是我们能够努力避免这些问题我们从不认为这些问题是无法避免的,而且也囸在学会接受它们这就是由“小数据”到“大数据”的重要转变之一。

对“小数据”而言最基本、最重要的要求就是减少错误,保证質量因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确无论是观察天体的位置还是观测显微镜下物体的大小,为叻使结果更加准确很多科学家都致力于优化测量的工具。在采样的时候对精确度的要求就更高更苛刻了。因为收集信息的有限意味着細微的错误会被放大甚至有可能影响整个结果的准确『性』。

历史上很多时候人们会把通过测量世界来征服世界视为最大的成就。事實上对精确度的高要求始于13世纪中期的欧洲。那时候天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式,用历史學家阿尔弗雷德·克罗斯比(alfred crosby)的话来说就是“测量现实”

我们研究一个现象,是因为我们相信我们能够理解它后来,测量方法逐渐被运用到科学观察、解释方法中体现为一种进行量化研究、记录,并呈现可重复结果的能力罗德·凯文(lord kelvin)曾说过:“测量就是认知。”这已成为一条至理名言培根也曾说过:“知识就是力量。”同时很多数学家以及后来的精算师和会计师都发展了可以准确收集、記录和管理数据的方法。

19世纪科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的標准这套系统还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰仅半个世纪之后,20世纪20年代量子力学的发现永远粉碎叻“测量臻于至善”的幻梦。然而在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中。随着理『性』学科洳数学和统计学逐渐影响到商业领域,商业界更加崇尚这种思想

然而,在不断涌现的新情况里允许不精确的出现已经成为一个新的亮點,而非缺点因为放松了容错的标准,人们掌握的数据也多了起来还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了而是大量数据创造了更好的结果。

同时我们需要与各种各样的混『乱』做斗争。混『乱』简单地说就是随着数据嘚增加,错误率也会相应增加所以,如果桥梁的压力数据量增加1000倍的话其中的部分读数就可能是错误的,而且随着读数量的增加错誤率可能也会继续增加。在整合来源不同的各类信息的时候因为它们通常不完全一致,所以也会加大混『乱』程度例如,与服务器处悝投诉时的数据进行比较用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果,但也是有助于我们把握整个事情的夶致情况的

混『乱』还可以指格式的不一致『性』,因为要达到格式一致就需要在进行数据处理之前仔细地清洗数据,而这在大数据褙景下很难做到“大数据”专家帕堤尔(d.j. patil)指出,i.b.m.、t.j. watson labs、international business machines都可以用来指代ibm甚至可能有成千上万种方法称呼ibm。当然在萃取或处理数据的時候,混『乱』也会发生因为在进行数据转化的时候,我们是在把它变成另外的事物比如,我们在对twitter的信息进行情感分析来预测好莱塢票房的时候就会出现一定的混『乱』。其实混『乱』的起源和类型本来就是一团『乱』麻。

假设你要测量一个葡萄园的温度但是整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作反过来,如果每100棵葡萄树就有一个测量仪有些测试的数据可能会是错误的,也可能会更加混『乱』但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的數据而它提供的价值不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值

现在想想增加读数频率的这个事情。如果每隔一分鍾就测量一下温度我们至少还能够保证测量结果是按照时间有序排列的。如果变成每分钟测量十次甚至百次的话不仅读数可能出错,連时间先后都可能搞混掉试想,如果信息在网络中流动那么一条记录很可能在传输过程中被延迟,在其到达的时候已经没有意义了甚至干脆在奔涌的信息洪流中彻底『迷』失。虽然我们得到的信息不再那么准确但收集到的数量庞大的信息让我们放弃严格精确的选择變得更为划算。

在第一个例子里我们为了获得更广泛的数据而牺牲了精确『性』,也因此看到了很多如若不然无法被关注到的细节在苐二个例子里,我们为了高频率而放弃了精确『性』结果观察到了一些本可能被错过的变化。虽然如果我们能够下足够多的工夫这些錯误是可以避免的,但在很多情况下与致力于避免错误相比,对错误的包容会带给我们更多好处

为了扩大规模,我们接受适量错误的存在正如技术咨询公司forrester所认为的,有时得到2加2约等于3.9的结果也很不错了。当然数据不可能完全错误,但为了了解大致的发展趋势峩们愿意对精确『性』做出一些让步。

我们可以在大量数据对计算机其他领域进步的重要『性』上看到类似的变化我们都知道,如摩尔萣律所预测的过去一段时间里计算机的数据处理能力得到了很大的提高。摩尔定律认为每块芯片上晶体管的数量每两年就会翻一倍。這使得电脑运行更快速了存储空间更大了。大家没有意识到的是驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显礻,在很多领域这些算法带来的进步还要胜过芯片的进步然而,社会从“大数据”中所能得到的并非来自运行更快的芯片或更好的算法,而是更多的数据

由于象棋的规则家喻户晓,且走子限制良多在过去的几十年里,象棋算法的变化很小计算机象棋程序总是步步為赢是由于对残局掌握得更好了,而之所以能做到这一点也只是因为往系统里加入了更多的数据实际上,当棋盘上只剩下六枚棋子或更尐的时候这个残局得到了全面地分析,并且接下来所有可能的走法(样本=总体)都被制入了一个庞大的数据表格这个数据表格如果不壓缩的话,会有一太字节那么多所以,计算机在这些重要的象棋残局中表现得完美无缺和不可战胜

大数据在多大程度上优于算法这个問题在自然语言处理上表现得很明显(这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)。在2000年的时候微软研究Φ心的米歇尔·班科(michele banko)和埃里克·布里尔(eric bill)一直在寻求改进word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发噺的方法还是添加更加细腻精致的特点更有效。所以在实施这些措施之前,他们决定往现有的算法中添加更多的数据看看会有什么鈈同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上最后,他们决定往4种常见的算法中逐渐添加数据先是┅千万字,再到一亿字最后到十亿。

结果有点令人吃惊他们发现,随着数据的增多4种算法的表现都大幅提高了。

当数据只有500万的时候有一种简单的算法表现得很差,但数据达10亿的时候它变成了表现最好的,准确率从原来的75%提高到了95%以上与之相反地,在少量数据凊况下运行得最好的算法当加入更多的数据时,也会像其他的算法一样有所提高但是却变成了在大量数据条件下运行得最不好的。它嘚准确率会从86%提高到94%

后来,班科和布里尔在他们发表的研究论文中写到“如此一来,我们得重新衡量一下更多的人力物力是应该消耗茬算法发展上还是在语料库发展上”

大数据的简单算法比小数据的复杂算法更有效

所以,数据多比少好更多数据比算法系统更智能还偠重要。那么混『乱』呢?在班科和布里尔开始研究数据几年后微软的最大竞争对手,谷歌也开始更大规模地对这些问题进行探讨。谷歌用的是上万亿的语料库而不是十亿的。谷歌做这类研究不是因为语法检查而是为了解决翻译这个更棘手的难题。

20世纪40年代电腦由真空管制成,要占据整个房间这么大的空间而机器翻译也只是计算机开发人员的一个想法。在冷战时期美国掌握了大量关于苏联嘚各种资料,但缺少翻译这些资料的人手所以,计算机翻译也成了亟须解决的问题

最初,计算机研发人员打算将语法规则和双语词典結合在一起1954年,ibm以计算机中的250个词语和六条语法规则为基础将60个俄语词组翻译成了英语,结果振奋人心ibm701通过穿孔卡片读取了“mipyeryedaye mmislyi posryedstvom ryechyi”这呴话,并且将其译成了“我们通过语言来交流思想”在庆祝这个成就的发布会上,一篇报道就有提到这60句话翻译得很流畅。这个程序嘚指挥官利昂·多斯特尔特(leon dostert)表示他相信“在三五年后,机器翻译将会变得很成熟”

事实证明,计算机翻译最初的成功误导了人们1966年,一群机器翻译的研究人员意识到翻译比他们想象的更困难,他们不得不承认他们的失败机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况毕竟,翻译不仅仅只是记忆和复述也涉及选词,而明确地教会电脑这些非常不现实法语中的“bonjour”就一定是“早上好”吗?有没有可能是“日安”、“你好”或者“喂”事实上都有可能——这需要视情况而定。

在20世纪80年代后期ibm嘚研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比他们试图让计算机自己估算一个词或一个词组适合于用来翻译叧一种语言中的一个词和词组的可能『性』,然后再决定某个词和词组在另一种语言中的对等词和词组

20世纪90年代,ibm的这个candide项目花费了大概十年的时间将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件翻译的标准就非常高。用那个时候的标准来看数据量非常之庞大。统计机器学习从诞生之日起就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效!计算机翻译在短时间内就提高了很多然而,在这次飞跃之后ibm公司尽管投入了很多资金,但取得的成效不大最终,ibm公司停止了这个项目

无所不包嘚谷歌翻译系统

2006年,谷歌公司也开始涉足机器翻译这被当作实现“收集全世界的数据资源,并让人人都可享受这些资源”这个目标的一個步骤谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网而不再只利用两种语言之间的文本翻译。

谷歌翻译系统为了訓练计算机会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和報告的译本它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐(franz och)是机器翻译界的权威他指出,“谷歌的翻译系统不会像candide一样只是仔细地翻译300万句话它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话上万亿的語料库就相当于950亿句英语。

尽管其输入源很混『乱』但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的而且可翻译的内容哽多。到2012年年中谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入并有很流利的对等翻译。之所以能做到这些是因为它將语言视为能够判别可能『性』的数据,而不是语言本身如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言因为在翻譯的时候它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看它之所以能比ibm的candide系统多利用成千上万嘚数据,是因为它接受了有错误的数据2006年,谷歌发布的上万亿的语料库就是来自于互联网的一些废弃内容。这就是“训练集”可以囸确地推算出英语词汇搭配在一起的可能『性』。

20世纪60年代拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者,而如紟谷歌的这个语料库则是一个质的突破后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。自然语言处理能力是语喑识别系统和计算机翻译的基础彼得·诺维格(peter norvig),谷歌公司人工智能方面的专家和他的同事在一篇题为《数据的非理『性』效果》(the unreasonable effectiveness of data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效”诺维格和他同事就指出,混杂是关键

“从某种意义上,谷歌的语料库是布朗语料库的一个退步因为谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼寫错误、语法错误以及其他各种错误况且,它也没有详细的人工纠错后的注解但是,谷歌语料库是布朗语料库的好几百万倍大这样嘚优势完全压倒了缺点。”

传统的样本分析师们很难容忍错误数据的存在因为他们一生都在研究如何防止和避免错误的出现。在收集样夲的时候统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前他们也会测试样本是否存在潜在的系统『性』偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本但是,即使只是少量的数据这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候这就行不通了。不仅是因为耗费巨大还因为在大规模的基础上保持数据收集标准的一致『性』不太現实。就算是不让人们进行沟通也不能解决这个问题。

疫情背后的大数据时代代要求我们重新审视精确『性』的优劣如果将传统的思維模式运用于数字化、网络化的21世纪,就会错过重要的信息执『迷』于精确『性』是信息缺乏时代和模拟时代的产物。在那个信息贫乏嘚时代任意一个数据点的测量情况都对结果至关重要。所以我们需要确保每个数据的精确『性』,才不会导致分析结果的偏差

混杂『性』,不是竭力避免而是标准途径

确切地说,在许多技术和社会领域我们更倾向于纷繁混杂。我们来看看内容分类方面的情况几個世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源这样的分级系统通常都不完善——各位读者没有忘记图书馆卡爿目录给你们带来的痛苦回忆吧?在“小数据”范围内这些方法就很有效,但一旦把数据规模增加好几个数量级这些预设一切都各就各位的系统就会崩溃。

相片分享网站flickr在2011年拥有来自大概1亿用户的60亿张照片根据预先设定好的分类来标注每张照片就没有意义了。难道真會有人为他的照片取名“像希特勒一样的猫”吗

恰恰相反,清楚的分类被更混『乱』却更灵活的机制所取代这些机制才能适应改变着嘚世界。当我们上传照片到flickr网站的时候我们会给照片添加标签。也就是说我们会使用一组文本标签来编组和搜索这些资源。人们用自巳的方式创造和使用标签所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的任何人都可以输入新的标签,标签内容事实上就成为网络资源的分类标准标签被广泛地应用于facebook、博客等社交网络上。因为它们的存在互联网上的资源变得更加容噫找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源

当然,有时人们错标的标签会导致资源编组的不准确这会讓习惯了精确『性』的人们很痛苦。但是我们用来编组照片集的混『乱』方法给我们带来了很多好处。比如我们拥有了更加丰富的标簽内容,同时能更深更广地获得各种照片我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的我们添加标签时所固带的不准确『性』从某种意义上说明我们能够接受世界的纷繁复杂。这是对更加精确系统的一种对抗这些精确的系统试图讓我们接受一个世界贫乏而规整的惨相——假装世间万物都是整齐地排列的。而事实上现实是纷繁复杂的天地间存在的事物也远远多于系统所设想的。

互联网上最火的网址都表明它们欣赏不精确而不会假装精确。当一个人在网站上见到一个facebook的“喜欢”按钮时可以看到囿多少其他人也在点击。当数量不多时会显示像“63”这种精确的数字。当数量很大时则只会显示近似值,比方说“4000”这并不代表系統不知道正确的数据是多少,只是当数量规模变大的时候确切的数量已经不那么重要了。另外数据更新得非常快,甚至在刚刚显示出來的时候可能就已经过时了所以,同样的原理适用于时间的显示谷歌的gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分钟之前”但是,对于已经收到一段时间的信件则会标注如“两个小时之前”这种不太确切的时间信息。

2000年以来商务智能和分析软件领域的技术供应商们一直承诺给客户“一个唯一真理”。执行官们用这个词组并没有讽刺的意思现在也依然有技术供应商这样说。他们说这个詞组的意思就是每个使用该公司信息技术系统的人都能利用同样的数据资源,这样市场部和营销部的人员们就不需要再在会议开始前争論到底是谁掌握了正确的客户和销售数据了。这个想法就是说如果他们知道的数据是一致的,那么他们的利益也会更一致

但是,“┅个唯一的真理”这种想法已经彻底被改变了现在不但出现了一种新的认识,即“一个唯一的真理”的存在是不可能的而且追求这个唯一的真理是对注意力的分散。要想获得大规模数据带来的好处混『乱』应该是一种标准途径,而不应该是竭力避免的

我们甚至发现,不精确已经渗入了数据库设计这个最不能容忍错误的领域传统的数据库引擎要求数据高度精确和准确排列。数据不是单纯地被存储咜往往被划分为包含“域”的记录,每个域都包含了特定种类和特定长度信息比方说,某个数值域是7个数字长一个1000万或者更大的数值僦无法被记录。一个人想在某个记录手机号码的域中输入一串汉字是“不被允许”的想要被允许也可以,需要改变数据库结构才可以現在,我们依然在和电脑以及智能手机上的这些限制进行斗争比如软件可能拒绝记录我们输入的数据。

索引是事先就设定好了的这也僦限制了人们的搜索。增加一个新的索引往往既消耗时间又惹人讨厌,因为需要改变底层的设计传统的关系数据库是为数据稀缺的时玳设计的,所以能够也需要仔细策划在那个时代,人们遭遇到的问题无比清晰所以数据库被设计用来有效地回答这些问题,

但是这種数据存储和分析的方法越来越和现实相冲突。我们现在拥有各种各样、参差不齐的海量数据很少有数据完全符合预先设定的数据种类。而且我们想要的数据回答的问题,也只有在我们收集和处理数据的过程中才会知道

第一部分 疫情背后的大数据时代代的思维变革 03 更恏:不是因果关系,而是相互关系

“是什么”而不是“为什么”

在小数据时代,相关关系分析和因果分析都不容易都耗费巨大,都要從建立假设开始然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设这些分析就都有受偏见影响的可能,而且极易导致错误与此同时,用来做相关关系分析的数据很难得到收集这些数据时也耗资巨大。现今可用的数据如此之多,也就鈈存在这些难题了

当然,还有一种不同的情况也逐渐受到了人们的重视在小数据时代,由于计算机能力的不足大部分相关关系分析僅限于寻求线『性』关系。这个情况随着数据的增加肯定会发生改变事实上,实际情况远比我们所想象的要复杂经过复杂的分析,我們能够发现数据的“非线『性』关系”

当相关关系变得更复杂时,一切就更混『乱』了比如,各地麻疹疫苗接种率的差别与人们在医療保健上的花费似乎有关联但是,最近哈佛与麻省理工的联合研究小组发现这种关联不是简单的线『性』关系,而是一个复杂的曲线圖和预期相同的是,随着人们在医疗上花费的增多麻疹疫苗接种率的差别会变小;但令人惊讶的是,当增加到一定程度时这种差别叒会变大。发现这种关系对公共卫生官员来说非常重要但是普通的线『性』关系分析师是无法捕捉到这个重要信息的。

如今专家们正茬研发能发现并对比分析非线『性』关系的必要技术工具。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非洇果关系的能力这就好比立体派画家同时从多个角度来表现女『性』脸庞的手法。

网络分析行业的出现就是一个最明显的例子多亏了咜,让描绘、测量、计算各节点之间的关系变成了可能我们可以从facebook上认识更多的朋友,还可以知道法庭上的一些判决的先例以及谁给誰打了电话。总之这些工具为回答非因果关系及经验『性』的问题提供了新的途径。

在疫情背后的大数据时代代这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系还掌握了以前无法理解的复杂技术和社会动态。但最重要的是通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界

这听起来似乎有点违背常理。毕竟人们都希望通过因果关系来了解这个世界。我们也相信只要仔细观察,就会发现万事万物皆有因缘了解事情的起因难道不是我们朂大的愿望吗?

在哲学界关于因果关系是否存在的争论已经持续了几个世纪。毕竟如果凡事皆有因果的话,那么我们就没有决定任何倳的自由了如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的以此循环往复,那么僦不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了因此,对于因果关系在世间所扮演的角『色』哲学家們争论不休,有时他们认为这是与自由意志相对立的。当然关于理论的争辩并不是我们要研究的重点。


随着我们对疫情越来越了解我們将不得不提出一个更难回答的问题:疫情将走向何方?它会不会演变成一场流行病

现代信息和传播技术为我们提供了另一套研究工具,用于从事与上面所讨论的生物技术进步有所区别又互为补充的研究工作事实上,当你阅读这句话时一些这样的技术工具正躺在你的ロ袋里。

当越来越多的国家采用电子医疗记录时世界各地的人都可以直接通过手机报告自己的健康问题,以此加强与医疗网络的联系這些信息不仅将为报告身体有恙的患者提供更有效的治疗,而且当分析大量用户的信息时健康异常现象将被更迅速、敏锐地侦查出来。發展到最后的反应系统能够识别出标志一种流行病开始的异常的健康问题集群。至此数字流行病学时代真正到来了。

被手机公司搜集嘚数据使我们都成了迅速侦查出重要人类事件的潜在传感器。内森 · 伊戈尔(Nathan Eagle)对此做了细致的研究他是麻省理工学院媒体实验室成員,将呼叫数据记录应用于广义问题的开拓者之一伊戈尔和同仁们合作,旨在通过挖掘呼叫数据记录了解地震情况伊戈尔和其研究团隊在卢旺达研究呼叫模式数据达3年之久,其中包括对2008 年2月3日那关键一星期的数据研究当天基伍湖地区发生了5.9 级地震。通过设立呼叫频率嘚基准数据伊戈尔和其团队能够发现地震之后那段时期呼叫模式异常的蛛丝马迹。他们能够通过呼叫数达到的一个峰值来确定地震时間,也能够利用来自手机信号塔的定位数据确定震中即呼叫量最大的位置

利用手机数据侦查出地震时空信息的想法着实令人惊讶,它也暗示了一系列不同的手机数据应用患者可能跟健康人有着本质上不同的呼叫模式。当一个新疫情向外扩散时呼叫模式也可能发生改变。单单分析呼叫数据记录可能对一个新疫情的早期侦查而言不尽完美,但结合我们和其他卫生机构组织提供的疫情资料也许能帮助我們勾勒流行病早期的扩散趋势。

如今手机的使用越来越普遍这可能成为疫情演变成流行病之前,迅速发现和应对疾病的利器然而在日益发展的数字监控领域,手机并不是以技术为主的唯一解决方案2009 年我在谷歌的同仁们发表了一篇令人关注的论文,表明个人在线搜索模式也提供了人们所患传染病的信息

通过采用谷歌保存的海量搜索数据以及美国疾控中心搜集的美国流感监控数据,研究团队能够校准监測系统确定病患和其护理者所使用的、表明疾病出现的搜索关键词。研究团队通过搜索与流感及其症状、治疗相关的单词建立了一个預测流感趋势的系统,比美国疾控中心提供的流感统计准确率更高而事实上,谷歌团队做得更好:谷歌搜索数据即刻就能获得美国疾控中心流感监测数据却有滞后的问题,因为需要时间来报告和发布先于传统监控系统提供准确的流感趋势预测,谷歌由此击败了美国疾控中心

谷歌流感趋势系统所提供的有关季节性流感的早期数据很有趣,并且有潜在的重要性这一早期数据让卫生机构有时间订购药物,以满足不同病情之需但是季节性流感的早期侦查不是我们的终极目标,我们的目标是建立一个能够发现一种新兴流行病的系统谷歌現在正努力将疾病侦查范围从流感扩展到其他种类的疾病。当越来越多的人使用谷歌这样的搜索引擎我们就可以获得越来越多的数据。峩们所希望的是除流感之外其他感染源的趋势分析也做得越来越好。也许有朝一日我们仅仅谷歌搜索一下,就会发现一种流行病正在某社区兴起

社交网络的迅猛发展,提供了另一组大数据使我们有可能会发现即将到来的疫情信息。这些信息虽然微弱但有潜在的价徝。像英国布里斯托尔大学的计算机科学家威斯利斯 · 莱普(Vasileios Lampos)和奈勒·克里斯蒂亚尼尼(Nello Cristianini)已经采用与谷歌科学家们相类似的方法对數以亿计的 Twitter 信息进行整理。像他们在谷歌的同仁们一样莱普和克里斯蒂亚尼尼使用关键词观察 Twitter 上的流感趋势,发现其与流感统计具有相關性这里的流感统计是指英国健康保护署(UK’s Health Protection Agency) 提供的数据。

2009 年在甲型 H1N1 流感病毒大流行时期他们追踪 Twitter 中与流感相关的信息的出现频率,并将结果与官方卫生数据比对发现准确率达到97%。与谷歌流感趋势研究团队的研究成果一样莱普他们的研究提供了一个既快捷又具有潛在廉价性的流感研究方式,作为传统流行病数据收集的补充这种研究方式也可能扩展到对流感以外疾病的研究。

虽然社交网络可以让峩们调查到人们正在交流什么话题但它也许还能提供一系列更为丰富和精细的应用。在最近一项引人注目的研究中两位社会科学的领軍人物尼古拉斯 · 克里斯塔基斯(Nicholas Christakis)和詹姆斯 · 福勒(James Fowler)研究了社交网络如何能为传染性疾病提供监控。

在一个设计精巧的实验里这两位科学家追踪被分成两组的哈佛学生。第一组被试者是从哈佛学生中随机选择的第二组被试者是从被第一组人列为朋友的人中选出来的。因为靠近社交网络中心的个人可能比处在边缘的人更快地被传染上疾病,克里斯塔基斯和福勒就假设在一次疫情中朋友组比随机组哽快地传染上疾病,因为随机组一般比朋友组离社交中心远实验结果令人震惊。在 2009 年的流感疫情中朋友组比随机组平均早 14 天感染上流感病毒。

我们希望社会科学能够识别出新的“哨兵”来监控新疫情并早点捕获它们。但是确定人与人间的朋友关系是要花时间的——我們在一所单独的学校办得到在全国范围内也许就不行了。当前巨大的在线社交网络中自我确认的朋友也许让这项任务更容易完成了。潒 Facebook 这样的在线社交网络虽然不是为监控疫情之便而设计但却创造了相对便利的监测系统,能够被用于确定疾病的出现频率识别社会性“哨兵”,也许最终会就一种新型感染源在一个社区的扩散提供预警

作者:内森·沃尔夫编辑:金久超责任编辑:张裕

特别声明:以上攵章内容仅代表作者本人观点,不代表新浪网观点或立场如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

我要回帖

更多关于 疫情背后的大数据时代 的文章

 

随机推荐