第一部分大數(shù)據(jù)時代的思維變革03更好:不是因果關(guān)系,而是相互關(guān)系
“是什么”,而不是“為什么”
在小數(shù)據(jù)時代,相關(guān)關(guān)系分析和因果分析都不容易,都耗費(fèi)巨大,都要從建立假設(shè)開始。然后我們會進(jìn)行實(shí)驗(yàn)——這個假設(shè)要么被證實(shí)要么被推翻。但由于兩者都始于假設(shè),這些分析就都有受偏見影響的可能,而且極易導(dǎo)致錯誤。與此同時,用來做相關(guān)關(guān)系分析的數(shù)據(jù)很難得到,收集這些數(shù)據(jù)時也耗資巨大?,F(xiàn)今,可用的數(shù)據(jù)如此之多,也就不存在這些難題了。
當(dāng)然,還有一種不同的情況也逐漸受到了人們的重視。在小數(shù)據(jù)時代,由于計(jì)算機(jī)能力的不足,大部分相關(guān)關(guān)系分析僅限于尋求線『性』關(guān)系。這個情況隨著數(shù)據(jù)的增加肯定會發(fā)生改變。事實(shí)上,實(shí)際情況遠(yuǎn)比我們所想象的要復(fù)雜。經(jīng)過復(fù)雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線『性』關(guān)系”。
當(dāng)相關(guān)關(guān)系變得更復(fù)雜時,一切就更混『亂』了。比如,各地麻疹疫苗接種率的差別與人們在醫(yī)療保健上的花費(fèi)似乎有關(guān)聯(lián)。但是,最近哈佛與麻省理工的聯(lián)合研究小組發(fā)現(xiàn),這種關(guān)聯(lián)不是簡單的線『性』關(guān)系,而是一個復(fù)雜的曲線圖。和預(yù)期相同的是,隨著人們在醫(yī)療上花費(fèi)的增多,麻疹疫苗接種率的差別會變?。坏钊梭@訝的是,當(dāng)增加到一定程度時,這種差別又會變大。發(fā)現(xiàn)這種關(guān)系對公共衛(wèi)生官員來說非常重要,但是普通的線『性』關(guān)系分析師是無法捕捉到這個重要信息的。
如今,專家們正在研發(fā)能發(fā)現(xiàn)并對比分析非線『性』關(guān)系的必要技術(shù)工具。一系列飛速發(fā)展的新技術(shù)和新軟件也從多方面提高了相關(guān)關(guān)系分析工具發(fā)現(xiàn)非因果關(guān)系的能力,這就好比立體派畫家同時從多個角度來表現(xiàn)女『性』臉龐的手法。
網(wǎng)絡(luò)分析行業(yè)的出現(xiàn)就是一個最明顯的例子。多虧了它,讓描繪、測量、計(jì)算各節(jié)點(diǎn)之間的關(guān)系變成了可能,我們可以從facebook上認(rèn)識更多的朋友,還可以知道法庭上的一些判決的先例,以及誰給誰打了電話??傊?,這些工具為回答非因果關(guān)系及經(jīng)驗(yàn)『性』的問題提供了新的途徑。
在大數(shù)據(jù)時代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預(yù)測,我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無法理解的復(fù)雜技術(shù)和社會動態(tài) 。但最重要的是,通過去探求“是什么”而不是“為什么”,相關(guān)關(guān)系幫助我們更好地了解了這個世界。
這聽起來似乎有點(diǎn)違背常理。畢竟,人們都希望通過因果關(guān)系來了解這個世界。我們也相信,只要仔細(xì)觀察,就會發(fā)現(xiàn)萬事萬物皆有因緣。了解事情的起因難道不是我們最大的愿望嗎?
在哲學(xué)界,關(guān)于因果關(guān)系是否存在的爭論已經(jīng)持續(xù)了幾個世紀(jì)。畢竟,如果凡事皆有因果的話,那么我們就沒有決定任何事的自由 了。如果說我們做的每一個決定或者每一個想法都是其他事情的結(jié)果,而這個結(jié)果又是由其他原因?qū)е碌模源搜h(huán)往復(fù),那么就不存在人的自由 意志這一說了——所有的生命軌跡都只是受因果關(guān)系的控制了。因此,對于因果關(guān)系在世間所扮演的角『色』,哲學(xué)家們爭論不休,有時他們認(rèn)為,這是與自由 意志相對立的。當(dāng)然,關(guān)于理論的爭辯并不是我們要研究的重點(diǎn)。
首先,我們的直接愿望就是了解因果關(guān)系。即使無因果關(guān)系存在,我們也還是會假定其存在。研究證明,這只是我們的認(rèn)知方式,與每個人的文化背景、生長環(huán)境與教育水平是無關(guān)的。當(dāng)我們看到兩件事情接連發(fā)生的時候,我們會習(xí)慣『性』地從因果關(guān)系的角度來看待它們??纯聪旅娴娜湓挘骸案ダ椎碌母改高t到了;供應(yīng)商快到了;弗雷德生氣了?!?/p>
我們讀到這里時,可能立馬就會想到弗雷德生氣并不是因?yàn)楣?yīng)商快到了,而是他父母遲到的緣故。實(shí)際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認(rèn)為這些假設(shè)的因果關(guān)系是成立的。
普林斯頓大學(xué)心理學(xué)專家,同時也是2002年諾貝爾經(jīng)濟(jì)學(xué)獎得主丹尼爾·卡尼曼(danielkahneman)就是用這個例子證明了人有兩種思維模式。第一種是不費(fèi)力的快速思維,通過這種思維方式幾秒鐘就能得到出結(jié)果;另一種是比較費(fèi)力的慢『性』思維,對于特定的問題,就是需要考慮到位。
快速思維模式使人們用因果聯(lián)系來看待周圍的一切,即使這種關(guān)系并不存在。這是我們對已有的知識和信仰的執(zhí)著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關(guān)系都是并不存在的。
卡尼曼指出,平時生活中,由于惰『性』,我們很少慢條斯理地思考問題。所以快速思維模式就占據(jù)了上風(fēng)。因此,我們會經(jīng)常臆想出一些因果關(guān)系,最終導(dǎo)致了對世界的錯誤理解。
父母經(jīng)常告訴孩子,天冷時不戴帽子和手套就會感冒。然而,事實(shí)上,感冒和穿戴之間卻沒有直接的聯(lián)系。有時,我們在某個餐館用餐生病了的話,我們就會自然而然地覺得這是餐館食物的問題,以后可能就不再去這家餐館了。事實(shí)上,我們肚子痛也許是因?yàn)槠渌膫魅就緩?,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸于任何我們能在第一時間想起來的因果關(guān)系,因此,這經(jīng)常導(dǎo)致我們做出錯誤的決定。
與常識相反,經(jīng)常憑借直覺而來的因果關(guān)系并沒有幫助我們加深對這個世界的理解。很多時候,這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯覺,但實(shí)際上,我們因此完全陷入了理解誤區(qū)之中。就像采樣是我們無法處理數(shù)據(jù)時的捷徑一樣,這種找因果關(guān)系的方法也是我們大腦用來避免辛苦思考的捷徑。
在小數(shù)據(jù)時代,很難證明由直覺而來的因果聯(lián)系是錯誤的?,F(xiàn)在,情況不一樣了。將來,大數(shù)據(jù)之間的相關(guān)關(guān)系,將經(jīng)常會用來證明直覺的因果聯(lián)系是錯誤的。最終也能表明,統(tǒng)計(jì)關(guān)系也不蘊(yùn)含多少真實(shí)的因果關(guān)系。總之,我們的快速思維模式將會遭受各種各樣的現(xiàn)實(shí)考驗(yàn)。
令人欣喜的是,為了更好地了解世界,我們會因此更加努力地思考。但是,即使是我們用來發(fā)現(xiàn)因果關(guān)系的第二種思維方式——慢『性』思維,也將因?yàn)榇髷?shù)據(jù)之間的相關(guān)關(guān)系迎來大的改變。
日常生活中,我們習(xí)慣『性』地用因果關(guān)系來考慮事情,所以會認(rèn)為,因果聯(lián)系是淺顯易尋的。但事實(shí)卻并非如此。與相關(guān)關(guān)系不一樣,即使用數(shù)學(xué)這種比較直接的方式,因果聯(lián)系也很難被輕易證明。我們也不能用標(biāo)準(zhǔn)的等式將因果關(guān)系表達(dá)清楚。因此,即使我們慢慢思考,想要發(fā)現(xiàn)因果關(guān)系也是很困難的。因?yàn)槲覀円呀?jīng)習(xí)慣了信息的匱乏,故此亦習(xí)慣了在少量數(shù)據(jù)的基礎(chǔ)上進(jìn)行推理思考,即使大部分時候很多因素都會削弱特定的因果關(guān)系。
就拿狂犬疫苗這個例子來說,1885年7月6日,法國化學(xué)家路易·巴斯德(louispasteur)接診了一個9歲的小孩約瑟夫·梅斯特(josephmeister),他被帶有狂犬病毒的狗咬了。那時,巴斯德剛剛研發(fā)出狂犬疫苗,也實(shí)驗(yàn)驗(yàn)證過效果了。梅斯特的父母懇求巴斯德給他們的兒子注『射』一針。巴斯德做了,梅斯特活了下來。發(fā)布會上,巴斯德因?yàn)榘岩粋€小男孩從死神手中救出而大受褒獎。
但真的是因?yàn)樗麊??事?shí)證明,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用于七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%。
在這個例子中,大家都認(rèn)為是注『射』疫苗救了梅斯特一命。但這里卻有兩個因果關(guān)系值得商榷。第一個是疫苗和狂犬病毒之間的因果關(guān)系,第二個就是被帶有狂犬病毒的狗咬和患狂犬病之間的因果關(guān)系。即便是說疫苗能夠醫(yī)好狂犬病,第二個因果關(guān)系也只適用于極少數(shù)情況。
不過,科學(xué)家已經(jīng)克服了用實(shí)驗(yàn)來證明因果關(guān)系的難題。實(shí)驗(yàn)是通過是否有誘因這兩種情況,分別來觀察所產(chǎn)生的結(jié)果是不是和真實(shí)情況相符,如果相符就說明確實(shí)存在因果關(guān)系。這個衡量假說的驗(yàn)證情況控制得越嚴(yán)格,你就會發(fā)現(xiàn)因果關(guān)系越有可能是真實(shí)存在的。
因此,與相關(guān)關(guān)系一樣,因果關(guān)系被完全證實(shí)的可能『性』幾乎是沒有的,我們只能說,某兩者之間很有可能存在因果關(guān)系。但兩者之間又有不同,證明因果關(guān)系的實(shí)驗(yàn)要么不切實(shí)際,要么違背社會倫理道德。比方說,我們怎么從5億詞條中找出和流感傳播最相關(guān)的呢?我們難道真能為了找出被咬和患病之間的因果關(guān)系而置成百上千的病人的生命于不顧嗎?因?yàn)閷?shí)驗(yàn)會要求把部分病人當(dāng)成未被咬的“控制組”成員來對待,但是就算給這些病人打了疫苗,我們又能保證萬無一失嗎?而且就算這些實(shí)驗(yàn)可以『操』作,『操』作成本也非常的昂貴。
不像因果關(guān)系,證明相關(guān)關(guān)系的實(shí)驗(yàn)耗資少,費(fèi)時也少。與之相比,分析相關(guān)關(guān)系,我們既有數(shù)學(xué)方法,也有統(tǒng)計(jì)學(xué)方法,同時,數(shù)學(xué)工具也能幫助我們準(zhǔn)確地找出相關(guān)關(guān)系。
相關(guān)關(guān)系分析本身意義重大,同時它也為研究因果關(guān)系奠定了基礎(chǔ)。通過找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析,如果存在因果關(guān)系的話,我們再進(jìn)一步找出原因。這種便捷的機(jī)制通過嚴(yán)格的實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找出一些重要的變量,這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)中去。
可是,我們必須非常認(rèn)真。相關(guān)關(guān)系很有用,不僅僅是因?yàn)樗転槲覀兲峁┬碌囊暯?,而且提供的視角都很清晰。而我們一旦把因果關(guān)系考慮進(jìn)來,這些視角就有可能被蒙蔽掉。
例如,kaggle,一家為所有人提供數(shù)據(jù)挖掘競賽平臺的公司,舉辦了關(guān)于二手車的質(zhì)量競賽。二手車經(jīng)銷商將二手車數(shù)據(jù)提供給參加比賽的統(tǒng)計(jì)學(xué)家,統(tǒng)計(jì)學(xué)家們用這些數(shù)據(jù)建立一個算法系統(tǒng)來預(yù)測經(jīng)銷商拍賣的哪些車有可能出現(xiàn)問題。相關(guān)關(guān)系分析表明,橙『色』的車有質(zhì)量問題的可能『性』只有其他車的一半。
當(dāng)我們讀到這里的時候,不禁也會思考其中的原因。難道是因?yàn)槌取荷卉嚨能囍鞲鼝圮?,所以車被保護(hù)得更好嗎?或是這種顏『色』的車子在制造方面更精良些嗎?還是因?yàn)槌取荷卉嚫@眼、出車禍的概率更小,所以轉(zhuǎn)手的時候,各方面的『性』能保持得更好?
馬上,我們就陷入了各種各樣謎一樣的假設(shè)中。若要找出相關(guān)關(guān)系,我們可以用數(shù)學(xué)方法,但如果是因果關(guān)系的話,這卻是行不通的。所以,我們沒必要一定要找出相關(guān)關(guān)系背后的原因,當(dāng)我們知道了“是什么”的時候,“為什么”其實(shí)沒那么重要了,否則就會催生一些滑稽的想法。比如說上面提到的例子里,我們是不是應(yīng)該建議車主把車漆成橙『色』呢?畢竟,這樣就說明車子的質(zhì)量更過硬??!
考慮到這些,如果把以確鑿數(shù)據(jù)為基礎(chǔ)的相關(guān)關(guān)系和通過快速思維構(gòu)想出的因果關(guān)系相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關(guān)關(guān)系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現(xiàn)為通過嚴(yán)格控制的實(shí)驗(yàn)來驗(yàn)證的因果關(guān)系,而這必然是非常耗時耗力的。
近年來,科學(xué)家一直在試圖減少這些實(shí)驗(yàn)的花費(fèi),比如說,通過巧妙地結(jié)合相似的調(diào)查,做成“類似實(shí)驗(yàn)”。這樣一來,因果關(guān)系的調(diào)查成本就降低了,但還是很難與相關(guān)關(guān)系體現(xiàn)的優(yōu)越『性』相抗衡。還有,正如我們之前提到的,在專家進(jìn)行因果關(guān)系的調(diào)查時,相關(guān)關(guān)系分析本來就會起到幫助的作用。
因果關(guān)系還是有用的,但是它將不再被看成是意義來源的基礎(chǔ)。在大數(shù)據(jù)時代,即使很多情況下,我們依然指望用因果關(guān)系來說明我們所發(fā)現(xiàn)的相互關(guān)系,但是,我們知道因果關(guān)系只是一種特殊的相關(guān)關(guān)系。相反,大數(shù)據(jù)推動了相關(guān)關(guān)系分析。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用,即使不可取代的情況下,它也能知道因果關(guān)系起作用。曼哈頓沙井蓋(即下水道的修檢口)的爆炸就是一個很好的例子。
大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?/p>
在小數(shù)據(jù)時代,我們會假想世界是怎樣運(yùn)作的,然后通過收集和分析數(shù)據(jù)來驗(yàn)證這種假想。在不久的將來,我們會在大數(shù)據(jù)的指導(dǎo)下探索世界,不再受限于各種假想。我們的研究始于數(shù)據(jù),也因?yàn)閿?shù)據(jù)我們發(fā)現(xiàn)了以前不曾發(fā)現(xiàn)的聯(lián)系。
假想通常來自自然理論或社會科學(xué),它們也是幫助我們解釋和預(yù)測周遭世界的基礎(chǔ)。隨著由假想時代到數(shù)據(jù)時代的過渡,我們也很可能認(rèn)為我們不再需要理論了。
2008年,《連線》雜志主編克里斯·安德森(chrisanderson)就指出:“數(shù)據(jù)爆炸使得科學(xué)的研究方法都落伍了?!焙髞?,他又在《拍字節(jié)時代》(thepetabuteage)的封面故事中講到,大量的數(shù)據(jù)從某種程度上意味著“理論的終結(jié)”。安德森也表示,用一系列的因果關(guān)系來驗(yàn)證各種猜想的傳統(tǒng)研究范式已經(jīng)不實(shí)用了,如今它已經(jīng)被無需理論指導(dǎo)的純粹的相關(guān)關(guān)系研究所取代。
為了支撐自己的觀點(diǎn),安德森闡述了量子物理學(xué)已變成一門純理論學(xué)科的原因,就是因?yàn)閷?shí)驗(yàn)服裝、耗費(fèi)多且不可行。他潛在的觀點(diǎn)就是,量子物理學(xué)的理論已經(jīng)脫離實(shí)際。他提到了谷歌的搜索引擎和基因排序工程,指出:“現(xiàn)在已經(jīng)是一個有海量數(shù)據(jù)的時代,應(yīng)用數(shù)學(xué)已經(jīng)取代了其他的所有學(xué)科工具。而且只要數(shù)據(jù)足夠,就能說明問題。如果你有一拍字節(jié)的數(shù)據(jù),只要掌握了這些數(shù)據(jù)之間的相關(guān)關(guān)系,一切就都迎刃而解了?!?/p>
這篇文章引發(fā)了激烈的爭論,雖然安德森本人很快就意識到自己的言辭過于激烈了,但是他的觀點(diǎn)確實(shí)值得深思。安德森的核心思想是,直到目前為止,我們一直都是把理論應(yīng)用到實(shí)踐中來分析和理解世界,而如今處在大數(shù)據(jù)時代,我們不再需要理論了,只要關(guān)注數(shù)據(jù)就足夠了。這就意味著所有的普遍規(guī)則都不重要了,比方說世界的運(yùn)作,人類的行為,顧客買什么,東西什么時候會壞等。如今,重要的就是數(shù)據(jù)分析,它可以揭示一切問題。
大數(shù)據(jù)是在理論的基礎(chǔ)上形成的。比方說,大數(shù)據(jù)分析就用到了統(tǒng)計(jì)和數(shù)學(xué)理論,有時候也會用到計(jì)算機(jī)科學(xué)理論。是的,這不是關(guān)于像地心引力這樣特定現(xiàn)象的產(chǎn)生原因的理論,但是無論如果這依然是理論。而且如我們所見,建立在這些理論上的大數(shù)據(jù)分析模式是實(shí)現(xiàn)大數(shù)據(jù)預(yù)測能力的重要因素。事實(shí)上,就是因?yàn)椴皇芟抻趥鹘y(tǒng)的思維模式和特定領(lǐng)域里隱含的固有偏見,大數(shù)據(jù)才能為我們提供如此多新的深刻洞見。
首先就是關(guān)于我們怎么收集數(shù)據(jù)。我們會不會僅僅看數(shù)據(jù)收集的方便程度來決定呢?或者看數(shù)據(jù)收集的成本?我們做這些決定的時候就被理論所影響著,而就如達(dá)納·博尹德(danahboyd)和凱特·克勞福德(katecrawford)說的,我們的選擇一定程度上決定了結(jié)果。畢竟,谷歌是用檢索詞來預(yù)測流感而不是鞋碼。同樣,我們在分析數(shù)據(jù)的時候,也依賴于理論來選擇我們使用的工具。最后,我們解讀研究結(jié)果的時候同樣會使用理論。大數(shù)據(jù)時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面。
作為第一提出問題的人,安德森應(yīng)該獲得掌聲——盡管他的答案不怎么樣!大數(shù)據(jù)絕不會叫囂“理論已死”,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習(xí)慣將被顛覆,很多舊有的制度將面臨挑戰(zhàn)。
大數(shù)據(jù)時代將要釋放出的巨大價值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權(quán)衡,而是通往未來的必然改變。但是在我們到達(dá)目的地之前,我們有必要了解怎樣才能到達(dá)。高科技行業(yè)里的很多人認(rèn)為是依靠新的工具,從高速芯片到高效軟件等。當(dāng)然,這可以理解為因?yàn)樗麄冏约菏枪ぞ邉?chuàng)造者。這些問題固然重要,但不是我們需要考慮的問題。大數(shù)據(jù)趁勢的深層原因,就是海量數(shù)據(jù)的存在以及越來越多的事物是以數(shù)據(jù)形式存在的,這也是我們下一章要談?wù)摰膬?nèi)容。