大數據  

罗辑思维 107 数字的坏话

發佈日期:2015年1月15日
https://youtu.be/ruyar6jgiNs
若網頁無法觀看,則請點選 YouTube連結網址,前往 YouTube觀看。

我上大學的時候讀到過一本書叫《萬曆十五年》,我這個歲數的讀書人至少都聽說過這本書的名字,它的作者是著名的美國華人歷史學家黃仁宇教授。黃教授在這本書裡拋出了一個非常重要的論斷,就是怎麼判斷一個社會是前現代化社會還是現代化社會呢?哎,就是看這個社會可不可以用數目字來進行管理。

 

說實話啊,當時讀到這本書的時候我是不明白這是啥意思的,後來年歲越來越增長,讀的書越來越多,哦,有點兒明白了。啥叫現代化社會啊?就是陌生人可以在更廣闊的範圍內發生協作,這就是現代化社會。

 

你想,前現代化社會它都是每個人重組於一個小共同體嘛,那協作往往只需要一個傳統的權威資源。比如說家長一出面,家就協作了;皇上一出面,大家就協作了,它不需要太多的數位。所以你看中國傳統的社會雖然表面上皇權很強大、也有一個大一統的政治體制,文官系統也很發達。但是中央對民間的情況實際上是心中無數的,僅僅是一個認同的共同體而已。

 

但是在現在社會就不一樣啊,陌生人之間協作,尤其這種協作要精細化、深度化的話,那就需要大量的客觀公正的協作仲介,這個仲介就是數字。比如說我要買一家公司的股票,那我總得知道你這家公司詳細的經營情況吧?我總得知道你過去一段時間你的股指的情況吧?這都是數字啊。一個國家想要管理自己的國民經濟你總得知道自己有多少人口吧?總得知道你的全年GDP是多少吧?出口量是多少?發電量是多少吧?你看,都是數字。所以過去的二三百年裡人類的現代化的進程其實就伴隨著一個數位越來越多,越來越爆炸的進程。

 

《羅輯思維》在過去的兩季的節目裡我們曾經談過兩期的大資料的話題,那今天呢,我們就把大資料和數位這個問題反過來看。我們來看看我們如此倚重的數字它到底是靠譜還是不靠譜。

 

那我們先把這個問題擱在一邊,我們先來聊一聊1936年的美國總統大選。那1936年是哪兩位競爭啊?一位就是著名的羅斯福,還有一位呢,哎現在大家已經不知道了,因為他沒選上嘛,這個人叫蘭登,是美國當時共和黨推出來的總統候選人。現在我們看美國歷史啊,都覺得羅斯福連任四屆總統,擔任總統時間最長,而且德高望重。

 

但是你回到當時的歷史情境可不是這樣啊,羅斯福的整個執政過程不是一帆風順的,尤其到1936年,實際上他當時的位置非常險。大家看啊,在此前的一次選舉,就是1932年,美國不是四年一屆嘛,1932年他的對手是胡佛。胡佛是個倒楣蛋,1928年當選,1929年就出了大蕭條,然後他整個的任期就在那兒焦頭爛額應對大蕭條。美國人民就煩啊,說你這個笨蛋,永遠治不好這個國家,這麼嚴重的一個病,趕緊下去吧。換一個敢跟人們承諾我要改革的總統,所以羅斯福順利當選,1932年,毫無懸念。

 

但是到了1936年情況就不是這樣了,首先在經濟上,羅斯福那幾招使出來其實沒有太大的起色。事實上美國的大蕭條它不是一次性到底的,它是分7次才到底。1936年其實大蕭條還惡化了,整個美國當時還有20%的失業率。經濟上,你羅斯福對人民的承諾實際上沒有兌現。

 

那第二條呢,就是羅斯福實際上在政治上整個時候聲望也跌入了穀底,為啥?因為他搞得那些新政跟美國傳統的價值觀衝撞是非常大的。比如說他提出來的全國工業復興法居然被當時的聯邦最高法院判定違憲。要知道在美國這樣的國家,一個總統重要的改革綱領被判定違憲,這是一件很丟人的事情。而且你羅斯福好歹也在臺上表演了四年,你的很多政策肯定要得罪很多人的嘛。比如說當時美國堅定的共和黨人,包括那些富人、有錢人他們就會覺得你那一套政策不就是敲富人的竹杠嘛?就是搞社會主義嘛?就是搞無產階級專政嘛?向蘇聯學嘛?那怎麼能行呢?所以這些人就憋著在1936年的時候把羅斯福給掀下臺。

 

尤其這一年羅斯福面對的那個對手就是我們前面講的那個蘭登,他其實是一個中間派,他不是那種典型的保守派和共和黨人。他的很多政策方案一出來之後,大家一看,咦,他很支持新政啊。新政當中那些起色的、見效的措施他全盤接受,他只不過那些激進的爭議非常大、反彈非常大的一些新政措施,所以這個時候你不能說蘭登沒有競爭力。當然了,在這兒我們並不是想分析這一次大選,我們把大選先擱一邊。

 

我們去看當時的一個媒體機構的命運,這個媒體叫《文學文摘》,你一聽好像是一個小眾媒體,那可不是啊。《文學文摘》它雖然是一個文摘類的雜誌,把一些什麼重頭報導進行文學化的改寫,包括直接選登。當時它在美國擁有兩百多萬的訂戶,這是一個不得了的數字啊。看看中國那什麼《故事會》、《女友》這些雜誌也不過就是百萬級的訂戶,可是中國的人口基數有多大,美國當時整個全國人口也不過1.3億,它有兩百多萬的雜誌訂戶,這是一個不得了的數字。

 

這個《文學文摘》它真正有力量不僅僅表現在它的發行量,而且表現為它對政治的介入。要知道這份媒體它可是當時美國政壇上一個重要的搞總統選舉民意調查的媒體,而且它幹這個活已經幹了16年了,而且此前幹得還特別漂亮。你看,1920年的哈定總統、1924年的柯立芝總統、1928年的胡佛總統、包括1932年的羅斯福總統,人家《文學文摘》雜誌全部都預測準了。所以當時在美國的政治生態裡面它簡直有擁有小諸葛、黃半仙、章魚保羅那樣的位置啊,神了呀!所以1936年的時候他們就決定幹一票大的,那大到什麼程度呢?要發1000萬份問卷。1000萬份是什麼概念呀?當時美國全國的人口不過1.3個億,有選民資格的人不過4000萬,它居然要發1000萬份問卷,覆蓋四分之一的選民,這個預測的準確度簡直是太高了呀,等於它的選舉的預測報告一發佈,總統選舉就一錘定音了啊,幾乎就能達到這樣的高度。

 

那它為什麼要幹這麼大呢?你想,他的算盤也是對的。第一,美國當時整個社會生態裡面最好玩的一個懸念、一局大遊戲可不就是總統選舉嗎?好,那我給你截和,我提前給你劇透,我讓你這局大遊戲玩不下去。我通過一個媒體的力量我就可以改變美國整個民主生態的那個運作流程。這是一個多麼偉大的事業啊,雖然是一個搗亂的事業,那它可能真的。當時美國就有人在講,說以後就不要看總統大選的結果了,直接看《文學文摘》提前發佈的那個調查報告不就可以了嗎?美國政治生態都有可能被改變。

 

當然你說它背後有沒有生意的算計?當然有嘛,這1000萬份問卷發下去,全美國人民都知道《文學文摘》要幹一票大事兒。那你想啊,1000萬份問卷發出去,這雜誌社又不是傻子,肯定會在信封裡塞上一張雜誌的征訂單嘛,這叫明修棧道,暗度陳倉。表面上是在幹一件正經事,順便把生意也給做了。

 

這在互聯網時代叫流量入口邏輯,只要轉化率達到10%,你想,1000萬份問卷有100萬人會填雜誌征訂單,一下子《文學文摘》的這個生意可就爆棚啊。所以這個生意的算盤打得是很精的。雜誌社調集了多少人呢?900人來幹這個事兒,500人拿鋼筆寫,查位址,400個人裝信封,然後向全美各地發了1000萬份問卷。當然了,這個問卷也不可能都回來,但是回來的數量也是驚人的,237萬份回來。說實話啊,這就是人類歷史上現在有據可查的最大規模的民意調查。

 

那調查結果呢?當然是經過非常嚴格地審核,據說有三次審三次校,五次審核等等,最後公佈的資料是這樣的,說羅斯福是大敗,他最多只能拿到43%的選票。而他的對手蘭登會拿到57%的選票,大贏。

 

但是結果呢?結果一番兩瞪眼,當然這個歷史我們已經知道了啊,羅斯福連任,而且羅斯福勝的那個比例是極高的,他拿到62%的選票,蘭登只拿到38%。如果你熟悉美國的政治制度,你會知道美國大選不是簡單的一人一票,它是在一個州內選舉人票,贏家通吃。就是選這個總統的人只要比另外一個總統的人哪怕多一票,這個州所有的選舉人票都是他的。那這次大選羅斯福勝到什麼程度啊?就是他最後拿到523票選舉人票,而蘭登拿到了多少?好可憐,說不出口,8票,

 

這麼大懸殊的比分,但是《文學文摘》雜誌搞的這個調查居然如此烏龍,那到底是為啥呢?《文學文摘》雜誌後來的命運就很慘啦,從幾百萬訂戶,因為你的信譽破產了嘛,幹媒體就是這樣,一下子掉了幾十萬訂戶,然後過了沒幾年就被《時代週刊》給收購了,這個雜誌從此就不存在了。

 

但是我們想講的是:為什麼它會犯這樣大的錯誤?道理很簡單呀,我進行了如此大規模,簡直是地毯式轟炸,我拿下了四分之一的美國可投票人的調查資料,居然還得出如此烏龍的結果,請問為啥?現在翻盤大概是兩個原因:

 

第一個原因呢就是它的樣本有問題。當時啊,他們選的人是在哪兒選的,它主要是三個管道:第一,美國擁有車的人。因為有車的人他基本上在政府那兒有登記嘛,比較容易拿到他們家的家庭住址,可以寄東西。第二呢,就是美國的各種俱樂部,它有各個成員的家庭地址。第三呢,就是美國電話黃頁。那前兩個管道呢,應該來說問題都不大。首先,美國那個時候汽車的普及率已經很高了,幾乎家家戶戶都有汽車。你比如說福特的那個著名的叫T型車,那個在20年代的時候已經賣掉了1000多萬輛,當時美國也幾乎做到了家家都有汽車,極窮的人不算。那第二呢?像俱樂部,美國是一個民間結社特別發達的社會,所以俱樂部都這樣的一個位址,應該也沒有問題。

 

問題就出在了電話黃頁,就是電話薄,當時《文學文摘》雜誌,你也不能說它不用心,它也確實是抽。你比如說翻開一本電話薄,把那個尾號是19的抽出來,然後都給他們家去寄這個調查問卷。按說沒問題的,但是它忽略了一個因素,就是美國當時的電話普及率。在第二次世界大戰之前,其實是不高的,當時還不到30%,美國是二戰之後,電話普及率才逐漸達到了70%以上。而什麼人會有電話呢?當然就是富人啊。什麼人恨羅斯福呢?當然是富人了。所以富人家有電話,通過這種方式收回的這種問卷,它在很大程度上就代表了富人的觀點,富人恨羅斯福,當然它得出來的調查資料,就有了這樣的一個偏差。

 

那《文學文摘》雜誌犯的第二個錯誤,叫回饋失靈,表面上寄了1000萬份問卷,回來了237萬份,按說回饋度很高吧,可是你忽略了這個回饋的結構,給大家舉一個例子一個餐館,在門口吊了一個顧客意見薄,那請問什麼樣的人會上去寫?當然是對飯菜不滿意的人了。那些吃的覺得感覺還不錯的人,一抹嘴結帳走了,他們才不會上去寫呢!所以1986年的選舉,很多美國人他忍了羅斯福四年,他就想把他掀下臺。但平時沒有表達管道,好不容易來了這麼一份調查問卷,趕緊寫上蘭登的名字,給寄回去。而那些羅斯福的支持者,他沒有強烈的動機一定要填這份調查問卷,所以回來這237萬份,它可不是民意的一個標準的或者說均等的表達,它本身就包含了強烈的情緒,而《文學文摘》雜誌沒有意識到這一點,所以連續四次預測勝利,這一次失敗了。

 

當然你可能會問,那前面四次不也是這麼調查的嗎?怎麼就沒有出問題呢?那你就得回到當時的歷史情境了。你看,1920年是當時的哈定總統,因為一戰剛剛結束,美國人民很煩那些英雄式的人物,哈定不錯,長得帥,是個大帥哥,非常受美國婦女的歡迎。而且那一年美國選舉,第一次婦女獲得了普選權,那當然選大帥哥了,所以他就當選。但是這個哈定總統幹得太爛,所以第二任就是1924年,是柯立芝總統。這個人是個正派人,原來就非常有名在外,大家忍了哈定四年,選一個正派人,所以柯立芝又上臺。柯立芝帶來了所謂美國歷史上的叫柯立芝繁榮,經濟發展得非常好。那這個時候大家發現,下面1928年選舉的是柯立芝時代的商務部部長,叫胡佛,胡佛這個人因為經歷很傳奇,原來在中國也工作很長時間,而且商務部部長帶來那麼大的繁榮,肯定要歸功於他。加上胡佛當時也主張叫禁酒令,所以很獲得美國婦女的歡迎,所以胡佛又當選。

 

1932年,羅斯福的當選這就更不用說,你看,前面這四次正確的預測,它都是跟這個總統本人的特質有關,它沒有牽扯到美國當時社會結構當中的貧富之爭。而貧富之爭這個因素,是在1936年才爆發出來的。所以《文學文摘》雜誌再用過去的調查手段,一下子就露餡了。所以這個雜誌真的是走了麥城,前面勝多少次都沒用。

 

但是我們得說,1936年其實也有一家調查機構就此成名,這就是著名的蓋洛普。蓋洛普也是一個人名,這個人身上的身份很多。比如說他是個數學博士,而且他還是一個新聞學教授,自己又長期在媒體幹活,所以他就把數學思維代入到一個媒體的運作當中。當時他就提出來,這個調查不需要使那樣的蠻力,什麼發1000萬份,傻。他就舉了一個很著名的例子,他說你要把7000顆白豆子和3000顆黑豆子,放在一個缸裡,稍微攪和攪和,你隨手抓一把,裡面的黑豆子和白豆子的比例仍然是3:7。這個誤差是很小的,說白了,只要把這個缸稍微攪勻和一點,實際上樣本量並不需要這麼多。光靠大數字想獲得精准的調查結果,其實是一個沒有數學常識的辦法。你看,人家數學博士嘛。

 

所以當時蓋洛普就提出一套全新的,事實上也是非常具有科學性的調查預測的方法,那就是讓樣本充分地能夠反應當時的選民結構。你比如說,你要做一次美國總統選舉的預測,那你至少白人黑人的比例,你在樣本當中和總人口的比例,應該一致吧。窮人和富人,共和黨和民主黨,城裡人和鄉下人,所有這些因素你都要考慮到。所以蓋洛普在預測1936年選舉的時候,他的樣本量其實很小,1000個人,只有《文學文摘》雜誌的一萬分之一,但是人家就成功預測了羅斯福當選。

 

所以後來《文學文摘》雜誌不行了,蓋洛普從此聲名鵲起。現在我們還知道,美國最著名的民意調查機構就是蓋洛普。當然了,你說這種科學的,有數學基礎的方法,是不是就一定靠譜呢?還真不是。要知道,蓋洛普在預測美國總統大選的過程當中,也有幾次重要的失手。比如說對卡特總統和福特總統競選的那一次,70年代,失手了。最近的一次,布希和克裡競選,他又預測錯了,他預測的是克裡。蓋洛普敗得最慘的一次,是1948年的選擇,就是杜魯門和杜威。

 

這兩個人當時所有的民意調查機構,包括我們講的蓋洛普,都認為杜威一定勝。這個杜威可不是美國那個著名的哲學家杜威,他是一個政客杜威,大家都覺得杜威勝。那杜魯門呢?就是非常慘。因為大家你想,忍受民主黨已經那麼多年了,都是羅斯福,大家覺得換換口味。這很正常,當時幾乎已經是全民的共識,甚至很多報紙就講,說民主黨不要選了。再浪費那些選舉的基金,浪費那些置裝費,還有那些眼淚幹什麼呢?乾脆別選了。甚至當時民主黨內部也說,不行啊,這杜魯門,我們應該換一個更德高望重。所以當時很多人還去拉攏艾森豪,因為艾森豪是二戰的英雄,聯軍的統帥。當然後來沒搞成,還是這個杜魯門去參選。甚至到了大選的最後階段,這個杜威已經覺得勝券已定,夫婦兩人攜手就度假去了。

 

當時還有一個很八卦的段子,說這個杜威的老婆跟杜威晚上在臥室聊天。杜威說怎麼樣,再過兩天,你就要跟美國總統睡覺了。這個勝券在握,那結果呢?大家都知道,是杜魯門當選。所以杜威的夫人就問這個杜威,說你不是說我要跟美國總統睡覺嗎?是我去華盛頓,還是把杜魯門叫到咱們家臥室來啊。這是個段子,確實這個結果也是一番兩瞪眼。包括蓋洛普在事後的各種各樣的解釋當中,都沒有辦法自圓其說。

 

這還得插一段,就是中國的那個蔣介石,當時也跟著起哄。他覺得這個杜威肯定勝,所以到處給杜威呐喊助威,甚至中國當時,就發生在中國,給杜威助選的這個遊行,在中國還發生了。因為當時蔣介石覺得,我支持一個美國總統上臺,這個人肯定將來給我大量的美元嘛。你看,1948年,那可是解放戰爭勝利的前夕,蔣介石也在下賭注,最後發現賭錯了。後來杜魯門上臺,果然就不再給他支持,這是個插曲。

 

但問題回到我們今天的主題,為什麼蓋洛普這樣的機構,它用大量的數學工具,用現代化的科學方法,仍然會有預測錯誤。當然了,這當中牽扯到很多調查統計學的問題,我們都不提,我們就提一個效應,叫布蘭得利效應。布蘭得利是一個人,他參加了1982年美國加州州長的選舉,那這個人是誰呢?當時他擔任的是洛杉磯市的市長,也是一個成名政客,而且他是一個黑人,非洲裔的美國人。那在搞民選調查的時候,就是蓋洛普這些機構在忙活的時候,發現布蘭得利肯定贏,數字擺在這兒。但是選舉結果出來,又是一番兩瞪眼,布蘭得利輸了。後來就有人解釋,說這叫布蘭得利效應。大家是這麼分析的,說表面上你去調查問,你支不支持一個黑人當選。大家都會說支援,因為不歧視黑人。這在美國是政治正確,每個人都會這麼填調查表。可是一旦到選舉,真要去投票的時候,他內心裡的那種種族歧視意識,又會死灰復燃,他就不選他。所以調查,會調查出一個口是心非的結果,那自然就不準確了。所以這個詞,布蘭得利效應,在美國的調查統計學界流行了很多年。

 

可是到了奧巴馬的時候又出事了,因為當時很多人說,別看奧巴馬現在民調資料領先,布拉德效應擱在這兒,他是個黑人,很多人都會在最後一刻更改自己的決定。但是結果恰恰相反,奧巴馬當選之後發現,比民調贏的那個數字還要高。所以當時又有人提出來一個叫反布蘭得利效應,它又這麼解釋的。說很多人平時看不起黑人,所以民調的時候他不選奧巴馬。可是真要到選舉的時候,他又覺得這個道德負擔很重,要不我這次還是選黑人吧,所以投票又投給了奧巴馬。所以你看,同時一個效應,它正反兩方面的因素,其實都存在。你看,調查統計學就遇到了它生命中最大最大的一個魔鬼,叫人心難測。所以調查統計學這樣的一個表面上很科學的東西,這樣的一個體系,現在到目前為止,其實它還是搞不定人性。

 

好,還是回到我們今天的主體,我們講數字。數字這個東西既是現代文明的豐碩的成果,同時也是一個大坑。剛才我們講的《文學文摘》和蓋洛普兩家機構,人家可是專業玩資料的,都被這個坑坑得不淺。但是沒辦法呀,現代人想要彼此協作,它必須有資料作為仲介。所以既然大家這麼倚仗它,那自然它就會呈現出暗黑的一面。因為有人要利用它幹壞事。

 

所以下面我們就聊一聊,那些我們在日常生活中磕頭碰腦都會遇到的數位,其實都掩藏著大量的謊言。就像我們在廣告當中,我們會看到很多資料,那些資料都是真的嗎?有一段詞,我實在是背不下來,我念給大家聽。這都是我們在一些廣告當中,尤其是一線化妝品廣告當中摘出來的,品牌我們就不提了,給人留點面子。反正你聽得時候你自己到網上搜,看是哪家品牌。比如說28天肌膚重現美白盈潤,24小時滋潤,兩倍柔軟,還有肌膚15倍漂亮白皙,使用它之後,7天后奇跡般呈現高白光彩。好,還有,連續使用四個星期,眼袋減少47%,肌膚年輕12歲。還有,肌膚膚色顯著提高93%,色斑明顯減少87%,你能信嗎?

 

當然了,一線品牌嘛,它既然敢說這個數,沒準兒人家還是有些依據的。比如說找一個女孩來,用完自己的產品,說你估計你的膚色回到了多少年前?人家女孩傻嘛,說12年,用了之後立即年輕12歲。你說的啊,記錄在案,然後就廣告出去了。沒準兒人家有依據的,但是我們稍有常識就知道,這樣的數字它有什麼樣的科學依據。但是我們現在幾乎整體是浸式地身處於這樣的資料洪流當中。

 

當然,資料造假第一條,就是因為惡意造假,給大家舉一個例子。前些年中國有這麼一位奇葩的小姑娘叫郭美美,她曾經威脅一些人,說別跟我來勁啊,來勁我手裡可有17G的視頻資料,我要給它公開。嚇得很多人,不知道有沒有人,反正嚇得就不敢吱聲。你看這17G,你聽這個數,它就像真的。

 

再有,比如說1950年的時候,美國政壇上就出現了一個那個時代的郭美美,這個人叫麥卡錫,是美國的一個參議員。他呢,其實平時就是一個妄人。但是在1950年的有一天,他突然就宣佈,我手裡有一份名單,美國國務院這麼重要的機構,美國國務院掌管著美國全球的外交,說裡面有205個共產黨員,我們這樣的機構已經被共產黨人完全攻佔了。你聽這個205個,有整有零。所以當時輿論就大嘩,說到底有多少,居然被他拿到了這樣的一張名單,說我馬上就要公佈了。當然這個數字,麥卡錫後來又變來變去,一會兒說57個,一會兒說81個。但總而言之,之所以麥卡錫作為那個時代,最著名的政壇小丑,他能夠表演,原因是什麼?不是因為他指控美國國務院裡面有共產黨人,而是他拿出了一個像真的資料。

 

你看我們每一個人,我在辦公室裡就做過實驗,我說你現在從010,你隨便想一個數告訴我,百試不爽。絕大部分人都會說7,還有一部分人會說是3。包括剛才說的那幾個數字,你看郭美美說17G,麥卡錫說205個,什麼57個,81個,你發現這些數有什麼共同特徵?都是單數。越是單數,就越給人感覺它像是真的。所以麥卡錫的這樣的一個指控,才會在50年代的美國政壇掀起一陣腥風血雨。很多其實本來就是個左派人士,比如說電影大師卓別林,都被美國政府去調查。就是因為麥卡錫掀起的這一份迫害。那迫害的根源,就是因為他好像拿出了一個數字,而實際上是指鹿為馬。那當然了,這種直接無中生有,在原始數字上造假的現象雖然很多,但是也比較好識別。

 

真正難識別的那些數位陷阱是什麼?就是原始資料是真的,只不過當這個數位和其他數位,其他背景放在一起的時候,在經過人的處理和加工之後,給你呈現出來的那個意義是假的,或者是刻意扭曲的,這才是防不勝防的數字陷阱那這種數字陷阱,我們主要講兩個現象。

 

第一個叫假精確,我們先說個段子,這是一個老笑話。說有一個博物館,裡面有一個恐龍的骨骼化石。那個講解員就跟小朋友們講,這個恐龍已經有6500萬年零38年的壽命。小朋友說怎麼搞得這麼精確啊?說你想啊,我剛到這個博物館來工作的時候,科學家告訴我,這恐龍6500萬年,現在我工作了38年,那可不就是6500萬年零38年嗎?你一看就知道,這是一個錯誤。但是由於它顯得更精確,於是顯得更可信,在這個段子的背景下,你能夠看出它的可笑之處。

 

可是我們生活中大量存在這樣的現象,舉個例子講,人類在醫學界曾經探討過,就是人有沒有標準體溫。現在我們都知道,人是沒有標準體溫的,多多少少個體差異都會存在。有的人體溫高,有的人體溫低,但是有一個大夫最後統計來統計去,說還是有一個大概的標準數的,37攝氏度,這就是標準體溫。你看,這種表述是沒有問題的,可是美國人用的那個溫度計是華氏的,那有的人就把37攝氏度換算為華氏的溫度,是多少?98.6,標準體溫就變成了98.6華氏度。這樣一來,其實就暗示給你了一個什麼,就是人的標準體溫可以精確到0.1華氏度。所以事實上就給人一個錯覺,就是人原來應該有非常精確的標準體溫。你看,它只是做了一個資料換算,但實際上已經在傳導一種錯誤的知識。

 

再比如說,有一個經濟史學家叫麥迪森,他寫了一本書叫《世界經濟千年統計》。他真是一個認真做學問的人,找了大量的原始資料,然後編了一張表,這張表很多中國的愛國年輕人從中一眼就看出,壯我國威的資料啊。說西元1年的時候,就是中國西漢的時候,中國的GDP占到全球的26.2%,到了西元1000年的時候,就是中國北宋的時候,占到全球22.7%,那中國GDP什麼時候最牛呢?是清朝,1820年的時候,就是鴉片戰爭前20年,居然占到了全球的32.9%。那你說這些數字可信嗎?要知道,當時尤其是在西漢的時候,哪有什麼可靠的經濟統計資料啊?可能史料當中有那些一鱗半爪的,比如鋼產量,當年的中央稅收,可能有一些這個資料,但是它在根上就是不精確的。當你通過數理統計的方法,各種回歸分析,最後拉出這張表,什麼26.222.7的時候,你會知道這個數字的精確已經變得毫無意義。但是正是因為它那種形式上的精確,所以被大量的文章,新聞報導所引用,從此變成學術界的一個定論。你不覺得這種東西叫無源之水,無本之木嗎?

 

再比如說,很多政治家也會來這一套。1999年的時候,當時的聯合國秘書長安南,就跑到當時的波黑塞拉耶佛,就抱起一個孩子,剛出生的嬰兒,宣稱這就是地球上活著的第60億個公民。老天爺啊,你用常識去想一想,地球上每一秒鐘要出生四個多人,每一秒鐘又要死去將近兩個人,那你在抱起這個嬰孩的這一刹那,其實這個數字就已經在劇烈地變動。你怎麼知道這一秒鐘他就正好是第60億個嬰兒呢?事實上,人類至今為止是沒有這樣的統計手段的。當然後來聯合國反復講,說我們之所以選擇塞拉耶佛,完全是偶然,這就是精確分析的結果。其實你想想看,在那樣的一個背景下,去跑到塞拉耶佛,他一定是有相應的政治意圖的。所以一個精確的數字的發佈,背後隱藏的那個豐富的背景含義,那就看你聰明不聰明,你的視野廣闊不廣闊。你才能夠解讀出它背後的真實意圖,這是假精確。

 

還有一種數位造假呢?叫假對比,原始資料還是真的,還是有據可查的。但是當他把兩個數位,或者更多的數位放在一起的時候,那就是他刻意營造的一個結果。比如說,美國紐約有一個著名的市長叫布隆伯格,這個人本身也是大企業家,創辦布隆伯格公司的。他當了市長之後就宣佈,從2005年到2008年,紐約市的教育水準是直線上升的。他手裡有資料,你看,紐約市這麼多中學,那些學生考英語的閱讀理解,包括考數學,成績一直是在上升的,你聽著好像有道理吧。

 

但是只要你稍微一深想就知道,哪一場考試和另外一場考試之間,那個成績是能對比的?事實上後來美國人一研究也發現,原來不過是從2005年到2008年,紐約市的這些考試題目變得越來越簡單而已。所以一個政客想塑造自己的政績,他用這種手段,就非常容易給你製造出一個資料的假像。你看,這就是在資料加工過程當中做的那種手腳,當然,那些民間人士去批評政治家,他也會用這樣的一些手段。

 

比如說,美國人當時在批評小布希的時候,就有一條罪證。說小布希就是一個敗家子,因為他是第43任美國總統,此前42任美國總統所有對外援助的數目,都剛剛達到一萬億美金。可是小布希呢?你看他當家這幾年,他就敗家敗出去一萬億美金。所有你說他是不是個壞蛋,你這麼一聽好像也有點道理。但是你要知道,在美國此前200多年歷史上,那42任總統那個時候美元是什麼價值。你能把它做一個簡單的算術加法,然後和小布希時代進行對比嗎?

 

我們舉個簡單的例子,在19世紀初的時候,當時美國人從拿破崙手裡去購買整個路易斯安那,那個時候路易斯安那那不是現在地圖上路易斯安那州那麼一點點,是整個從北到南一貫下來的一大片那片領土,花了多少錢?1500萬美金,那個時候美金很值錢,而且當時確實對美國中央政府的那個財政也是一個沉重的負擔。那是很大一筆錢,但是數很小。到了19世紀中期的時候,美國人從俄國人手裡買到阿拉斯加,多少錢?700多萬美金,還不到買路易斯安那的一半的錢。那這兩筆錢現在全加一塊,2000多萬美金,能買什麼呀?在美國現在曼哈頓頂層的那種豪華公寓,一套你都不見得能買得下來。所以用過去的錢加總,然後和現在小布希花的錢對比,然後來指責小布希,你不覺得這就是一次政治上的把戲,一次資料上的陷害嗎?當然了,如果我們把人的因素,再疊加到數字世界之後,你會發現,這個世界就徹底亂套了,因為人是這個世界上不確定性的最大來源。

 

給大家舉一個例子,有一個段子是這麼說的,兩個農民在那兒討論一個問題,說我們能不能一邊抽煙,一邊虔誠地向上帝祈禱?結果倆人就跑去問神父,但是倆人問法可不一樣。一個人問,說我祈禱的時候能不能抽煙呢?神父說當然不可以啊。而另外一個人的問法是,我抽煙的時候能不能虔誠地向上帝祈禱呢?神父說可以的。

 

你看,同樣一個情境,但是因為意義的背景一切換,人們得出來的答案就不一樣。所以很多問卷調查看似設計得非常科學,但是很多原始意圖已經植入在其中。

 

比如說你接到這麼一份問卷,說你喜不喜歡教師這樣一份令人尊敬的職業,那你會怎麼填呢?還有一個問題是這樣問的,說醫生都認為吸煙有害健康,你同意嗎?那這樣的問題實際上已經預置了答案在當中。所以你看,數字既是我們理解世界真相的一個確定性的途徑,同時這條途徑上又充滿了煙霧,就像《紅樓夢》裡寫的太虛幻境大門上貼的那一副對聯,上聯叫假作真時真亦假,下聯是無為有處有還無

 

接著跟大家聊數位這個話題,現代化放出了數位這個魔鬼,但其實人類還遠遠沒有能夠馴服它。前面我們講的是很多人刻意地要歪曲數位,其實情況比這個要複雜得多。即使沒有刻意歪曲,那些客觀的數位就擺在那兒,我們人類就可以通過它正確地認識世界嗎?還真的不一定。

 

給大家舉一個例子,1999年的時候,在英國發生了這麼一個案子,案子的主人公是叫薩麗,是一個34歲的女律師。你想律師嘛,社會地位比較高,然後也比較有錢。她先是生了一個孩子,這個孩子到三個月的時候就突然猝死。當時醫學界也正好意識到有這麼一個情況,說嬰兒在毫無徵兆的情況下,在幾乎檢查不出任何病症的情況下猝死,是有這種情況的,這叫嬰兒猝死症。那好了,第一個孩子就這樣了。那第二年呢,這個薩麗又生了一個孩子,這個孩子活到兩個月的時候,又猝死。這個給他屍檢的這個醫生就懷疑了,說這沒準兒是那種說心理變態,然後虐待嬰兒致死的情況。所以這醫生就給報了警,然後就把這個薩麗作為重要的嫌疑犯,就給抓起來了,然後就上法庭。那確實,就像那個段子講的,Howareyou怎麼是你?Houoldareyou,怎麼老是你?太可疑了。

 

那正好在這個時候出來一個人,這個人是一個當時英國著名的兒科專家叫梅鐸。這個人在英國的醫學界是鼎鼎大名,而且剛好這個時候女王給他授了一個爵士的頭銜。在英國授爵士頭銜,這就是上層社會,這個人說話要負責任的。於是這個負責任的兒科醫生就出來了,他說,他上法庭說的,這可不是私下閒聊。說在我們這樣的社會,一個只要他不是說吃喝都發愁的這樣的家庭,如果嬰兒發生猝死的概率是多少呢?是1/8543,是一個非常偶然的情況。但是如果這件事在同一個家庭,同一個母親身上發生兩次,這概率是多少呢?是七千三百萬分之一。這就非常可疑了,什麼概念呢?就是英國一百年,按照英國的那個人口總數,才會出現這樣一個事。如果這件事發生到第三次的話,如果還在你這個家庭,我就可以鐵口直斷,你就是謀殺,現在已經非常之可疑。

 

所以這個兒科專家梅鐸教授,就在法庭上做了這麼一段證詞,你可想而知,這樣的證詞是極端不利於薩麗的。當然,後來這個案子打了各種上訴,殺出來一批人,這一批人是誰呢?是英國皇家統計學會的這些學者,這些學者當然也是借題發揮,就借這個案子,指出了剛才我們講的梅鐸教授的三大誤區。

 

第一大誤區,是你把個體的概率和總體的概率搞混了。確實,在整個英國發生這樣一件事情,是八千多分之一。但是如果具體到一個個體的人,那可能就是百分之百。因為這樣的病,它很可能是基因遺傳帶來的,你的家族已經帶來的這樣的基因,你逃不過這一劫。所以發生在你身上是百分之百,這是我們經常犯的一個概率統計的失誤。就像有一個人,也是個段子講,帶了一個炸彈上了飛機,被人給查出來了,說你怎麼帶炸彈?他說我不想炸飛機,那你為什麼帶呢?他說,你想想看,幾乎不可能有一個飛機上有兩個人帶炸彈上去,所以我帶了一個炸彈,那另外一個人就不可能了,所以我就是安全的。你看,這就是典型的把個體概率和總體概率搞混了。

 

那統計學會的專家還指出了第二點,就是你那七千三百萬分之一,就是兩個孩子接連地死于嬰兒猝死這樣的概率,你是怎麼算出來的?你是用8543×8543,是按照那種排列組合的數學公式算出來的。但是如果這個家庭就是有這樣的基因呢?她第一個孩子這麼死的,第二個孩子有很大的可能仍然會死,它的概率是遠遠不止你講的七千三百萬分之一,所以你又算了一筆錯賬。

 

第三個統計學上的誤區,就是你把那個中標率,在樣本足夠大的時候給搞錯了。這個話怎麼講,比如說中彩票這件事情,概率低吧,好低啊,對吧。但是你能說你們家鄰居中了彩票,他就一定是作弊嗎?不見得啊。它就是中標了呀,只要人口基數非常大,你遇到身邊的一些稀奇古怪的概率非常低的事情,是完全可能的。薩麗有可能就是中標了,那怎麼一定就能判斷她是殺人兇手呢?當然,這樣一段證詞確實也救了薩麗,這段官司打得非常久,從1999年一直打到2003年,後來在第二次上訴的時候,薩麗勝了。後來英國法律界因為這個案例,還把過去一些相似的案例,是240多個,都翻出來重新查,後來果然有四個案子改判了。所以這對英國近年來的法律界,是一個非常出名的事情,改判。

 

當然了,薩麗最後的結果非常不好,因為不管怎麼講,法律雖然還了她公正,但是在她鄰居,在她的朋友看來,她仍然是一個殺人兇手。所以她的後半生,34歲之後,就陷入了酗酒,然後生活搞得一塌糊塗,最後英年早逝,這是一個悲劇了。但這個悲劇在告訴我們什麼,就是我們人類在認知資料。即使這些資料就是鐵板釘釘的事實,實際上當我們用它來做因果判斷的時候,仍然會陷入坑。

 

給大家舉幾個例子,比如說在美國有一個亞利桑那州,這個州有一個特別不好的資料,就是它的肺結核的發病率比較高。那你說這個州肯定是環境不好,不利於人的肺部健康等等,這些結論很輕鬆,廉價地就可以得出來。但是真相是什麼呢?真相是亞利桑那州的氣候特別好,特別適於肺結核病人的康復。而且這個州在治療肺結核的醫療水準上又比較高,所以全美各地的那些肺結核病的患者都跑到這個州來治療,來休養。所以它的人口當中肺結核的發病率就比較高。所以你看,我們通過表面上的數字,來得出輕率的結論,是多麼容易陷入偏差。

 

你像在中國也有這樣的情況,我們經常會說,現在經濟非常好了。但是你看,人的環境變得惡化了,我們的癌症發病率就提高了。可是你要知道,這個癌症發病率提高的這個數字也許沒有作假。但它背後的原因未必是這個,它可能是人活得歲數越來越長,健康狀況越來越好,原來可能人活到三四十歲就死了,那癌症都沒等到能發的時候,現在活到七八十,甚至八九十,很多癌症就容易發出來。再有呢?現在醫療水準比較高,所以對癌症的早期發病它就能夠查得出來,原來不以為是癌症死,其實就是癌症。現在只是醫療診斷水準提高了而已,如果你通過這個資料就輕率地得出來,現在人的健康水準在下降,你不覺得有點不負責任嗎?

 

再給大家舉一個例子,在美國,關於吸食大麻其實有一個爭論,很多人也拿出資料。說你看,吸食大麻的人比不吸食大麻的人,他的神經衰弱率高20%,所以吸大麻有害于健康。但是很多人就主張大麻解禁,他們就說你胡扯,那是因為很多神經衰弱的人他要求助於大麻,來治療自己的神經衰弱,所以才顯得吸大麻的人神經衰弱的比例比較高。

 

所以這場官司我們作為局外人,我們也不是專家,我們也打不清楚。但是確實兩頭看,似乎它都成立。那你說,誰是誰的因,誰是誰的果呢?還真是說不清楚。所以在我們平時看新聞的過程當中,經常會有人通過兩個數字,然後得出一個結論,然後讓你接受他的主張。對於這樣的人,我們多是要多一份小心。

 

說到這兒,你可能會反駁了,說胖子,我可看過你《羅輯思維》以前的節目,你以前可是花了兩期節目時間,去吹噓大資料的未來,你今天怎麼當了叛徒呢?你今天又開始說資料的壞話呢?

 

你看,這就是《羅輯思維》的方法論,人類社會出現任何現象,它都可能有它不好的這一面,那怎麼辦呢?是把這個現象割除,然後我們回到過去,還是繼續往前走呢?

 

《羅輯思維》堅定地站在後者,就是人類社會發展帶來的所有問題,一定是靠進一步發展來解決掉的。退回到過去,永遠不是解決方案。就像資料這麼多造假,扭曲,這些偏差,怎麼解決?

 

方案是大資料,大資料的本質不是資料多,也不是數位大,而是維度豐富。給大家舉一個例子,一個市長向上級,向市民謊報GDP數字,跟統計局局長一商量,乘個2,沒問題啊。如果在傳統社會,這就有可能是一個障眼法,就騙過了媒體,騙過了上級,也騙過了民眾。

 

可是在大數據時代呢?我們每一個人,都身處在越來越洶湧澎湃的資料洪流之中,我們可以輕鬆地獲得各種維度的資料。比如說這個城市的發電量、用電量,居民外出度假的總數,這個城市的汽車的增長,房價的漲幅,這個城市的社會商品的零售總額,這個城市的網購的數量等等。當這麼多資料彙集在一起的時候,真相將會越來越纖毫畢現。那個時候,我們就可以沖著這個造假的市長嘿嘿冷笑,你丫編哪,你丫接著編哪。

本文出處:http://www.luojiji.com/thread-525-1-1.html

創作者介紹

神仙、老虎、狗

神仙、老虎、狗 發表在 痞客邦 PIXNET 留言(0) 人氣()