《生活大爆炸》
" 睡前在發光的屏幕上閱讀,會有損壽命?"
" 二氧化碳排放量上升,或導緻肥胖率升高?"
" 每天喝一小杯紅酒,有助于避免各類與衰老相關的健康問題?"
" 一杯紅酒也對心髒不利:科學家揭穿适度飲酒有益健康的迷思。"
相信看到上面的這些信息,不少人都會覺得非常熟悉。我們每天通過各種渠道都能接觸到海量類似的 " 最新研究 "。點開這些内容,文章裏不僅有看起來真實詳細的具體數據,還有似乎可靠權威的相關學術機構做背書。
但是,數據就代表真實嗎?究竟哪些數據是真實可信的,哪些又是誤導呢?
在今天,如何在海量的信息迷霧中去僞存真,或許是我們每個人的一門必修課。英國科學作家湯姆 · 芝華士和英國杜倫大學商學院經濟學副教授大衛 · 芝華士合著了《數字一點不老實:看穿紛繁信息中的數據玄機》一書。他們希望可以通過這本書,讓大家看清數字背後的真相,不被紛繁數據輕易誤導。
睡前看屏幕會減少睡眠?
對于長時間抱着屏幕看這個事兒,我們要擔心到什麽地步才算完?過去幾年裏出現了各種誇張說法,值得提及的包括 iPhone 可能 " 摧毀了一代人 ",或者 " 對女孩來說,使用社交媒體比吸食海洛因危害更大 "(這種說法後來被從文章中删除)。這個領域的研究既混亂又艱難,既難以獲得優質數據,又要避免得出站不住腳的相關性,不過最有力的科學研究似乎表明我們不需要太過擔心。
但有一個領域備受關注,那就是屏幕與睡眠之間的關聯。2014 年一則新聞的标題盡顯大聲疾呼之勢:《睡前在屏幕上閱讀可能會害死你》。這篇報道基于《美國國家科學院院刊》(PNAS)上的一項研究。
大意很簡單:睡眠不足對健康有害;研究表明在發光的屏幕上閱讀會減少人的睡眠時間;因此,新聞報道推斷,在發光的屏幕上閱讀可能會害死你。
《輕松自由》
咱們有一說一。該研究确實發現,看屏幕的時間與睡眠時間有關。被試被要求在一天睡前閱讀一本電子書,在另一天睡前讀一本普通的紙質書。(順序是随機安排的:有些人先讀紙質書,有些人先讀電子書。這是爲了防止先讀某種書會成爲影響結果的因素。)它發現了一個具有統計顯著性的結果:p 這意味着如果看屏幕完全沒有任何效應,在将實驗進行 100 次後,像這樣極端的結果,預期出現次數不到 1 次。盡管如此,這仍是一項非常小的研究,隻有 12 名被試;但有時即使研究規模很小,隻要謹慎對待,它們也可以爲我們指引可能的研究方向。
如果一項發現具有統計顯著性,那僅意味着這項發現有比較大的可能是真的。另一個你需要考慮的是 " 效應量 "(effect size)。好在它不像 " 統計顯著性 " 那麽容易被誤解," 效應量 " 的意思正是它的字面意思:效應的大小。
既然我們在這一章讨論的仍是讀書,讓我們回到研究本書讀者的假想實驗。這一次,我們的實驗稍有不同。我們讓 500 人閱讀《數字一點不老實》,500 人讀另一本較爲遜色的書籍,比如《米德爾馬契》或《莎士比亞全集》之類,并将兩組人做比較。然後,我們這次不測量讀這些書如何影響統計能力,而是測量他們睡着的時間,看一組人是否比另一組人更晚入睡。
返回的結果很明顯:所有 500 名閱讀《數字一點不老實》的人都比另 500 人更晚睡着。
這無疑是一個具有統計顯著性的結果。即使不知道差異有多大,純屬巧合的概率也極其微小,小到這個概率的分母比宇宙中原子的總數還要大得多。假設這項研究的設計和執行沒有問題,這樣的結果就表示效應不可能不存在。
現在假設我們想知道效應有多大。我們看到的是,讀《數字一點不老實》的全部 500 人的确都入睡更晚——晚了正好 1 分鍾。效應真實存在。它具有統計顯著性。但它與你的生活毫無幹系。如果你想得到有助于改善睡眠的信息,這個結果對你毫無用處。
可是,誰會在睡前看四小時書?
科學家對一件事是否具有統計顯著性有極大的興趣:你如果了解到一件事與另一件事有相關性,就可以對這一相關性展開研究,也許就能多了解一些其背後的機制。例如,屏幕使用時間如果對睡眠确有影響(真實效應),那麽即使影響很小,也可能爲我們揭示人類晝夜節律的運作方式—藍光是否對重置人的内部生物鍾有一定作用。這可能會帶來更進一步的有趣發現。
有時,即使是很小的效應也很重要:也許一個自行車隊找到一種方法,能成功制造出更圓的車輪,可以使騎手每公裏花費的時間減少萬分之六秒;這可能足以産生金牌和銀牌之間的差距,特别是隊醫也給他們開了足夠的哮喘藥的話。然而,對一名讀者——一個試圖理解周遭世界、試圖理解如何應對其中的風險和困難的人——而言,某兩件事之間是否存在統計學上的顯著關聯,不過是智識層面的興趣而已。例如,你可能想在睡前讀 Kindle 而不是紙質書,這樣你就可以關掉燈,讓你的伴侶好好睡覺。
你真正關心的不是能否發現關聯,而是這個關聯有多大。睡前看屏幕的影響有多大?答案是:很小。該研究的被試被要求在睡前 4 小時(注意是 4 小時!)閱讀紙質書或電子書。結果,在閱讀電子書的晚上,被試平均晚睡了 10 分鍾,而《睡前在屏幕上閱讀可能會害死你》這篇報道沒有提及此點。每晚都少睡 10 分鍾也許不是小事,但誰天天晚上在床上看 4 個小時的書啊?
有趣的是,後來有一項針對青少年的規模大得多的研究得到了類似的發現:屏幕使用與睡眠之間存在相關性,但很小。多使用屏幕 1 小時與損失 3 — 8 分鍾的睡眠相關。這也許掩蓋了某些巨大差異——也許大多數兒童和青少年不受影響,但少數人受了嚴重的影響。但看起來,睡前不看屏幕對全國人的睡眠習慣沒有太大幫助。
如果報紙和媒體漸漸習慣談論效應量,而不僅僅是統計顯著性,我們會很開心。他們不必深入技術細節,隻需簡單地說 "4 個小時的閱讀時間與少睡約 10 分鍾有關 ",就可以爲讀者提供所需信息,以确定此事是否值得注意。讀者應該注意的不僅僅是是否存在關聯,例如 " 吃培根會緻癌嗎 ",而是這些關聯有多大(如果我連續 20 年每天吃培根,我患癌的可能性有多大)。如果文章看起來沒有提到這一點,那麽最可能的解釋是,這個關聯的效應非常小,而真相并沒有聽上去那麽吸引人。
每天一杯紅酒有益健康?
嘿,好消息!" 研究發現,每天喝一小杯紅酒有助于避免糖尿病、阿爾茨海默病和心髒病等與衰老有關的健康問題。" 但是等一下!" 一杯紅酒對心髒實在不利:科學家揭穿适度飲酒有益健康的迷思。"
嗯……
嘿,還有更多好消息!" 紅酒富含抗氧化劑,每天一杯可降低男性患前列腺癌風險 10% 以上。" 但是再等一下!" 即使每天隻喝一杯酒也會增加患癌風險:研究警示,酒精與至少七種形式的疾病有關。" 一個愛喝紅酒的人讀《每日郵報》,情緒會像坐過山車一樣跌宕起伏。這些标題都是基于過去五年的真實研究,《郵報》并沒有在胡編亂造(也不是說隻有《郵報》才容易出現這種情況)。那麽到底是怎麽回事?紅酒會讓我們長生不老,還是會害死我們?
如果你正在進行一項研究、一項民意調查或者任何一個要用抽樣方法來了解的事情—比如有多少人可能投票給工黨,某藥物治療某疾病的效果如何——你得到的答案不一定和事實完全一緻。即使你有一組無偏差的樣本,并且研究做得很規範,你得到的數字也可能隻是由于概率的機制而随機地高于或低于真實情況。這一點帶來的影響顯而易見。
假設吃炸魚柳可以稍微降低打鼾的風險(當然不太可能,但我們先假設一下)。假設我們說,現在已經有很多不同的研究讨論炸魚柳是否會影響打鼾。我們還假設,雖然有些研究規模很小,但做得都很規範,沒有發表偏差、p 值操縱或其他可疑的統計行爲(雖說這麽規範也實屬罕見,但先不管這些)。
我們期待的是,這些研究的平均結果會表明,吃炸魚柳的人打鼾稍微少一些。但任何個别研究最終都可能返回略有不同的結果。如果這些研究确實沒有偏差,你會預期這些結果呈一種正态分布,集中在真實效應周圍。有些結果更高,有些更低,其中大部分在中間附近。所以,即使已經有很多關于炸魚柳與打鼾相關的研究,其中一些研究的結果也不能代表現實情況。它們可能高估或低估了效應,甚至可能發現該效應并不存在,或者發現炸魚柳導緻打鼾。再次強調,這些研究或其發表過程不一定有任何問題。這些結果隻是随機性的産物。
這時候該做的,是努力弄清楚所有這些研究趨向于什麽結論,即平均結果是怎樣。這就是爲什麽人們會在學術論文的開頭做文獻綜述——将自己的研究結果放到科學文獻整體的背景中去看。有時研究人員會做後設分析,這種學術論文會縱覽現有的所有相關文獻并嘗試将結果彙總。如果現有研究足夠多,如果在研究或發表過程中都不存在系統性偏差(我們說過,這兩個如果有很大的不确定性),順利的話,這樣的彙總結果能讓你清楚地了解真實的效應。
新研究具有誤導性?
科學就是這樣進步的,至少理論上如此。每當一項新研究發表,它就會被納入現有的研究集合;如果順利的話,一般而言,新數據的加入會使人們在科學理解上的共識更接近現實。但是,假設這時候發表了一項新研究,它說的不是 " 這項研究讓我們對底層現實情況的理解更進一步,也許還略微産生了改變 "。相反,進行該研究的科學家立即摒棄了所有的既有研究,并說:" 這項新研究證明過去所有的相關研究都是錯的。現在認爲,炸魚柳會導緻打鼾,把我們以前說的全忘了吧。"
每次記者就新的研究論文(如《開創性新研究揭示炸魚柳導緻打鼾》)撰寫新聞報道時,發生的都是這種事:沒有将其放在現有研究的背景下考慮。平心而論,這是一個很難解決的問題。報紙報道的是新聞;在科學領域,最明顯的 " 新聞 " 就是新研究的發表。如果新聞标題是《新研究沒有多少新信息,且隻能在既有研究的背景下看待》,這可不怎麽搶眼。
此外,科學論文需要被視爲全部相關研究這一整體的一部分,而不是獨立存在的,而大多數記者和大多數讀者一樣,可能都沒有意識到這一點,他們會産生," 哦,這周我看到喝紅酒有好處 ",諸如此類的想法。不僅如此,許多媒體日益拮據的财務狀況也意味着科學記者通常每天要寫五篇以上的報道;他們除了記述新聞通稿外,很可能根本沒時間做别的,遑論爲結合背景信息來解讀新研究而聯絡其他科學家了。
但這終歸是個問題,因爲無論是就存在風險的特定情形,還是就科學進程本身而言,它都會給讀者一種誤導性的印象。假設新研究頻頻出現,結果炸魚柳和打鼾的關聯一周一變,那讀者就有理由認爲科學基本上是在随意編造。
我們對炸魚柳和打鼾的拙劣思想實驗隻是一個例子,但這樣的情況一直在發生,涉及真實的事物。我們繼續給《每日郵報》挑錯,在他們的網站上以 " 新研究稱 " 爲關鍵字進行谷歌搜索,返回了超過 5000 條結果,涉及的主題從肥胖對腦功能的影響,到社交媒體和壓力的關系,再到咖啡是否讓人更長壽。
這些研究是真的嗎?是真的。每項研究都準确勾勒出當前對科學的最佳理解嗎?可能沒有。問題還會更嚴峻。一項發現孤獨症患者腦内鋁含量高的研究在 2017 年引起了一些媒體的關注。更廣泛的孤獨症研究在努力尋找與孤獨症相關的強環境效應;這項研究在其中不具代表性,但它加劇了人們對接種疫苗的更廣泛恐慌(因爲有些疫苗含鋁)。接着說疫苗恐慌和孤獨症的關系。這一問題的肇始是安德魯 · 韋克菲爾德(Andrew Wakefield)等人于 1998 年發表在《柳葉刀》期刊上的研究,他們似乎發現麻腮風疫苗與孤獨症之間存在關聯——但該研究本身是一個離群點。一個單一的小型研究發現了一個意想不到的結果——成熟的科學報道方法不會對它抱有太大興趣,哪怕該研究沒有作假。
然而,由于新聞行業廣泛傾向于将單一研究看作事實,而非更大圖景中的一個瞬象,于是導緻了巨大的健康恐慌,全球疫苗接種水平下降,少數兒童因麻疹緻死或緻殘。有時,僅僅是有時,精準地傳達一項單一研究的重要程度(通常 :不高)真的很重要。
那麽關于紅酒和健康,有什麽共識?好吧,盡管新聞标題千差萬别,但多年來,公共衛生立場沒有太大變化。少量飲酒(粗略地說是指每周最多喝 4 升啤酒或等量酒精的其他酒類)的人往往比完全不喝酒的人壽命稍長;但是當飲酒量超過這個數值時,預期壽命又會下降。
這一結果在大型研究中一遍一遍又一遍地出現。它被描述爲一條 J 形曲線:死亡率先下降,然後爬升,呈傾斜的 J 形或是耐克那個鈎。這是一個很小的效應,而且還不完全清楚是由什麽導緻的——例如,人可能出于健康原因而不飲酒,這或令他更有可能過早死亡。但共識似乎确實是,與滴酒不沾相比,少量飲酒可能有很小的保護作用。尚不清楚紅酒是否尤其如此。
但由于效應很小,任何新的研究都很容易發現少量飲酒對你有害、有益或者毫無影響。新研究隻有在相關背景下看才有意義。當你看到一些内容,尤其是關乎健康和生活方式并含有 " 新研究稱 " 字樣時,要謹慎對待。