【編者按】
在這次的新冠肺炎疫情的預防和治療中,大數(shù)據(jù)起到了很重要的作用。下文摘自斯坦福大學人類生物學專業(yè)客座教授內(nèi)森·沃爾夫的《病毒來襲》(The Viral Storm:the Dawn of a New Pandemic Age)一書。在書中,內(nèi)森·沃爾夫闡釋了現(xiàn)代信息和傳播等各種各樣的新技術,對于我們識別病毒、了解病毒進化軌跡,以及調查疫情和了解疾病傳播等諸多方面提供的幫助。
一個叫作埃維的橡膠種植園,位于喀麥隆西南部我們的一個研究點內(nèi),我們在那里進行實驗。這一實驗展現(xiàn)了公共衛(wèi)生領域一個令人激動的新趨勢,雖然它只是基于簡單的手機信息的傳播。
在埃維這個大約有10萬居民的橡膠園里,每當有人生病,他們就去附近的某家診所就醫(yī)。如果病得很重,他們就從診所轉到位于橡膠園中心區(qū)域的中心醫(yī)院。然而,過去沒有好的技術方式令中心醫(yī)院可以監(jiān)控那些地方診所的情況。如今在數(shù)字流行病學領域領導我們項目的拉奇·古拉斯卡拉(Lucky Gunasekara),他是非營利組織“短信前線:醫(yī)生”(FrontlineSMS:Medic)的創(chuàng)辦人之一。幾年前,他與該組織的合作伙伴們創(chuàng)建了一個基于手機短信的簡單系統(tǒng),使中心醫(yī)院能夠監(jiān)控地方診所里的情況。通過簡單地發(fā)送一系列預置代碼,診所里大部分關鍵性信息能夠清楚、持續(xù)而有效地在醫(yī)學體系里層層上傳。使用預置代碼和簡單的短信形式,地方診所能夠迅速地告知其他人所收治的瘧疾、腹瀉和其他疾病的病例數(shù)。
簡單的技術可以產(chǎn)生重大的影響。幾個簡單的技術應用就讓埃維的醫(yī)療情況不僅被中心醫(yī)院所掌握,也能被任何一個擁有合適接入口的人通過網(wǎng)頁界面遠程了解。先進的技術讓地方臨床醫(yī)生和病人自己可以與外界進行交流,外界因此可以累積、組織和分析信息。這樣一來,一個突發(fā)衛(wèi)生事件發(fā)生期間,有關事件發(fā)展進程的信息就會傳播得更加快捷,實地信息也增多了。2010年海地地震就是這樣的情況。地震一發(fā)生,像尤沙黑迪(Ushahidi)這樣的組織就編制了簡短的自由代碼,供人們發(fā)送求助信息。他們隨后把這些代碼發(fā)給了當?shù)匾魳饭?jié)目主持人,借主持人之口將這些數(shù)字公之于眾。令人驚訝的是,當一切塵埃落定時,手機短信分布的統(tǒng)計分析圖與地震災害的高分辨率航空圖像高度契合。實際上,人們的手機短信給重災區(qū)的定位提供了很有價值的線索。對海地災區(qū)的人們而言,更重要的是短信能救命,能將關鍵信息傳遞給空中直升機上的救援人員。
類似的系統(tǒng)已經(jīng)在疫情暴發(fā)期間使用,例如2010年秋海地暴發(fā)的霍亂疫情就使用過該系統(tǒng)。我們最終希望能將疫情偵查工作實現(xiàn)群眾外包,將患者們提供的零散信息匯集在一起,勾畫出從疫情開始到隨后擴散的實時畫面。簡短的代碼只是一個開始。當越來越多的國家采用電子醫(yī)療記錄時,世界各地的人都可以直接通過手機報告自己的健康問題,以此加強與醫(yī)療網(wǎng)絡的聯(lián)系。這些信息不僅將為報告身體有恙的患者提供更有效的治療,而且當分析大量用戶的信息時,健康異?,F(xiàn)象將被更迅速、敏銳地偵查出來。發(fā)展到最后的反應系統(tǒng),能夠識別出標志一種流行病開始的異常的健康問題集群。至此,數(shù)字流行病學時代真正到來了。
用短信作為疾病擴散的一個早期指示標,也有人對此持異議,原因之一是:即便在最緊迫的情形下,也不是所有人都會發(fā)短信。但是手機有一些使用方法,是不需要用戶進行任何操作的。
就在我寫這句話的時候,世界上超過60%的人口已經(jīng)被安裝了自動定位信標。這些信標持續(xù)提供他們所在準確位置的最新信息。在未來5~10年內(nèi),地球上幾乎每個人都將安裝上自動定位信標。這不是政府陰謀,你口袋里的手機才是始作俑者。
手機不斷地與信號塔進行交流,提供給電信運營商海量的數(shù)據(jù),包括用戶所在位置,用戶彼此間如何聯(lián)系,和需稍加解釋的用戶社會行為。這些所謂的呼叫數(shù)據(jù)記錄為電信部門提供大量數(shù)據(jù),使他們有機會了解客戶并進行更多的服務營銷。但是,大數(shù)據(jù)價值不僅僅體現(xiàn)在營銷上,這一持續(xù)信息流貌似單調,但能夠救你的命。
被手機公司搜集的數(shù)據(jù),使我們都成了迅速偵查出重要人類事件的潛在傳感器。內(nèi)森·伊戈爾(Nathan Eagle)對此做了細致的研究。他是麻省理工學院媒體實驗室成員,將呼叫數(shù)據(jù)記錄應用于廣義問題的開拓者之一。伊戈爾和同仁們合作,旨在通過挖掘呼叫數(shù)據(jù)記錄了解地震情況。
伊戈爾和其研究團隊在盧旺達研究呼叫模式數(shù)據(jù)達3年之久,其中包括對2008年2月3日那關鍵一星期的數(shù)據(jù)研究。當天基伍湖地區(qū)發(fā)生了5.9級地震。通過設立呼叫頻率的基準數(shù)據(jù),伊戈爾和其團隊能夠發(fā)現(xiàn)地震之后那段時期呼叫模式異常的蛛絲馬跡。他們能夠通過呼叫數(shù)達到的一個峰值,來確定地震時間,也能夠利用來自手機信號塔的定位數(shù)據(jù)確定震中即呼叫量最大的位置。
利用手機數(shù)據(jù)偵查出地震時空信息的想法著實令人驚訝,它也暗示了一系列不同的手機數(shù)據(jù)應用?;颊呖赡芨】等擞兄举|上不同的呼叫模式。當一個新疫情向外擴散時,呼叫模式也可能發(fā)生改變。單單分析呼叫數(shù)據(jù)記錄,可能對一個新疫情的早期偵查而言不盡完美,但結合我們和其他衛(wèi)生機構組織提供的疫情資料,也許能幫助我們勾勒流行病早期的擴散趨勢。
如今手機的使用越來越普遍,這可能成為疫情演變成流行病之前,迅速發(fā)現(xiàn)和應對疾病的利器。然而在日益發(fā)展的數(shù)字監(jiān)控領域,手機并不是以技術為主的唯一解決方案。2009年我在谷歌的同仁們發(fā)表了一篇令人關注的論文,表明個人在線搜索模式也提供了人們所患傳染病的信息。
通過采用谷歌保存的海量搜索數(shù)據(jù)以及美國疾控中心搜集的美國流感監(jiān)控數(shù)據(jù),研究團隊能夠校準監(jiān)測系統(tǒng),確定病患和其護理者所使用的、表明疾病出現(xiàn)的搜索關鍵詞。研究團隊通過搜索與流感及其癥狀、治療相關的單詞,建立了一個預測流感趨勢的系統(tǒng),比美國疾控中心提供的流感統(tǒng)計準確率更高。而事實上,谷歌團隊做得更好:谷歌搜索數(shù)據(jù)即刻就能獲得,美國疾控中心流感監(jiān)測數(shù)據(jù)卻有滯后的問題,因為需要時間來報告和發(fā)布。先于傳統(tǒng)監(jiān)控系統(tǒng)提供準確的流感趨勢預測,谷歌由此擊敗了美國疾控中心。
谷歌搜索的流感趨勢系統(tǒng)
谷歌流感趨勢系統(tǒng)所提供的有關季節(jié)性流感的早期數(shù)據(jù)很有趣,并且有潛在的重要性。這一早期數(shù)據(jù)讓衛(wèi)生機構有時間訂購藥物,以滿足不同病情之需。但是季節(jié)性流感的早期偵查不是我們的終極目標,我們的目標是建立一個能夠發(fā)現(xiàn)一種新興流行病的系統(tǒng)。谷歌現(xiàn)在正努力將疾病偵查范圍從流感擴展到其他種類的疾病。當越來越多的人使用谷歌這樣的搜索引擎,我們就可以獲得越來越多的數(shù)據(jù)。我們所希望的是,除流感之外其他感染源的趨勢分析也做得越來越好。也許有朝一日,我們僅僅谷歌搜索一下,就會發(fā)現(xiàn)一種流行病正在某社區(qū)興起。
社交網(wǎng)絡的迅猛發(fā)展,提供了另一組大數(shù)據(jù),使我們有可能會發(fā)現(xiàn)即將到來的疫情信息。這些信息雖然微弱,但有潛在的價值。像英國布里斯托爾大學的計算機科學家威斯利斯·萊普(Vasileios Lampos)和奈勒·克里斯蒂亞尼尼(Nello Cristianini)已經(jīng)采用與谷歌科學家們相類似的方法,對數(shù)以億計的Twitter信息進行整理。像他們在谷歌的同仁們一樣,萊普和克里斯蒂亞尼尼使用關鍵詞觀察Twitter上的流感趨勢,發(fā)現(xiàn)其與流感統(tǒng)計具有相關性。這里的流感統(tǒng)計是指英國健康保護署(UK’s Health Protection Agency)提供的數(shù)據(jù)。
2009年在甲型H1N1流感病毒大流行時期,他們追蹤Twitter中與流感相關的信息的出現(xiàn)頻率,并將結果與官方衛(wèi)生數(shù)據(jù)比對,發(fā)現(xiàn)準確率達到97%。與谷歌流感趨勢研究團隊的研究成果一樣,萊普他們的研究提供了一個既快捷又具有潛在廉價性的流感研究方式,作為傳統(tǒng)流行病數(shù)據(jù)收集的補充。這種研究方式也可能擴展到對流感以外疾病的研究。
雖然社交網(wǎng)絡可以讓我們調查到人們正在交流什么話題,但它也許還能提供一系列更為豐富和精細的應用。在最近一項引人注目的研究中,兩位社會科學的領軍人物尼古拉斯·克里斯塔基斯(Nicholas Christakis)和詹姆斯·福勒(James Fowler)研究了社交網(wǎng)絡如何能為傳染性疾病提供監(jiān)控。
在一個設計精巧的實驗里,這兩位科學家追蹤被分成兩組的哈佛學生。第一組被試者是從哈佛學生中隨機選擇的,第二組被試者是從被第一組人列為朋友的人中選出來的。因為靠近社交網(wǎng)絡中心的個人,可能比處在邊緣的人更快地被傳染上疾病,克里斯塔基斯和福勒就假設在一次疫情中,朋友組比隨機組更快地傳染上疾病,因為隨機組一般比朋友組離社交中心遠。實驗結果令人震驚。在2009年的流感疫情中,朋友組比隨機組平均早14天感染上流感病毒。
我們希望社會科學能夠識別出新的“哨兵”來監(jiān)控新疫情,并早點捕獲它們。但是確定人與人間的朋友關系是要花時間的——我們在一所單獨的學校辦得到,在全國范圍內(nèi)也許就不行了。當前巨大的在線社交網(wǎng)絡中自我確認的朋友,也許讓這項任務更容易完成了。像Facebook這樣的在線社交網(wǎng)絡雖然不是為監(jiān)控疫情之便而設計,但卻創(chuàng)造了相對便利的監(jiān)測系統(tǒng),能夠被用于確定疾病的出現(xiàn)頻率,識別社會性“哨兵”,也許最終會就一種新型感染源在一個社區(qū)的擴散提供預警。
當約翰·斯諾于1854年首創(chuàng)地理信息系統(tǒng)時(約翰·斯諾,英國著名的內(nèi)科醫(yī)生、牧師、當代流行病學奠基人之一。在本章的開頭,作者引述了1854年倫敦霍亂疫情中,約翰·斯諾通過訪談、病例識別和繪制地圖的方法來找出疫情之源——編者注),他所采取的行動在我們今天看來,十分合乎邏輯且直截了當。他繪制了一張地圖,標注了病人所在的位置以及可能的污染源。斯諾不可能預測到他所邁出的嘗試性的第一步將最終走向何方,或者預測到今天的GIS(geographic imformation system,即地理信息系統(tǒng))可使用的數(shù)據(jù)。
未來可能不會出現(xiàn)一種數(shù)據(jù)包打天下的局面。如果斯諾生活在今天的社會,要調查一次疫情,他會想要得到所有數(shù)據(jù):病患在什么地方;如何通過短信或者互聯(lián)網(wǎng)搜索能更迅速、便捷地得到數(shù)據(jù);病例是被什么所傳染,甚至是被什么特有的微生物的基因株傳染;如何最大限度地使用呼叫數(shù)據(jù),記錄監(jiān)控人們的流動,以便追蹤疾病的流動或者孕育疾病之所;人們是如何進行社會性聯(lián)系的——他應該會追蹤可能的首批感染者,或者是比其他人先出現(xiàn)病癥的人。
你可以想象一下未來的疫情GIS,或者用硅谷人更為熟悉的術語——我們的數(shù)據(jù)團隊負責人拉奇·古拉斯卡拉稱其為未來的疫情聚合圖(mash-up):包含著層層關鍵信息的一幅地圖——有人們所在的位置、他們的關注點、他們感染的微生物、他們流動的地方、他們聯(lián)系的人。研發(fā)和持有這張結合數(shù)字化和生物學的聚合圖,正是拉奇團隊的奮斗目標,也是本書最后一章我們將要提到的內(nèi)容。隨著時間的推移,不同疫情的數(shù)據(jù)可以放在一起加以分析,使得我們在實際的疫情中考察不同因素的影響,并能夠對所有的技術手段進行最優(yōu)加權,使預測效力最大化。
《病毒來襲》,【美】內(nèi)森·沃爾夫/著 沈捷/譯,浙江人民出版社·湛廬文化 2014年4月版。