一年前的此刻,武漢封城已有一個月,而covid19疫情的蔓延態勢仍在不斷升級,科學家們除了要解析病毒演化傳播、分析病例樣本、研發疫苗等,也在關注一件事——建立疫情預測模型,
當時,包括鐘南山院士在內的多名專家的觀點是:對病毒在人群中傳播的智能預測模型構建與驗證是當前的工作重點。
三個月后,蘭州大學部西部生態安全省部共建協同創新中心正式對外發布「全球 COVID-19 疫情預測系統」(鏈接:http:http://covid-19.lzu.edu.cn/index.htm),
作為世界首個全球疫情預測系統,「全球 COVID-19 疫情預測系統」自 2020 年 5 月上線運行以來,已實現對 190 余個國家新增確診病例的預測。
據《光明日報》最新報道:
近日,鐘南山院士在“廣州實驗室科技助力基層疫情防控萬里行”啟動儀式上,對這一系統表示肯定,他稱贊:“他們一些預測的模型還是相當可靠的,”
首個全球疫情預測系統建立
「全球 COVID-19 疫情預測系統」的官網頁面主要涵蓋了三部分預測:
全球每月預測概況:按月分析全球各地區疫情蔓延情況,列出每月預測新增病例數前 10 位國家,
突發covid19疫情預測:預測疫情態勢將出現突出變化的城市,如 2020 年 8 月 2 日預測香港本輪疫情有望在 8 月底得到控制。
covid19疫情二次爆發預警:根據溫度等氣象要素的季節性變化、游行抗議和城市解封等大規模聚集性活動,預測全球各地疫情二次暴發,
這一模型的相關研究成果 2020 年 5 月 18 日由大陸科學院主辦的自然科學綜合性期刊 Science Bulletin 接收,2020 年 8 月 2 日正式發表,題為 Global prediction system for COVID-19 pandemic(covid19疫情全球預測系統),
論文介紹,現代流行病學反應的一個重要特點是利用所有可用數據提供實時反應資訊,理論上,通過引入最新的疫情數據來提高先前流行病學模型的可信度是可行的。
實際上,covid19疫情的發生具有時空異質性,也就是說,可能與不同地區的氣象條件和地方政府實施的干預措施有關,因此研究團隊認為,有必要建立一個將天氣預報和氣候分析作為自變量的流行病預警系統,以提高預測的整體精度,
【該系統預測的美國本月及本季疫情情況】
研究團隊的做法是,將疫情預測模型與全球真實疫情數據相結合,綜合考慮環境因素(溫度、濕度)的影響以及控制措施的實施情況,從而建立了一個自己的全球預測系統。
基于 SIR 和 SEIR 模型
論文顯示:該預測系統是一個改進的 SIR 模型,
SIR 模型,即 Susceptible Infected Recovered Model,即一種傳染病模型中最經典的模型,其中 S 表示易感者,I 表示感染者,R 表示移出者(主要指被隔離或因病愈而具有免疫力的人)。
具體來講,研究團隊的 SIR 模型包含了真實的全球疫情數據、氣象因素和量化的隔離措施。
在該模型中,假設疫情期間該地區的總人口數(N = S + I + R)保持不變,病毒僅通過人與人之間的感染傳播,個體之間的免疫力無差異。
研究團隊將 2020 年 1 月 22 日至 5 月 14 日六個國家(美國,義大利,英國,俄羅斯,沙特阿拉伯和巴西)報告的確診病例數與按照模型預測的結果進行了比較,如下圖所示(橙色表示未來預測值、粉色表示模擬值、紫色表示報告確診值。)
不難發現,系統成功進行了各國疫情變化曲線的模擬。
雷鋒網根據官方途徑了解到,「全球 COVID-19 疫情預測系統」其實有兩版:
第一版使用了上述改良的 SIR 模型;
第二版則使用了更復雜的 SEIR 模型——團隊在這一版中還考慮了社區解封時間以及市民自我隔離對疫情發展的影響,第二版可用來進行季節性預測及疫情二次爆發的預測,
所謂的 SEIR 也是一種常見的傳染病模型,相比 SIR 模型,這種模型多了一個 E(Exposed,暴露者),即指接觸過感染者但暫無能力傳染給其他人的人,這適用于潛伏期長的傳染病——此前有關 SARS 的傳播動力學研究大多也都采用了 SEIR 模型,
值得一提的是,2020 年 2 月 27 日廣州市政府新聞辦舉辦的一場疫情防控專場新聞通氣會上,鐘南山院士曾提到:
疫情開始時,國外有流行病學家用權威的試驗模型,預測 2 月國大陸感染covid19肺炎人數將達 16 萬人,這是沒有考慮到國家的強力干預,也沒有考慮春節后的延遲復工,我們也做了預測模型,2 月中旬或下旬達到疫情高峰,確診病例約六、七萬人,投到國外權威期刊,被退了回來,感覺和上面的預測水平差太多,還有人給我發微信說“你的話幾天之內就會被碾個粉碎”。但事實上,我們的預測更接近權威。
雖然鐘南山院士并未詳細介紹被退回的疾病預測模型,但知乎一位名為“瘋狂紳士”的計算機軟體背景人士認為,鐘南山院士的模型叫「具有飽和發病率 SIQS 傳染病模型」。根據其解釋,任何傳染病都具有飽和發病率,即不可能完全被消滅。
該網友提到,SIQS 正是在 SEIR 的基礎上加入了干預手段。
黃建平教授領銜完成模型
這一模型由蘭州大學部西部生態安全協同創新中心主任黃建平教授領銜完成,
據系統官網介紹:西部生態安全協同創新中心于2018年12月獲得教育部認定,由蘭州大學部牽頭,中科院相關研究所,西藏大學部、青海大學部等高校,甘肅省治沙研究所等地方研究機構協同參與,
論文最后簡要介紹了黃建平教授。
黃建平教授任職于蘭州大學部大氣科學學院,同時也是西部生態安全省部共建協同創新中心主任、半干旱氣候變化教育部重點實驗室主任,致力于通過結合實地觀察和理論研究來進行長期氣候預測、塵埃云相互作用和半干旱氣候變化的研究。
【圖片截自黃建平教授團隊官網】
據知乎答主“李大鵬”稱,上述研究成果:
從數學的角度來看就是應用了 SIR 傳染病模型,蘭州大學部數學院其實有研究團隊做傳染病模型和基本再生數建模,但此次似乎沒有參與這項研究。黃建平老師團隊最擅長的就是優化數學模型的各種參數。簡單的說,用到的數學模型其實不難,但是如何讓模型變得有實際應用價值,需要大量的技術和經驗支持。
自然,建立疫情預測模型并非一定要借助 SIR、SEIR 模型。
2020 年 2 月 28 日,鐘南山院士及團隊在醫學期刊 JTD 發表了一篇題為《公共衛生干預下 COVID-19 流行趨勢的 SEIR 和 AI 預測修正》的論文,
這一研究中,團隊不僅將 2020 年 1 月 23 日前后的人口遷移數據及最新的covid19肺炎流行病學數據整合到 SEIR 模型中導出流行曲線,還通過 LSTM 模型預測新增感染數隨時間的變化。
LSTM 即 long-short term memory,長短期記憶模型,是一種用于處理、預測各種時間序列問題的循環神經網路(RNN),是為解決 RNN 模型梯度彌散的問題而提出,
而就在上周,彭博社也報道了一個美國疫情預測系統,
這一系統的設計者是華裔 Youyang Gu,他擁有 MIT 電氣工程和計算機科學碩士學位及數學學位,
Youyang Gu 在 SEIR 模型(已開源:https://github.com/youyanggu/covid19_projections)的基礎上加入機器學習算法,并通過對預測與最終報告的死亡總數不斷比較進行算法調整,使其預測更加準確,
此前,憑 Youyang Gu 一己之力設計的模型已被美國疾控中心采用,
根據美國著名公立大學部阿默斯特馬薩諸塞大學部生物統計學和流行病學系的副教授 Nicholas Reich 對眾多類似模型的統計,Youyang Gu 的模型表現始終位居前列,