作者:微軟研究院AI頭條

持續數月的新冠疫情一路肆虐、席捲全球,世界各地的科研人員都在為此奮戰,希望通過最先進的技術逐步揭開新冠病毒的神秘面紗。近日,微軟亞洲研究院的研究人員基於在計算生物學、數據分析等領域的專業知識和研究經驗,構建了新冠數據分析網站COVID Insights (covid.msra.cn),該網站以學術研究和科普為目的,希望透過數字表面,更深入、多角度地分析COVID-19(2019冠狀病毒病)相關數據。

COVID Insights網站主要包含感染數據分析、基因組和蛋白質結構、研究趨勢三大板塊,以可視化和互動的方式直觀展現了疫情在不同國家和地區的傳播特性、引起疫情的病毒SARS-CoV-2的病毒學分析結果,以及全球最新的相關研究熱點。網站使用的所有數據均來自約翰霍普金斯大學、美國疾病控制與預防中心、GISAID等機構的官方發布。基於這些公開數據,研究員們利用先進的技術挖掘疫情數據背後隱藏的規律和洞察,為進一步拓展對疫情的思考提供有價值的參考。

哪兩個地區的疫情發展最相似?

感染數據分析頁面通過對COVID-19數據的深度分析,呈現了跨國家和地區間傳播動態比較。例如,通過分析我們發現德國從2月27日到3月14日的數據趨勢曲線與韓國從2月18日到3月5日的數據趨勢曲線很相近。因此韓國在3月5日以後開展的各項疾控措施對3月中旬的德國來說可能具有更為精準的借鑒作用。

在這裡,研究員們將COVID-19時間序列數據在低維歐式空間中進行表示。對於一個給定的地區和時間片段,在這個空間中使用一個向量來反映其數據的趨勢。這樣就可以有效地發現哪些國家或地區、在哪些時間段的數據發展相似,找到合適的參考對象。

此外,該頁面基於四個不同地區的開源數據,為與感染相關的高風險活動提供了一個統一的數據分析視角,方便對比地區間傳播數據的差異。例如,對法國來說,許多感染是通過“群眾聚集”發生的,而對新加坡來說,“國際旅行”是造成感染的最主要原因。

由於各地區的數據差異較大,有效信息或展現在不同的尺度上,或隱含在冗長的病例通報中。研究員們將非結構化的病例描述映射到統一的高風險活動分佈中進行可視化,很好地解決了這個挑戰。對於高風險活動的歸因分析,尤其是不同地區的不同歸因結果,可以為預防感染提供個性化參考。

SARS-CoV-2在全球哪些地區發生了變異?

COVID Insights網站的“基因組和蛋白質結構”頁面展示了SARS-CoV-2的最新病毒學分析結果。新型冠狀病毒SARS-CoV-2演變至今,已發生很多處基因組變異,用戶可以通過交互探究病毒序列中發生變異的氨基酸及其位置,該變異發生的地理位置以及相應的蛋白質結構。

研究員們從全球流感序列數據庫GISAID上下載新型冠狀病毒SARS-CoV-2基因組數據。然後,以病毒株Wuhan-Hu-1(GenBank MN908947.3)作為參考序列,確定出各病毒序列中發生變異的氨基酸及其位置。對每一個存在變異的位置,研究員們通過計算熵顯示該位置氨基酸的多樣性及其在各地區的分佈和時間線。

研究員們還將SARS-CoV-2病毒核酸序列轉化成蛋白質序列,並將整個序列按照不同區域進行分割,最終呈現出蛋白質三維結構。此外,用戶還可以看到SARS-CoV-2與包括SARS、MERS在內的四種冠狀病毒的基因組比較分析,了解它們之間的異同。

關於疫情和病毒的最新研究熱點有哪些?

在研究趨勢頁面,用戶可以通過可視化信息了解當前新冠相關主題的熱門論文和主題變化趨勢。研究員們通過自動聚類技術,對於熱詞進行聚合形成詞云,並且通過每週更新展示時間粒度上的變化趨勢,希望可以給研究者們帶來更多啟示。

我們希望COVID Insights網站能夠通過深度分析和挖掘疫情數據背後的洞察,為用戶科學地理解疫情數據提供參考。未來,我們會通過該網站分享更多關於新冠病毒數據的深度洞察,為抗擊疫情提供持續的支持。與此同時,我們也希望更多的AI研究者、數據科學家、計算生物學家加入到研究行列中來,共同加速科研進展,早日戰勝疫情。