醫療大數據

目前,全球醫療健康數據已有數百Exabyte,并在加速增長。從大規模研究隊列的快速識別和建立,到人工智能輔助的臨床決策支持系統,大數據正在改變著醫學研究與實踐。我中心于2015年成立醫療大數據中心,致力于用數據技術造福人類。目前,已與國內外多家著名醫學機構和產業伙伴建立了長期合作,在醫學文本處理和自然語言理解、非結構化醫學數據分析、電子病歷表型提取、臨床決策支持、精準醫學等方面開展前沿學術研究。

非結構化數據分析

電子化的醫療數據方便了存儲和傳輸,但是并未達到進行數據分析的要求。大約80%的醫療數據是自由文本構成的非結構化數據,其中不僅包括大段的文字描述,也包括包含非統一文字的表格字段。通過醫學自然語言理解技術,將非結構化醫療數據轉化為適合計算機分析的結構化形式是醫療大數據分析的基礎。

我中心在電子病歷分析方面有著豐富的技術積累,中心骨干為美國麻省總醫院、布萊根婦女醫院等頂級醫療機構分析處理過超過1億篇次的電子病歷。我們的深度醫學語言理解技術不僅識別各種醫學概念在自然語言中的豐富表達,還通過醫學語意分析識別否定、推測、假設、條件、個人病史、家庭病史等語意,以及嚴重程度、解剖位置等各種修飾。語意分析結果可以方便各種維度、深度的數據分析,以及利用獲得國家專利的語意搜索技術進行病歷的精準查詢和匹配。

nlp

通過醫學語言理解技術結構化自由文本

表型提取

基因測序技術是醫學的重大進步。然而,基因等生命組學信息只有與表型信息相結合才能構成精準醫學。我們與哈佛大學、麻省理工學院等機構的學者共同開發的高通量表型提取技術通過自動對包括維基百科在內的醫學知識文庫進行知識提取,結合電子病歷數據自動建模生成媲美專家設計的表型提取算法。目前,該技術已被美國Partners HealthCare等大型醫療機構用于規模化建設生物樣本庫,為下一步醫學研究的井噴式發展奠定了基礎。

精準醫學

精準醫學為復雜疾病的防控和治療提供了新思路,通過個人基因組和其他生物大數據的挖掘,為病人提供個體化的風險預測、診斷和治療方案,從而優化醫療資源的配置。發展精準醫學,科學有效的配置醫療資源,是醫療衛生事業發展的迫切需求。醫療大數據中心正在精準醫學數據的整合分析和生物統計分析平臺的構建方面不斷斬獲科研成果。