研究動態

合作單位

Natural Language Processing in Health Care

醫療健康數據化迅速發展。快速準確的自動化信息識別分析能幫助醫生及醫療科研人員從海量的醫療健康數據中整理發現有用信息。自然語言處理在此過程中起到至關重要的作用。目前大多中文文本信息挖掘方法, 比如 基于“指導”的中文文本分析,都需要使用大量預先標記的詞組進行訓練,即監督學習,以至大大降低了在醫療數據中的可行性。TopWORDS (Top-down WORd Discovery?and Segmentation) 是由清華大學統計學研究中心鄧柯教授實驗室研制推出的一套無監督的文本分詞方法,能夠同時實現高效的文本分詞和新詞發現, 無需對訓練樣本進行標記處理。特別地,它在領域特定、包含大量未知或不規則的詞語、短語、術語的中文文本處理中卓有成效。鄧柯教授團隊成功用TopWORDS方法學習出醫學相關詞匯及術語近2萬個。該方法對推動自然語言處理模型在臨床以及健康數據中的應用起到了積極的作用。

Publications

Deng K., Bol P.K., Li K.J. and Liu J.S. (2016) On Unsupervised Analysis on Domain-Specific Chinese Texts. PNAS《美國科學院院刊》, 113(22), 6154-6159

Software & Packages

R packages: TopWORDS

Deng Lab

合作單位

Collaborating Centers
  • 國家衛生健康委員會衛生技術評估重點實驗室(復旦大學)
  • 協和
  • AG
  • 空總
  • 哈佛大學

尋求合作

Collaboration Opportunities