文本大數據

在大數據時代,海量文本的積累在各個領域不斷涌現。從人文研究到政府決策,從精準醫療到量化金融,從客戶管理到市場營銷,海量文本作為最重要的信息載體之一,處處發揮著舉足輕重的作用。

在大量實際問題中所產生的文本數據往往帶有明顯的領域特征,常常包含大量的專業詞匯,擁有獨特的語言模式,并時常伴隨著各式各樣的“噪音”。對這樣的文本,尤其是中文文本,進行處理,面臨著極大的技術挑戰。

我中心劉軍教授、鄧柯教授領導的課題組近年來致力于“無指導”和“弱指導”下的中文文本分析,力圖通過提出新型的統計學模型和方法為中文文本分析提供全新的解決方案。和過往基于大規模“語料庫”訓練的方法相比,這類新方法具有較強的自適應性和突出的學習能力,能夠在沒有訓練數據或者訓練信息很少的情況下自主發現未知詞匯和短語,對文本進行切詞,并對關鍵信息進行提取。

相關方法在醫療健康、電子商務、金融服務、數字人文等領域有著廣泛的應用。我中心以此為基礎和社會各界建立了廣泛合作。如果您在實際工作中遇到了大量的中文文本,但缺乏有效的分析工具,與我們建立聯系并展開合作可能會是一個能帶給你驚喜的選擇。pnas tdm