科研領域

統計學研究中心將依托清華大學在工科、商科、生命科學等方面的有利條件,深入開展統計基礎理論、統計計算、生物及醫學統計、工業統計和商業統計等領域的科研工作。力爭在理論和應用統計方面取得具有國際影響力的重要學術成果。

  • 政府大數據
    在當今時代,能不能管好數據,用好數據,從數據出發更有效的實現科學管理和科學決策,不僅是衡量一個政府部門執政能力高低的一個重要標準,更密切關系到人民的福祉。統計學做為以數據處理和數據分析為研究對象的一門系統科學,在政府數據處理和分析上有著天然的優勢和重大的責任。 自成立之日起,我中心一直秉承理論與實踐密切結合的理念,和造福社會服務大眾的宗旨,積極為我國各級政府提供數據分析服務和政策決策支持,協助政府提高數據管理和分析能力,提升科學決策水平。目前,已和中央和地方多個政府部門建立了深入合作,在數據處理、決策支持、人員培訓、地方人才培養等方面開展了一系列卓有成效的工作。我們非常歡迎各級政府部門與我們建立聯系和合作,共同促進政府大數據的科學研究和實際應用。
  • 金融大數據
    隨著信息科學技術的飛速發展,特別是云計算、大數據技術在電子商務、證券期貨、互聯網金融等領域的廣泛應用,未來金融業的核心競爭力很大程度上依賴于從大數據中提取信息和知識的速度與能力,而這種速度和能力,取決于數據分析、挖掘和應用水平。 隨著互聯網金融、移動支付等新型金融業態的不斷涌現,強化以“用戶為中心”的服務模式將成為未來金融業的重要發展方向,有助于金融產品創新、精準營銷和風險管理,實現數據資產向市場競爭力的轉化。 在大數據時代,面對海量的金融數據,傳統的分析方式需要發生重大的改變,并建立與之相應的新的統計模型。 面對金融大數據,如何使用和管理大數據、從中提取有用的信息,為金融決策者提供可靠的理論支持,是各級政府、企事業單位以及金融機構所共同面臨的重要問題。大數據在金融行業的應用還有很多的障礙需要克服,比如銀行內各業務的數據孤島效應嚴重、大數據人才缺乏以及缺乏銀行之外的外部數據的整合等問題。隨著近年來社會重視度的不斷提高,相信金融大數據的應用將迎來突破性的發展。 風險管理是所有金融業務的核心。典型的金融借貸業務例如抵押貸款、消費貸款、以及票據融資都需要數據風控識別欺詐用戶及評估用戶信用等級。中心楊立堅教授與合作者們近年來在信用評估的統計模型方面取得了重要成果,把斯坦福大學Hastie教授和Tibshirani教授提出的廣義可加模型用于違約風險的概率計算。他們提出的兩步算法具有默示有效的最高精確度和近乎最高的計算速度,并且為每個金融變量對違約概率的影響曲線構造出了同時置信帶,可以進行深度統計推斷。特別值得注意的是,該模型還廣泛適用于非金融類的風險概率計算,如在美國已經成功運用的Predictive Policing System,就是通過廣義可加模型計算在某個時間和地點發生犯罪的概率,以此安排警力出動巡邏。 ? ?? 金融收益率大數據中蘊藏著豐富的金融風險信息,獲取這類信息最直觀便捷的途徑是由2003年諾貝爾經濟學獎得主,美國科學院院士,紐約大學的Engle教授提出的ARCH模型,以及杜克大學的 Bollerslev教授提出的GARCH模型。這類模型通過精準計算未來時間金融收益率的波動性,發現有較大金融風險的時間點,指導投資者的科學決策。中心李東教授和楊立堅教授在條件異方差的研究中取得了一系列重要成果,特別是非平穩GARCH模型和Threshold...
  • 文本大數據
    在大數據時代,海量文本的積累在各個領域不斷涌現。從人文研究到政府決策,從精準醫療到量化金融,從客戶管理到市場營銷,海量文本作為最重要的信息載體之一,處處發揮著舉足輕重的作用。 在大量實際問題中所產生的文本數據往往帶有明顯的領域特征,常常包含大量的專業詞匯,擁有獨特的語言模式,并時常伴隨著各式各樣的“噪音”。對這樣的文本,尤其是中文文本,進行處理,面臨著極大的技術挑戰。 我中心劉軍教授、鄧柯教授領導的課題組近年來致力于“無指導”和“弱指導”下的中文文本分析,力圖通過提出新型的統計學模型和方法為中文文本分析提供全新的解決方案。和過往基于大規模“語料庫”訓練的方法相比,這類新方法具有較強的自適應性和突出的學習能力,能夠在沒有訓練數據或者訓練信息很少的情況下自主發現未知詞匯和短語,對文本進行切詞,并對關鍵信息進行提取。 相關方法在醫療健康、電子商務、金融服務、數字人文等領域有著廣泛的應用。我中心以此為基礎和社會各界建立了廣泛合作。如果您在實際工作中遇到了大量的中文文本,但缺乏有效的分析工具,與我們建立聯系并展開合作可能會是一個能帶給你驚喜的選擇。
  • 醫療大數據
    目前,全球醫療健康數據已有數百Exabyte,并在加速增長。從大規模研究隊列的快速識別和建立,到人工智能輔助的臨床決策支持系統,大數據正在改變著醫學研究與實踐。我中心于2015年成立醫療大數據中心,致力于用數據技術造福人類。目前,已與國內外多家著名醫學機構和產業伙伴建立了長期合作,在醫學文本處理和自然語言理解、非結構化醫學數據分析、電子病歷表型提取、臨床決策支持、精準醫學等方面開展前沿學術研究。 非結構化數據分析 電子化的醫療數據方便了存儲和傳輸,但是并未達到進行數據分析的要求。大約80%的醫療數據是自由文本構成的非結構化數據,其中不僅包括大段的文字描述,也包括包含非統一文字的表格字段。通過醫學自然語言理解技術,將非結構化醫療數據轉化為適合計算機分析的結構化形式是醫療大數據分析的基礎。 我中心在電子病歷分析方面有著豐富的技術積累,中心骨干為美國麻省總醫院、布萊根婦女醫院等頂級醫療機構分析處理過超過1億篇次的電子病歷。我們的深度醫學語言理解技術不僅識別各種醫學概念在自然語言中的豐富表達,還通過醫學語意分析識別否定、推測、假設、條件、個人病史、家庭病史等語意,以及嚴重程度、解剖位置等各種修飾。語意分析結果可以方便各種維度、深度的數據分析,以及利用獲得國家專利的語意搜索技術進行病歷的精準查詢和匹配。 通過醫學語言理解技術結構化自由文本 表型提取 基因測序技術是醫學的重大進步。然而,基因等生命組學信息只有與表型信息相結合才能構成精準醫學。我們與哈佛大學、麻省理工學院等機構的學者共同開發的高通量表型提取技術通過自動對包括維基百科在內的醫學知識文庫進行知識提取,結合電子病歷數據自動建模生成媲美專家設計的表型提取算法。目前,該技術已被美國Partners HealthCare等大型醫療機構用于規模化建設生物樣本庫,為下一步醫學研究的井噴式發展奠定了基礎。       精準醫學 精準醫學為復雜疾病的防控和治療提供了新思路,通過個人基因組和其他生物大數據的挖掘,為病人提供個體化的風險預測、診斷和治療方案,從而優化醫療資源的配置。發展精準醫學,科學有效的配置醫療資源,是醫療衛生事業發展的迫切需求。醫療大數據中心正在精準醫學數據的整合分析和生物統計分析平臺的構建方面不斷斬獲科研成果。
  • 工業大數據
    coming soon...