中科院1區|IF10+:加大醫學系團隊利用GPT-4+電子病歷分析,革新肝硬化并發癥隊列識別
在當下的科研領域,人工智能尤其是大語言模型的迅猛發展,正為各個學科帶來前所未有的機遇與變革。在醫學范疇,從疾病的早期精準篩查,如AI預測系統可提前數年察覺阿爾茨海默病等千余種疾病風險,到影像診斷中顯著降低骨折漏診率,AI的應用已逐步滲透。在生物醫學研究方面,單細胞RNA測序技術結合人工智能,為深入解析細胞異質性開拓了新思路。于此同時,大語言模型在醫學知識問答、臨床報告生成等場景中也嶄露頭角。在這樣充滿活力與創新的大背景下,一篇發表于知名期刊Hepatology的論文,另辟蹊徑,巧妙運用生物信息方法及其他手段,在肝病研究領域取得了令人矚目的成果,接下來就讓我們深入探究這篇論文的精妙之處。?
https://doi.org/10.1097/HEP.0000000000001115
正式介紹
基本信息
-
論文標題:利用GPT-4評估基于編碼的肝硬化及其并發癥識別的陽性預測值
-
發表期刊:Hepatology,中科院醫學大類分區1區,IF=12.9002
-
發表日期:2025年6月1日在線發表
研究背景
臨床需求矛盾:肝硬化及并發癥的隊列識別依賴診斷編碼(如 ICD 碼),但編碼準確性低(既往研究 PPV 僅 43%-91%),且無法區分“活動性”與“歷史性”病情;手動 chart review 雖為金標準,卻耗時耗力,難以規模化。技術機遇:大語言模型(LLM)如 GPT-4 具備非結構化文本解析能力,可高效處理電子健康記錄(EHR),為解決上述問題提供可能。
研究思路
數據提取:從 UCSF 醫療中心提取2013-2022 年 3788 份肝硬化相關出院小結,基于OMOP 編碼分為肝硬化、肝性腦病、腹水等 5 類隊列。雙軌驗證設計: 金標準:隨機抽取 5%-10% 病例進行手動 chart review,由資深醫生校正。LLM 方法:使用GPT-4-turbo-128k 設計零-shot 提示,識別出院小結中“活動性”病情,對比手動 review 計算準確性(Accuracy、PPV 等)。規模化評估編碼性能:以 LLM 分類為“銀標準”,計算傳統 OMOP 編碼在全部 3788 份小結中的 PPV,評估編碼可靠性。
研究亮點
方法學突破:首次在肝病領域將 GPT-4 作為“銀標準”規模化評估診斷編碼性能,替代部分手動 review。臨床價值:證明 LLM 可準確區分肝硬化并發癥的“活動性”(Accuracy 87.8%-98.8%),為 EHR 數據的高效利用提供技術支撐。成本效益:LLM 單例分析成本僅 0.05 美元,顯著低于手動 review,為大規模隊列研究提供經濟可行的方案。
數據來源和生物信息方法
1、數據來源
數據來源:UCSF 醫療中心 2013-2022 年肝硬化患者的電子健康記錄(EHR),包含 3788 份出院小結,涉及 2747 例患者。
2、生物信息方法
GPT-4 部署:通過 UCSF 合規的 Versa API 調用 GPT-4-turbo-128k,使用零-shot 提示工程,溫度參數調優至 0.0 和 0.7。提示工程:設計 5 組針對性提示,識別肝硬化及 4 種并發癥的活動性,如“請判斷該患者在住院期間是否存在活動性肝性腦病,并說明臨床管理措施”。統計分析。
主要結果
1、傳統編碼vs手動chart review(金標準)
肝硬化識別 PPV 為 82.2%;并發癥中腹水 PPV 最高(72.8%),肝性腦病最低(41.7%)。小結:傳統編碼對肝硬化本身識別尚可,但對并發癥(尤其是肝性腦病)準確性差,提示編碼無法可靠反映“活動性”病情。
2、GPT-4vs手動chart review(金標準)
肝硬化識別Accuracy 最高達 98.8%(溫度 0.0),PPV 98.9%;肝性腦病 Accuracy 96.3%(溫度 0.7),腹水 PPV 達 100%(溫度 0.0 和 0.7);胃腸道出血與自發性細菌性腹膜炎 Accuracy 分別為 87.8% 和 90.7%。小結:GPT-4 對肝硬化及并發癥的“活動性”識別準確性顯著高于傳統編碼,尤其在腹水等場景中接近完美(PPV 100%)。
3、傳統編碼 vs GPT-4(銀標準)
肝硬化PPV 79.8%;并發癥PPV 53.9%-67.6%,其中肝性腦病(53.9%)和腹水(55.3%)仍較低。小結:以LLM為銀標準,傳統編碼局限性進一步凸顯,提示需結合NLP技術優化隊列識別。
4、LLM 成本與效率分析
單例分析成本0.05 美元,總 token 消耗隨病例數增加而線性增長(如肝硬化 3788 例消耗 1881 萬tokens,成本 188.18 美元)。小結:LLM 方法兼具高效性與經濟性,適合大規模隊列研究。
研究結論
GPT-4等LLM可準確識別肝硬化及并發癥的“活動性”(Accuracy 87.8%-98.8%),性能顯著優于傳統診斷編碼。以LLM作為“銀標準”可規模化評估編碼性能,發現傳統方法對并發癥識別的不足。LLM方法成本低、可擴展,有望替代部分手動chart review,成為臨床研究隊列識別的新標準。
研究的局限性和未來方向
局限性:手動review存在9.2%的校正率,本身可能引入誤差;數據依賴OMOP編碼提取,可能存在信息丟失;GPT-4的通用性有待外部隊列驗證。
未來方向:在不同醫療機構使用Llama 3、Claude等模型驗證結果;應用LLM區分肝硬化病因;開發基于LLM的實時EHR數據標注工具。
感謝您的閱讀,歡迎關注“生信學術縱覽”。謝謝您的分享、點贊+在看!