文獻速遞:帕金森的疾病分享--多模態機器學習預測帕金森病

文獻速遞:帕金森的疾病分享–多模態機器學習預測帕金森病

Title

題目

Multi-modality machine learning predicting Parkinson’s disease

多模態機器學習預測帕金森病

01

文獻速遞介紹

對于漸進性神經退行性疾病,早期和準確的診斷是有效開發和使用新干預措施的關鍵。這種早期檢測范式旨在在患者認識到癥狀和體征之前,當疾病過程最容易接受干預時,識別、分析并防止或管理疾病。

這里我們描述的工作通過數據驅動的方式使用成本效益高的方法促進準確和早期診斷。這份報告還描述了在促進生產規模分析多模態基因組和臨床數據的背景下,應用一個開源自動機器學習(ML),GenoML,的情況。

國家人類基因組研究所發布的最新戰略愿景聲明,到2030年,表觀遺傳學和轉錄組學的特征將常規地納入到基因型對表型影響的預測模型中。生物醫學研究人員目前正處于兩項科學進展的交匯點,這將促進早期檢測和遠程識別潛在高風險個體:首先,大量臨床、人口統計和遺傳/基因組數據集的可用性;其次,機器學習(ML)流程自動化和人工智能的進展,以最大化利用這些大量的、容易獲得的數據的價值。

首次就診時的正確臨床診斷,只有80%在病理學上確認為帕金森病(PD)。以前的生物標志物研究,特別是在神經退行性疾病中,主要關注廣為人知的統計方法和線性模型,使用單一指標或少數幾個指標進行預測。在過去幾年中,多項研究使用ML探索了不同的模態,如CSF生物標志物、成像、RNA或包括與運動相關的指標,甚至可穿戴傳感器數據。雖然這些努力在分類上表現良好,但我們尋求基于相對低成本且容易獲得的數據構建模型。

Results

結果

We have shown that integrating multiple modalities improved model performance in predicting PD diagnosis in a mixed population of cases and controls. For a summary of basic clinical and demographic features, please refer to Table 1 and for a summary of the analysis, please refer to Fig. 1. Additional information in regards to cohorts and interpretation for ML metrics and models are included in Supplementary Notes 2, 3. Our multi-modality model showed a higher area under the curve (AUC;89.72%) than just the clinico-demographic data available prior to neurological assessment (87.52%), the genetics-only model from genome sequencing data and polygenic risk score (PRS; 70.66%), or the transcriptomics-only model from genome-wide whole blood RNA sequencing data (79.73%) in withheld PPMI samples(see Table 2 and Fig. 2 for summaries). This model’s performance improved after tuning, described below and in Table 3, where the mean AUC metric in the untuned model in PPMI is 80.75 with a standard deviation of 8.84 (range = 69.44–88.51) and the mean AUC at tuning in PPMI is 82.17 with a standard deviation of 8.96 (range = 70.93–90.17). Similar improvements can be seen when this model is validated in the PDBP dataset (AUC from the combined modality model at 83.84% before tuning) detailed in Table 4 and Fig. 3. Additionally, the multimodal model also had the lowest false positive and false negative rates compared to other models, only focusing on a single modality, in both the withheld test set in PPMI and in the PDBP validation set. Thus, moving from single to multiple data modalities yielded better results in not only AUC but across all performance metrics

結合多種模態的預測超越了基于單一模態的預測

我們已經展示了,將多種模態整合在一起可以提高模型在混合病例和對照組人群中預測PD診斷的性能。關于基本臨床和人口統計特征的摘要,請參見表1,關于分析的摘要,請參見圖1。關于隊列和解釋ML指標及模型的附加信息包含在補充說明2、3中。我們的多模態模型顯示出的曲線下面積(AUC;89.72%)高于僅有的臨床-人口統計數據(在神經學評估之前可獲得的數據;87.52%)、僅基因組測序數據和多基因風險評分(PRS;70.66%)的遺傳學模型,或僅來自全基因組全血RNA測序數據的轉錄組學模型(79.73%)在保留的PPMI樣本中(見表2和圖2以獲取摘要)。在調整后,此模型的性能得到改善,如下所述及表3中,未調整模型在PPMI的平均AUC指標為80.75,標準差為8.84(范圍=69.44–88.51),而在PPMI調整后的平均AUC為82.17,標準差為8.96(范圍=70.93–90.17)。當這個模型在PDBP數據集中得到驗證時,可以看到類似的改進(調整前結合模態模型的AUC為83.84%),詳細內容見表4和圖3。此外,與其他僅關注單一模態的模型相比,多模態模型在保留的PPMI測試集和PDBP驗證集中都具有最低的假陽性和假陰性率。因此,從單一數據模態轉向多種數據模態不僅在AUC上,而且在所有性能指標上都取得了更好的結果。

Fig

圖片

Fig. 1 Workflow and Data Summary. Scientific notation in the workflow diagram denotes minimum p values from reference GWAS or differential expression studies as a pre-screen for feature inclusion. Blue indicates subsets of genetics data (also denoted as “G”), green indicates subsets of transcriptomics data (also denoted as *omics or “O”), yellow indicates clinico-demographic data (also denoted as C + D),and purple indicates combined data modalities. PD Parkinson’s disease, AMP-PD accelerating medicines partnership in Parkinson’s disease, PPMI Parkinson’s progression marker initiative, PDBP Parkinson’s disease biomarker program, WGS whole-genome sequencing, GWAS genome-wide association study, QC quality control, MAF minor allele frequency, PRS polygenic risk score.

圖1 工作流程和數據摘要。工作流程圖中的科學記號表示來自參考GWAS或差異表達研究的最小p值,作為特征包含的預篩選。藍色表示遺傳數據子集(也標記為“G”),綠色表示轉錄組數據子集(也標記為*組學或“O”),黃色表示臨床-人口統計數據(也標記為C + D),紫色表示結合了數據模態。PD帕金森病,AMP-PD加速醫藥合作伙伴關系帕金森病項目,PPMI帕金森病進展標志物計劃,PDBP帕金森病生物標志物計劃,WGS全基因組測序,GWAS全基因組關聯研究,QC質量控制,MAF小等位基因頻率,PRS多基因風險評分。

圖片

Fig. 2Receiver operating characteristic curves and case probability density plots in withheld training samples at default thresholds comparing performance metrics in different data modalities from the PPMI dataset. P values mentioned indicate the threshold of

significance used per datatype, except for the inclusion of all clinico-demographic features. a PPMI combined *omics dataset (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information); b PPMI genetics-only dataset (p value threshold = 1E-5); c PPMI clinico-demographics only dataset; d PPMI transcriptomics-only dataset (p value threshold = 1E-2). Note that x-axis limits may vary as some models produce less extreme probability distributions than others inherently based on fit to the input data and the algorithm used, further detailed images are included in Supplementary Fig. 5. PPMI Parkinson’s progression marker initiative, ROC receiver operating characteristic curve.

圖2 在默認閾值下,比較PPMI數據集中不同數據模態的性能指標,保留訓練樣本中的接收器操作特征曲線和案例概率密度圖。提到的P值表示每種數據類型使用的顯著性閾值,除了包含所有臨床-人口統計特征外。a PPMI綜合*組學數據集(遺傳學P值閾值=1E-5,轉錄組學P值閾值=1E-2,以及臨床-人口統計信息);b PPMI僅遺傳學數據集(P值閾值=1E-5);c PPMI僅臨床-人口統計數據集;d PPMI僅轉錄組學數據集(P值閾值=1E-2)。請注意,x軸的限制可能會有所不同,因為一些模型基于對輸入數據的適應度和使用的算法,天生就會產生比其他模型更不極端的概率分布,更詳細的圖像包含在補充圖5中。PPMI帕金森病進展標志物計劃,ROC接收器操作特征曲線。

圖片

Fig. 3Receiver operating characteristic and case probability density plots in the external dataset (PDBP) at validation for the trained and then tuned models at default thresholds. Probabilities are predicted case status (r1), so controls (status of 0) skews towards more samples on the left, and positive PD cases (status of 1) skews more samples on the right. a Testing in PDBP the combined *omics model (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information) developed in PPMI prior to tuning the hyperparameters of the model; b Testing in PDBP the combined *omics model (genetics p value threshold = 1E-5, transcriptomics p value threshold = 1E-2, and clinico-demographic information) developed in PPMI after tuning the hyperparameters of the model. PPMI Parkinson’s progression marker initiative, PDBP Parkinson’s disease biomarker program, ROC receiver operating characteristic curve.

圖3在外部數據集(PDBP)上對訓練并調整后的模型進行驗證時的接收器操作特征和案例概率密度圖,使用默認閾值。概率預測的是案例狀態(r1),因此對照組(狀態為0)的樣本偏向左側,陽性PD案例(狀態為1)的樣本偏向右側。a 在PDBP測試結合組學模型(遺傳學P值閾值=1E-5,轉錄組學P值閾值=1E-2,以及臨床-人口統計信息),該模型在PPMI中開發,在調整模型的超參數之前;b 在PDBP測試結合組學模型(遺傳學P值閾值=1E-5,轉錄組學P值閾值=1E-2,以及臨床-人口統計信息),該模型在PPMI中開發,調整模型的超參數之后。PPMI帕金森病進展標志物計劃,PDBP帕金森病生物標志物項目,ROC接收器操作特征曲線。

圖片

Fig. 4Feature importance plots for top 5% of features in data. The plot on the left has lower values indicated by the color blue, while higher values are indicated in red compared to the baseline risk estimate. Plot on the right indicates directionality, with features predicting for cases indicated in red, while features better-predicting controls are indicated in blue. SHAP Shapley values, UPSIT University of Pennsylvania smell identification test, PRS polygenic risk score.

圖4數據中前5%特征的特征重要性圖。左側的圖中,較低的值用藍色表示,而較高的值與基線風險估計相比用紅色表示。右側的圖表明方向性,預測案例的特征用紅色表示,而更好地預測對照組的特征用藍色表示。SHAP沙普利值,UPSIT賓夕法尼亞大學嗅覺識別測試,PRS多基因風險評分。

Table

圖片

Table 1.Descriptive statistics of studies included from AMP PD.

表1.包含自AMP PD的研究的描述性統計。

圖片

Table 2.Performance metric summaries comparing training in withheld samples in PPMI.

表2.比較在PPMI中保留樣本訓練的性能指標摘要。

圖片

Table 3.Performance metric summaries comparing at tuned cross-validation in withheld samples in PPMI.

表3.比較在PPMI中保留樣本的調整后交叉驗證的性能指標摘要。

圖片

Table 4.Performance metric summaries comparing combined tuned and untuned model performance on PDBP validation dataset.

表4.比較在PDBP驗證數據集上結合調整和未調整模型性能的性能指標摘要。

圖片

Table 5.Optimizing the AUC threshold in withheld training samples and in the validation data.

表5.在保留的訓練樣本和驗證數據中優化AUC閾值

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711908.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711908.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711908.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux按鍵輸入實驗-對按鍵驅動進行測試

一. 簡介 前面學習在設備樹文件中創建按鍵的設備節點,并實現對按鍵驅動代碼的編寫,文章地址如下:Linux按鍵輸入實驗-創建按鍵的設備節點-CSDN博客Linux按鍵輸入實驗-按鍵的字符設備驅動代碼框架-CSDN博客Linux按鍵輸入實驗-按鍵的GPIO初始化-CSDN博客 本文對所實現的按鍵驅…

【精品】集合list去重

示例一&#xff1a;對于簡單類型&#xff0c;比如String public static void main(String[] args) {List<String> list new ArrayList< >();list.add("aaa");list.add("bbb");list.add("bbb");list.add("ccc");list.add(…

網絡工程師必備的網絡端口大全(建議收藏)

端口是一種數字標識&#xff0c;用于在計算機網絡中進行通信&#xff0c;你完全可以把端口簡單的理解為是計算機和外界通訊交流的出口。但在網絡技術中&#xff0c;端口一般有兩種含義&#xff1a; &#xff08;1&#xff09;硬件設備中的端口 如交換機、路由器中用于鏈接其他…

用stream流將list轉為map

用stream流將list轉為map 1、將list轉為Map<Long, List> 按照spaceId分組&#xff0c;spaceId相同的為一組數據&#xff1a; List<BasEvaluationPriceResultDto> list new ArrayList(); Map<Long, List<BasEvaluationPriceResultDto>> priceResult…

“金三銀四”招聘季,大廠爭招鴻蒙人才

在金三銀四的招聘季中&#xff0c;各大知名互聯網企業紛紛加入了對鴻蒙人才的爭奪戰。近日&#xff0c;包括淘寶、京東、得物等在內的知名APP均宣布啟動鴻蒙星河版原生應用開發計劃。這一舉措不僅彰顯了鴻蒙生態系統的迅猛發展&#xff0c;還催生了人才市場的繁榮景象。據數據顯…

遙感影像處理(ENVI+ChatGPT+python+ GEE)處理高光譜及多光譜遙感數據

遙感技術主要通過衛星和飛機從遠處觀察和測量我們的環境&#xff0c;是理解和監測地球物理、化學和生物系統的基石。ChatGPT是由OpenAI開發的最先進的語言模型&#xff0c;在理解和生成人類語言方面表現出了非凡的能力。本文重點介紹ChatGPT在遙感中的應用&#xff0c;人工智能…

vue3學習 【4】ref和reactive的使用并于ts結合

使用ref聲明一個響應式對象并使用 <script lang"ts" setup> import { ref } from vue; const message ref("HelloWorld") message.value"被修改了啊~~" </script> <template>{{ message }} </template>ref() 接收參數…

Vue——攜帶參數跳轉路由

Vue學習之——跳轉路由 前情回顧 當我們進行點擊修改時&#xff0c;會進行跳轉到修改頁面&#xff0c;為了完成回顯數據&#xff08;根據對應id查找&#xff09;&#xff0c;我們需要攜帶對應選擇中的id跳轉到修改頁面&#xff0c;讓其進行查找回顯 學習useRoute和useRoute…

webstorm2023.3.4安裝與破解

WebStorm安裝步驟 打開JetBrains官方網站&#xff08;https://www.jetbrains.com/webstorm/&#xff09; 運行.exe 選擇安裝路徑 第一個意思是是否創建桌面快捷方式&#xff0c;可根據需要選擇&#xff1b;第二個.js .css .html勾選后之后js css html文件默認會用webstor…

AI Agent

目錄 一、什么是Agent 二、什么是MetaGPT【多智能體框架介紹】 三、MetaGPT的背景 一、什么是Agent 智能體 LLM觀察思考行動記憶 Agent&#xff08;智能體&#xff09; 一個設置了一些目標或任務&#xff0c;可以迭代運行的大型語言模型。這與大型語言模型&#xff08;LLM&am…

985機械研一轉碼,java還是c++?

985機械研一轉碼&#xff0c;java還是c&#xff1f; 在開始前我分享下我的經歷&#xff0c;我剛入行時遇到一個好公司和師父&#xff0c;給了我機會&#xff0c;一年時間從3k薪資漲到18k的&#xff0c; 我師父給了一些 電氣工程師學習方法和資料&#xff0c;讓我不斷提升自己&…

一鍵下載電路(for STM32 and mcuisp)

一鍵下載電路 1. STM32 一鍵下載電路2. 燒錄軟件&#xff1a;mcuisp和FlyMcu下載3. 遇到問題 1. STM32 一鍵下載電路 博文連接 2. 燒錄軟件&#xff1a;mcuisp和FlyMcu下載 mcuisp和FlyMcu下載 3. 遇到問題 按如上博文電路設計&#xff0c;上電發現程序沒有進入 main() 函…

【OpenGL的著色器03】內置變量(gl_Position等)

目錄 一、說明 二、著色器的變量 2.1 著色器變量 2.2 著色器內置變量 三、最常見內置變量使用范例 3.1 常見著色器變量 3.2 示例1&#xff1a; gl_PointSize 3.3 示例2&#xff1a;gl_Position 3.4 gl_FragColor 3.5 渲染點片元坐標gl_PointCoord 3.6 gl_PointCoo…

【PyTorch][chapter 20][李宏毅深度學習]【無監督學習][ GAN]【實戰】

前言 本篇主要是結合手寫數字例子,結合PyTorch 介紹一下Gan 實戰 第一輪訓練效果 第20輪訓練效果,已經可以生成數字了 68 輪 目錄&#xff1a; 谷歌云服務器&#xff08;Google Colab&#xff09; 整體訓練流程 Python 代碼 一 谷歌云服務器&#xff08;Google Colab&…

Linux學習-字符串數組和字符串

目錄 使用場景 字符型數組定義&#xff1a; 初始化 數組儲存 打印 字符型數組常見函數 常見操作 strcpy&#xff1a;字符串拷貝 strcat&#xff08;str1&#xff0c;str2&#xff09;字符串拼接 strcmp&#xff1a;字符串比較 注意&#xff1a; 二維字符型數…

Open CASCADE學習|曲線曲面連續性

1、曲線的連續性 曲線的連續性是三維建模、動畫設計等領域中非常重要的一個概念&#xff0c;它涉及到曲線在不同點之間的連接方式和光滑程度。下面將詳細介紹曲線的連續性&#xff0c;包括C連續性和G連續性。 1.1C連續性&#xff08;參數連續性&#xff09; C連續性是指曲線…

使用MyBatisPlus實現向數據庫中存儲List類型的數據

使用MyBatisPlus實現向數據庫中存儲List類型的數據 問題描述 建表時&#xff0c;表中的這五個字段為json類型 但是在入庫的時候既不能寫入數據&#xff0c;也不能查詢出數據。 解決方案&#xff1a; 1.首先明確&#xff0c;數據存入的時候是經過了數據類型轉化&#xff0c…

中國電子學會2020年06月真題C語言軟件編程等級考試三級(含詳細解析答案)

中國電子學會考評中心歷屆真題&#xff08;含解析答案&#xff09; C語言軟件編程等級考試三級 2020年06月 編程題五道 總分:100分一、最接近的分數&#xff08;20分&#xff09; 分母不超過N且小于A/B的最大最簡分數是多少? 時間限制: 1000ms 內存限制: 65536kb 輸入…

數據之光:探索數據庫技術的演進之路

?? 歡迎大家來訪Srlua的博文&#xff08;づ&#xffe3;3&#xffe3;&#xff09;づ╭?&#xff5e;?? &#x1f31f;&#x1f31f; 歡迎各位親愛的讀者&#xff0c;感謝你們抽出寶貴的時間來閱讀我的文章。 我是Srlua&#xff0c;在這里我會分享我的知識和經驗。&#x…

喜訊!持安科技CEO何藝獲評安全419《2023年度十大優秀創業者》

近日&#xff0c;由網絡安全產業資訊媒體安全419主辦的《年度策劃》2023年度十大優秀創業者正式出爐&#xff0c;零信任辦公安全技術創新企業持安科技創始人兼CEO何藝&#xff0c;獲評十大優秀創業者。 這是安全419第二屆推出該項目的評選活動&#xff0c;安全419編輯老師在多年…