ICASSP2025丨融合語音停頓信息與語言模型的阿爾茲海默病檢測

阿爾茲海默病(Alzheimer's?Disease,?AD)是一種以認知能力下降和記憶喪失為特征的漸進性神經退行性疾病,及早發現對于其干預和治療至關重要。近期,清華大學語音與音頻技術實驗室(SATLab)提出了一種將停頓信息進行編碼,并與語言模型中的文本嵌入融合的方法,可以有效提升基于自發語音的AD檢測效果。該論文已發表于ICASSP 2025。

圖片

論文鏈接:https://arxiv.org/abs/2501.06727

背景介紹

阿爾茲海默病(Alzheimer's?Disease,?AD)是一種神經退行性疾病。患上阿爾茲海默病后,患者的大腦會發生病理變化,導致認知能力下降、表達能力退化等現象。臨床研究表明,早期治療可以有效延緩阿爾茲海默病的惡化。因此,AD檢測方法的開發對于該疾病的及早診治至關重要。

阿爾茲海默病對患者自發語音內容的影響促使人們探索自然語言處理技術,以實現可靠的AD檢測。而AD檢測中另一個關鍵指標是語音中的停頓,而通過語音停頓檢測阿爾茲海默病在最近的文獻中得到了廣泛關注。

雖然目前已有一些將停頓信息與語言特征相結合的嘗試,但還沒有一種方法能將停頓信息深度融合到語言模型中。在本文中,我們提出了一種方法,在語言模型的編碼階段將停頓與文本內容相結合,以捕捉語音中的語義和副語言特征,從而提高 AD 檢測的性能。

工作原理

在我們的方法中,我們利用預訓練的?BERT?模型作為基礎模型來捕捉語義信息。而停頓信息在被編碼后與現有的詞嵌入一起集成到?BERT?模型架構中。我們采用可學習的嵌入映射方法, 將每一個單詞的持續時間和停頓時間分別編碼為嵌入。然后,將這兩個嵌入在特征維度上拼接起來,并將其添加到詞嵌入中,從而在?BERT?模型的編碼階段將停頓信息與文本信息融合在一起。

在停頓信息的編碼過程中,我們引入了一種將時間特征編碼到嵌入中的新方法。使用WhisperX語音識別模型轉錄自發語音后,我們提取轉錄文本中每個單詞的持續時間和停頓時間,將它們結合為一個停頓標記,并在一定區間內進行均勻量化,得到一個停頓標記的碼本,之后對其進行可學習的嵌入映射。

圖片

實驗結果

在ADReSS數據集上,所提出的模型取得了81.2%的準確率,優于之前結合停頓與文本特征的模型BERT3p;在ADReSSo數據集上,所提出的模型展現了更好的泛化性,83.1%的準確率優于BERT3p及其他使用停頓特征的模型。該結果證明了所提出方法的有效性。

圖片

圖片

結 論

本文研究表明,將停頓信息融入語言模型能夠有效提升阿爾茲海默病的檢測性能。通過捕捉自發語音中的時間特征,模型在區分AD患者與健康個體方面表現出更強的判別能力,驗證了停頓作為潛在生物標志物在AD早期檢測中的應用價值。本研究為構建更精準、非侵入性、低成本的AD檢測手段提供了新思路,對推動神經退行性疾病的早期診斷和治療具有重要意義。

學生作者信息

圖片

蒲鈺,清華大學電子系二年級碩士生,研究方向為阿爾茲海默病檢測和端到端語音交互。

點擊下面【閱讀原文】跳轉arXiv獲取全文:

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/82962.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/82962.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/82962.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C# 導出word 插入公式問題

最近遇到了一個問題,下載一個文檔時需要下載word可編輯的公式。找了很久終于找到了一種解決辦法。下面是以C#代碼來實現在Word中插入公式的功能。 目錄 一、引入dll程序集文件1、通過 NuGet 引入dll(2種方法)的方法:2、手動添加d…

智匯云舟攜最新無人機2D地圖快速重建技術亮相廣西國際礦業展覽會

5月22至25日,廣西國際礦業展覽會(以下簡稱 “礦業展”)在南寧國際會展中心成功舉辦。智匯云舟與合作伙伴廣西空馭數智信息技術有限公司攜無人機 2D地圖快速重建技術,以及視頻孿生智慧礦山解決方案參會,為礦山行業數字化…

OpenSSL 簽名驗證詳解:PKCS7* p7、cafile 與 RSA 驗簽實現

OpenSSL 簽名驗證詳解:PKCS7* p7、cafile 與 RSA 驗簽實現 摘要 本文深入剖析 OpenSSL 中 PKCS7* p7 數據結構和 cafile 的作用及相互關系,詳細講解基于 OpenSSL 的 RSA 驗簽字符串的 C 語言實現,涵蓋簽名解析、證書加載、驗證流程及關鍵要…

9:OpenCV—模板匹配

模版匹配 1、模板匹配概念 模板匹配是一項在一副圖像中尋找與另一幅模板圖像最匹配(相似)部分的技術。模板匹配不是基于直方圖的,而是通過在輸入圖像上滑動圖像塊(模板)同時對比相似度,來對模板和輸入圖像…

Composer 常規操作說明與問題處理

目錄 一、 Composer 簡介,安裝二、全局配置三、項目配置(composer.json)3.1 composer.json 文件1. 基礎字段信息2. **require(生產環境依賴)**3. **require-dev(開發環境依賴)** 3.2 composer.l…

Spring Boot 3.0與Java 17:企業級應用開發的新范式

引言 隨著Spring Boot 3.0和Java 17的正式發布,企業級應用開發迎來了新的技術范式。這兩項技術的結合不僅帶來了性能提升,還引入了眾多現代化的編程特性,為開發者提供了更強大、更高效的開發體驗。本文將深入探討Spring Boot 3.0與Java 17的…

Vue 組件 - 指令

Vue 漸進式JavaScript 框架 基于Vue2的學習筆記 - Vue指令 目錄 指令寫法 自定義指令 簡單封裝指令 指令傳遞字符串 update事件 指令應用 指令實現輪播 指令函數簡寫 指令函數列表 bind inserted update componentUpdated unbind Vue3指令輪播 nextick 總結 指…

5.28 后端面經

為什么golang在并發環境下更有優勢 Go語言(Golang)在并發環境下的優勢主要源自其設計哲學和內置的并發機制,這些機制在語言層面提供了高效、簡潔且安全的并發編程工具。以下是其核心優勢的詳細分析: 1. Goroutine:輕量…

Linux線程入門

目錄 Linux線程概念 什么是線程 重新理解進程 線程的優點 線程的缺點 線程的異常 線程用途 Linux線程概念 什么是線程 在一個程序里的一個執行路線就叫做線程(thread)。更準確的定義是:線程是“一個進程內部的控制序列”。一切進程至…

通信應用高速模數轉換器ADC

在5G通信、醫療成像、航空航天及工業自動化等關鍵領域,高速ADC模數轉換器作為信號鏈的“心臟”,其性能直接決定了系統的精度與效率。然而,如何精確測試高速ADC的動態參數、優化設計驗證流程、應對復雜應用場景的挑戰,始終是工程師…

PostgreSQL 中 JSONB 數據類型的深度解析以及如何使用

一、JSONB 核心特性解析 1. 存儲結構與優勢 ??二進制存儲??:將 JSON 數據解析為二進制格式(分解鍵值對,去除空格和重復鍵)??高效查詢??:支持 GIN/GiST 索引,查詢速度比 JSON 類型快 10 倍??數據…

C++_核心編程_ 左移運算符重載 “<<” 左移運算符

作用&#xff1a;可以輸出自定義數據類型 */ //目標 調用p1,輸出Person 中的屬性 m_A ,m_B &#xff1a; /* #### 4.5.2 左移運算符重載 “<<” 左移運算符 作用&#xff1a;可以輸出自定義數據類型 *///目標 調用p1,輸出Person 中的屬性 m_A ,m_B &#xff1a; class…

thinkphp 5.1 部分知識記錄<一>

1、配置基礎 慣例配置->應用配置->模塊配置->動態配置 慣例配置:核心框架內置的配置文件,無需更改。應用配置:每個應用的全局配置文件(框架安裝后會生成初始的應用配置文件),有部分配置參數僅能在應用配置文件中設置。模塊配置:每個模塊的配置文件(相同的配置…

數據結構 -- 樹相關面試題

二、樹相關的填空題 1.對于一個具有 n 個結點的二叉樹&#xff0c;當它為一棵 ________ 二叉樹時&#xff0c;具有最小高度&#xff0c;即為 ________&#xff1b;當它為一棵單支樹時具有最大高度&#xff0c;即為 ________。 2.對于一個具有 n 個結點的二叉樹&#xff0c;當它…

2025河北CCPC 題解(部分)

簽到題&#xff1a;AC代碼如下 &#xff1a; // Problem: H - What is all you need? // Contest: Virtual Judge - sdccpc20250526 // URL: https://vjudge.net/contest/718568#problem/H // Memory Limit: 1024 MB // Time Limit: 1000 ms // // Powered by CP Editor (ht…

計算機視覺---YOLOv4

YOLOv4&#xff08;You Only Look Once v4&#xff09;于2020年由Alexey Bochkovskiy等人提出&#xff0c;是YOLO系列的重要里程碑。它在YOLOv3的基礎上整合了當時最先進的計算機視覺技術&#xff0c;實現了檢測速度與精度的顯著提升。以下從主干網絡、頸部網絡、頭部檢測、訓練…

OpenCV 第7課 圖像處理之平滑(一)

1. 圖像噪聲 在采集、處理和傳輸過程中,數字圖像可能會受到不同噪聲的干擾,從而導致圖像質量降低、圖像變得模糊、圖像特征被淹沒,而圖像平滑處理就是通過除去噪聲來達到圖像增強的目的。常見的圖像噪聲有椒鹽噪聲、高斯噪聲等。 1.1 椒鹽噪聲 椒鹽噪聲(Salt-and-pepper N…

Spring AI 系列3: Promt提示詞

一、Promt提示詞 Promt提示是引導 AI 模型生成特定輸出的輸入&#xff0c; 提示的設計和措辭會顯著影響模型的響應。 在 Spring AI 中與 AI 模型交互的最低層級&#xff0c;處理提示有點類似于在 Spring MVC 中管理”視圖”。 這涉及創建帶有動態內容占位符的大段文本。 這些占…

隨叫隨到的電力補給:移動充電服務如何重塑用戶體驗?

在快節奏的現代生活中&#xff0c;電力已成為維系日常運轉的隱形血脈。智能手機、電動汽車、便攜設備的普及&#xff0c;讓“電量焦慮”逐漸演變為一種時代癥候。而移動充電服務的興起&#xff0c;正悄然改變這一局面。它像一位隱形的能源管家&#xff0c;隨時響應需求&#xf…

LeetCode 75. 顏色分類 - 雙指針法高效解決(Java實現)

文章目錄 問題描述算法思路&#xff1a;三指針分區法核心思想指針定義 Java實現算法執行流程關鍵問題解析&#xff1a;為什么交換0后不需要重新檢查&#xff1f;交換0時的兩種情況分析詳細解釋&#xff1a; 復雜度分析示例演示&#xff08;輸入&#xff1a;[2,0,2,1,1,0]&#…