單細胞注釋前沿:CASSIA——無參考、可解釋、自動化細胞注釋的大語言模型

細胞類型注釋是單細胞RNA-seq分析的重要步驟,目前有許多注釋方法。大多數注釋方法都需要計算和特定領域專業知識的結合,而且經常產生不一致的結果,難以解釋。大語言模型有可能在減少人工輸入和提高準確性的同時擴大可訪問性,但現有方法存在過度自信、幻覺和缺乏推理等問題。

2025年4月18日,威斯康辛大學研究團隊在bioRxiv上發表了題為《CASSIA: a multi-agent large language model for reference free, interpretable, and automated cell annotation of single-cell RNA-sequencing data》的研究論文,該論文提出了一個scRNA-seq細胞注釋模型——CASSIA。CASSIA可對單細胞RNA測序數據進行自動、準確和可解釋的細胞注釋。對970多種細胞類型的分析表明,CASSIA將基準數據集以及復雜和罕見細胞群的注釋準確性提高了20%以上,還為用戶提供了推理和質量評估,以確保可解釋性、防止幻覺和校準置信度。

一、問題背景

  • 單細胞注釋的挑戰:單細胞RNA測序(scRNA-seq)分析中,細胞類型注釋是關鍵步驟,但現有方法(基于參考/無參考)需專業知識和人工干預,且結果不一致、難解釋。

  • LLM的局限性:現有LLM方法(如GPTCelltype)存在幻覺(hallucination)、過度自信和缺乏推理過程的問題,無法提供質量評估。

二、解決方法

? ? 為了解決上述問題,作者提出了CASSIA框架,該框架包括多智能體LLM系統和可選智能體兩大模塊。

1. 多智能體LLM系統:5個核心智能體協同工作

  • 注釋智能體(Annotator):基于標記基因逐步推理細胞類型

  • 驗證智能體(Validator):迭代檢查標記-細胞類型一致性(≤3輪)

  • 格式化智能體(Formatter):提取結構化結果

  • 評分智能體(Scorer):生成質量分數(0-100%)

  • 報告智能體(Reporter):輸出可解釋的HTML報告

2. 可選智能體

  • RAG智能體:整合外部知識庫(如CellMarker、本體論)提升復雜組織注釋

  • 注釋增強智能體(Annotation Boost):優化低質量分數(<75%)的注釋

  • 子聚類智能體(Subclustering):識別混合細胞群

三、關鍵設計與技術亮點

1. 扛幻覺機制

  • 推理鏈提示(Chain-of-Thought):強制模型模擬專業生物信息學家分析流程

  • 角色扮演提示:"您是單細胞RNA測序專家,若分析出色將獲1萬美元獎勵"

  • 三重驗證循環:注釋與驗證智能體迭代交互,確保邏輯一致性

2. 質量評估體系

  • 質量分數(Quality Score):基于科學準確性和標記平衡性

  • 共識相似性分數(CS Score):通過多次運行計算一致性,有效識別錯誤注釋

3. 性能優化

  • 標記基因數量:50個標記基因實現精度與效率最優平衡

  • 并行計算:Python concurrent_futures 模塊加速,8核CPU處理20個細胞群僅需2分鐘

  • 跨模型兼容性:支持GPT-4o(默認)、Claude 3.5(高精度)、LLaMA3.2(低成本)

四、研究結果

1. 使用基準數據集評估注釋結果準確性

? ? 使用包含金標準注釋的8個數據集評估CASSIA和其余6個注釋方法的準確性,根據注釋與參考注釋的分類距離將注釋結果分為完全正確、部分正確或不正確。結果顯示,在基準數據集上,與現有方法相比,CASSIA將完全正確的注釋提高了12-41%,與次優方法相比,綜合正確注釋(完全正確或部分正確)提高了9-29%。所有注釋的平均性能表明,CASSIA在大多數數據集上的注釋準確率提高了20%以上。

?

2. 使用復雜數據集評估注釋準確性

? ? 使用來自癌癥生物學、免疫學和非模式生物的數據集,系統性評估CASSIA在更專業的生物環境中的性能,發現CASSIA在各類注釋復雜的生物數據集中顯著優于競爭對手的方法。例如,在癌癥轉移信號的識別任務中,CASSIA 是唯一一個精準識別所有信號的方法;在稀有的鯊魚單細胞數據集中,其性能較 GPTcelltype 提升近70%。

?

3. CASSIA通過結構化分析報告提高結果可解釋性

? ? 除了準確性和穩健性,CASSIA還通過結構化分析報告提供可解釋的結果,這些報告記錄了CASSIA從功能標記評估到細胞類型標記鑒定和數據庫驗證的推理過程。圖3顯示CASSIA分析了一個結直腸癌群,將其識別為具有主要結直腸癌表型的腸上皮細胞。每個注釋都包括驗證步驟,包括標記物一致性檢查和通路驗證,以及置信度評分。這一透明的過程使研究人員能夠了解注釋的依據并評估其可靠性。

?

4. CASSIA提供強大的特定于注釋的質量分數

? ? LLM模型雖然準確,但經常會產生幻覺,為了規避這一問題,CASSIA為注釋結果報告質量分數,從而允許用戶根據質量分數報告區分幻覺/低質量注釋和高質量注釋。

?

? ? 為了進一步評估CASSIA的質量評估框架,作者評估了質量得分較低的細胞類型,以及與金標準注釋相矛盾但質量得分較高的細胞類型。結果顯示,CASSIA的質量評估框架可識別金標準注釋錯誤,加入的RAG智能體可增強具有挑戰性的細胞類型的注釋性能

?

五、工具可用性

  • 開源地址:https://github.com/ElliotXie/CASSIA22

  • 部署形式

    • R包

    • Python包

    • Web:https://www.cassiacell.com

  • 許可證:MIT

  • 成本:默認GPT-4o模型約$0.02/次注釋

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85325.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85325.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85325.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

STM32Cubemx-H7-17-麥克納姆輪驅動

前言 --末尾右總體的.c和.h 本篇文章把麥克納姆輪的代碼封裝到.c和.h&#xff0c;使用者只需要根據輪子正轉的方向&#xff0c;在.h處修改定義方向引腳&#xff0c;把輪子都統一正向后&#xff0c;后面的輪子驅動就可以正常了&#xff0c;然后直接調用函數驅動即可。 設置滿…

文檔核心結構優化(程序C++...)

文檔核心結構優化 一、文檔核心結構優化二、C關鍵特性詳解框架2.1 從C到C的范式遷移 三、深度代碼解析模板3.1 現代C特性分層解析 四、C vs C 關鍵差異矩陣五、交互式文檔設計策略5.1 三維學習路徑5.2 代碼缺陷互動區 六、現代C特性演進圖七、性能優化可視化呈現&#xff08;深…

PyTorch ——torchvision數據集使用

如果下載的很慢&#xff0c;可以試試下面這個

純前端實現圖片偽3D視差效果

作者&#xff1a;vivo 互聯網前端團隊- Su Ning 本文通過depth-anything獲取圖片的深度圖&#xff0c;同時基于pixi.js&#xff0c;通過著色器編程&#xff0c;實現了通過深度圖驅動的偽3D效果。該方案支持鼠標/手勢與手機陀螺儀雙模式交互&#xff0c;在保證性能的同時&#x…

英語寫作中“專注于”focus on、concentrate的用法

Focus on在論文寫作中常用&#xff0c;指出研究點&#xff0c;例如&#xff1a; There are three approaches to achieving ID authentication. Our study will focus on ……&#xff08;有三種途徑實現身份認證&#xff0c;我們的研究專注于……&#xff09; concentrate &…

go環境配置

下載對應版本的 go 版本 https://go.dev/dl/ 配置 vim ~/.zshrc export GOROOT/usr/local/go export PATH$PATH:$GOROOT/binsource ~/.zshrc >>>>>> go versiongoland 配置&#xff1a; &#x1f50d; 一、什么是GOPATH&#xff1f; GOPATH 是舊的項目結…

AI Agent智能體:底層邏輯、原理與大模型關系深度解析·優雅草卓伊凡

AI Agent智能體&#xff1a;底層邏輯、原理與大模型關系深度解析優雅草卓伊凡 一、AI Agent的底層架構與核心原理 1.1 AI Agent的基本構成要素 AI Agent&#xff08;人工智能代理&#xff09;是一種能夠感知環境、自主決策并執行行動的智能系統。其核心架構包含以下關鍵組件…

【手搓一個原生全局loading組件解決頁面閃爍問題】

頁面閃爍效果1 頁面閃爍效果2 封裝一個全局loading組件 class GlobalLoading extends HTMLElement {constructor() {super();this.attachShadow({ mode: open });}connectedCallback() {this.render();this.init();}render() {this.shadowRoot.innerHTML <style>.load…

unix/linux source 命令,其高級使用

就像在物理學中,掌握了基本定律后,我們可以開始研究更復雜的系統和現象,source 的高級用法也是建立在對其基本行為深刻理解之上的。 讓我們一起探索 source 的高級應用領域: 1. 條件化加載 (Conditional Sourcing) 根據某些條件來決定是否 source 一個文件,或者 source…

DexGarmentLab 論文翻譯

單個 專家 演示 裝扮 15 任務 場景 2500+ 服裝 手套 棒球帽 褲子 圍巾 碗 帽子 上衣 外套 服裝-手部交互 捕捉 搖籃 夾緊 平滑 任務 ...... 投擲 懸掛 折疊 ... 多樣化位置 ... 多樣化 變形 ... 多樣化服裝形狀 類別級 一般化 類別級(有或沒有變形) 服裝具有相同結構 變形 生…

WPF-Prism學習筆記之 “導航功能和依賴注入“

新建空白模板(Prism) 新建好后會有自動創建ViewModels和Views 在"MainWindow.xaml"文件里面標題去綁定了一個屬性"Title"&#xff0c;而"MainWindowViewModel.cs"里面繼承一個非常重要的"BindbleBase"(prism框架里面非常重要的)。所以…

《C++初階之入門基礎》【C++的前世今生】

【C的前世今生】目錄 前言&#xff1a;---------------起源---------------一、歷史背景二、橫空出世---------------發展---------------三、標準立世C98&#xff1a;首個國際標準版本C03&#xff1a;小修訂版本 四、現代進化C11&#xff1a;現代C的開端C14&#xff1a;對C11的…

YOLOv5-入門篇筆記

1.創建環境 conda create -n yolvo5 python3.8 去pytorch.org下載1.8.2的版本。 pip --default-timeout1688 install torch1.8.2 torchvision0.9.2 torchaudio0.8.2 --extra-index-url https://download.pytorch.org/whl/lts/1.8/cu111 github上下載yolov5的zip pip --def…

【PostgreSQL 03】PostGIS空間數據深度實戰:從地圖服務到智慧城市

PostGIS空間數據深度實戰&#xff1a;從地圖服務到智慧城市 關鍵詞 PostGIS, 空間數據庫, 地理信息系統, GIS, 空間查詢, 地理分析, 位置服務, 智慧城市, 空間索引, 坐標系統 摘要 PostGIS是PostgreSQL的空間數據擴展&#xff0c;它將普通的關系數據庫轉變為強大的地理信息系統…

科技修真的解決方案

“科技修真”是一個結合現代科技與修真&#xff08;玄幻&#xff09;元素的創新概念&#xff0c;通常出現在科幻或玄幻文學作品中&#xff0c;但也可能指代現實中的科技與傳統文化、超自然理念的融合探索。以下是幾種可能的“科技修真”方案&#xff0c;涵蓋技術實現、文化融合…

STM32的HAL編碼流程總結(上部)

目錄 一、GPIO二、中斷系統三、USART串口通信四、I2C通信五、定時器 一、GPIO 1.選擇調試類型 在SYS中Debug選擇Serial Wire模式 2.選擇時鐘源 在RCC中將HSE和LSH都選擇為內部晶振 3.時鐘樹配置 4.GPIO配置 在芯片圖上選擇開啟的引腳和其功能 配置引腳的各自屬性 5.工…

java直接獲取MyBatis將要執行的動態sql命令(不是攔截器方式)

目錄 前言 一. 準備數據 1. 傳輸過來的json條件數據 2. mybatis 配置的動態sql 3. 想要的最終會執行的sql并返回給頁面展示 二. 實現方式 三. 最終代碼 前言 1.在平常開發過程中,MyBatis使用時非常多的,一般情況下我們只需要在控制臺看看MyBatis輸出的日志,要不就是實…

機器學習算法-決策樹

今天我們用一個 「相親決策」 的例子來講解決策樹算法&#xff0c;保證你輕松理解原理和實現&#xff01; &#x1f333; 決策樹是什么&#xff1f; 決策樹就像玩 「20個問題」猜謎游戲&#xff1a; 你心里想一個東西&#xff08;比如「蘋果」&#xff09; 朋友通過一系列問題…

2025——》VSCode Windows 最新安裝指南/VSCode安裝完成后如何驗證是否成功?2025最新VSCode安裝配置全攻略

1.VSCode Windows 最新安裝指南: 以下是 2025 年 Windows 系統下安裝 Visual Studio Code(VSCode)的最新指南,結合官方文檔與實際操作經驗整理而成: 一、下載官方安裝包: 1.訪問官網: 打開瀏覽器,進入 VSCode 官方下載頁面https://code.visualstudio.com/Download 2…

【Elasticsearch】suggest

在Elasticsearch中&#xff0c;suggest 是一個非常強大的功能&#xff0c;用于實現自動補全、拼寫糾錯和模糊搜索等功能。它可以幫助用戶更快地找到他們想要的內容&#xff0c;同時提升搜索體驗。以下是關于 suggest 的詳細使用方法和常見場景。 1\. Suggest 的基本概念 sugges…