AM J BOT | 黃芪穩健骨架樹構建

Astragalus（黃芪屬，豆科，含約 3,400 種）是最大的被子植物屬之一，其多樣化在北半球多個地區的植被形成與生物多樣性格局中扮演了重要角色。然而，由于屬內物種數量龐大、形態復雜且演化歷史可能受到網狀進化的影響，該類群的系統發育關系長期以來一直未能得到可靠解析。研究開發并應用了一個進化枝特異性的靶向富集誘餌組（clade-specific target enrichment bait set），覆蓋 819 個核基因，以便在屬級尺度上獲得穩健的系統發育框架。我們從 107 個樣本中成功回收序列，其中包含 80 個來源于標本館的樣本（采集年代最早可追溯至 1899 年）。核基因的物種樹分析為 Astragalus 提供了一個支持度極高的骨干系統樹，但在某些關鍵節點處，基因樹之間存在顯著的不一致性。同時，我們利用非靶向回收的葉綠體基因組序列重建的質體樹，與核樹在若干位置也表現出明顯沖突。進一步的網絡分析表明，這些沖突可能源于不完全譜系整理（ILS）與歷史上的雜交/基因流事件的疊加。

? ? ? 本研究證明，進化枝特異性靶向富集方法不僅能夠高效回收老舊標本的核與質體數據，而且能夠在“超級大屬”的系統學研究中構建穩健的骨干框架。同時，我們的結果也強調：在多樣化速率高、演化復雜的大屬中，系統發育信號往往受到 ILS 與古代雜交的顯著影響，因此必須結合共祖模型與網絡方法加以解析。

文章來源：https://doi.org/10.1002/ajb2.70084

一?方法

總體設計與目的

使用為 Astragalean 設計的?819-locus clade-specific bait set，以標本館樣本為主（有的標本采集于 1899 年），結合公開轉錄組數據，重建 Astragalus 的核骨干樹并比較核/質體信號以檢測 cytonuclear 沖突與網狀（reticulate）演化證據。

1. 取樣（Taxon sampling）

總共選取 ~107 個樣本（作者表述略有處），其中?80 個為本研究新測（77 屬于 Astragalus，3 屬于其它 Astragalean 屬用于對照），并整合公開轉錄組/基因組數據以補充序列。

2. DNA 提取與文庫構建（Herbarium-friendly wet lab）

從 ~20 mg 干標本組織提取（NucleoSpin Plant II），為老標本對步驟作了具體修改（如：600 μL PL1、無 RNase、1.5 h 裂解、額外清洗、50 μL 洗脫），用 Qubit 和 TapeStation 質控。
聲波斷裂至 ~350 bp（Covaris M220），NEBNext Ultra II 文庫構建，接頭后按樣本片段大小微調篩選，PCR 擴增 8 周期。16 聯樣 pooled，myBaits 富集（hybridization temp = 60°C，wash temp = 60°C），富集后再擴增 10 周期；測序使用 Illumina NextSeq 1000。

3. 讀段質控與組裝（Read QC & locus assembly）

FastQC / MultiQC 檢查；去 PCR 重復（ParDRe）；Trimmomatic 去接頭并丟棄 Q < 20 或 <25 bp 的讀段。
用?HybPiper v2.1.5?進行靶位組裝：
- SPAdes 的 coverage cutoff 為每樣本單獨決定（先跑初始組裝再計算平均覆蓋）；
- Diamond mapping（--diamond），Exonerate 和 sliding-window 閾值設為 85（--thresh?和?--exonerate_hit_sliding_window_thresh?= 85）；
- 處理 chimeric 相關參數（--chimeric_stitched_contig_edit_distance = 0?等）；并用 HybPiper的?paralog_retriever?回收長 paralog。

4. 同源/正交映射與基因篩選（Orthology inference）

序列用?MACSE?對齊；用?Pxclsq?清理堿基列（核數據 min occupancy 10%）；用?TreeShrink?去除異常長分支，mask 單系/并系 tip（保留信息量最多的 tip）。
正交推斷采用?monophyletic outgroup (MO)?方法（Yang & Smith 2014）與 Morales-Briones 等（2022）流程生成同源/正交 fasta

5. 基因樹與物種樹構建（Phylogenetic inference）

基因樹：IQ-TREE v2（ModelFinder?-m TEST，1000 ultrafast bootstrap）。
物種樹（nuclear）：并行使用（a）ASTRAL（quartet-based coalescent 方法）、（b）ASTRAL-Pro（可處理多拷貝/并行基因）和（c）concatenated ML（把所有 ortholog 拼接成 supermatrix 用 IQ-TREE）。這樣一套并行策略可對比 ILS / paralogy 的影響。

6. 基因不一致性與網狀演化檢測（Discordance & networks）

PhyParts（統計基因與物種樹的一致/不一致）與?QuartetSampling (QS)（評估四分體支持和替代拓撲頻率）用于量化基因樹不一致。
PhyloNet（maximum pseudo-likelihood）在代表性 22 個樣本（覆蓋 11 大類群、576 個基因）上推斷帶 reticulations 的物種網絡，檢驗 0–6 個雜交事件（reticulations）情形并以 log-likelihood 比較模型優劣。

7. 葉綠體（plastome）數據的回收與分析

利用 off-target reads 用?FastPlast?/ SPAdes 組裝 plastome，導入 Geneious 以 A. pattersonii（NC_063490）為參考做高靈敏 mapping，手工去除 discordant contigs，合并并對 CDS/分區建樹（IQ-TREE），并用 Pxclsq 清除列缺失 >40% 的位點。這樣得到獨立的 plastome 樹，用以對比核樹。

二?結果

1) 測序與靶位回收（數據量與覆蓋）

每樣本原始 paired-end reads 在?1.2M 到 12M?之間。
平均每樣本?≥75% 長度回收的靶位為 701.1 個（范圍 484–767），表明 bait set 對許多老標本亦有效。且作者未檢測到標本年代（1899–2014）與回收位點數的明顯相關性（Supporting Fig. S1）。

2) 并行/副本與正交序列數

HybPiper 報告的 paralog warnings?平均 33.4 個/樣本（范圍 3–252），顯示在某些樣本/基因上并行拷貝問題明顯。平均每個樣本檢索到?~599.8 個 ortholog 序列（范圍 230–718）。最終篩得?781 個 MO orthologs（每個基因至少含 20 個樣本）。

3) 矩陣規模（拼接矩陣）

拼接超級矩陣長度?778,623 個對齊堿基，總體矩陣占有率約?73%（約 27% 缺失）。葉綠體矩陣為?~114,580?列，對齊占有率約?74.6%。

4) 核樹（ASTRAL / ASTRAL-Pro / concatenated）– 總體拓撲與支持

三種方法（coalescent、ASTRAL-Pro、concatenated ML）產生的主干拓撲非常相似，背骨（backbone）節點普遍具有很高支持（LPP=1 / BS=100 在許多關鍵節點）。Astragalean 整體與 Eu-Astragalus 被強烈支持為單系群。
部分細節差異：ASTRAL-Pro 在某些深節點（例如 Hypoglottis）與 concatenated 方法給出略異結論（ASTRAL-Pro 使 Hypoglottis 單系），另一些類群（Astracantha、Hamosa）的支持值在方法間也存在差別（見文中數值）。

5) 核—質體（cytonuclear）不一致

雖然核樹給出高支持的 backbone，但?plasmome（葉綠體）樹在少數關鍵處與核樹沖突：例如 Ophiocarpus 在核樹中呈散布/多系，而葉綠體樹支持 Ophiocarpus 單系且與 Glottis 為姐妹（BS=100）。這提示曾發生器官體交換或古代基因流/捕獲事件。

6) 基因不一致量化（PhyParts & QuartetSampling）

某些大節點表現出高度一致性（例如 Astragalean：628/628 informative genes concordant，QS score = 1/–/0.96；Eu-Astragalus + Oxytropis：728/741，QS = 1/–/0.96），顯示這些節點幾乎所有基因都支持相同拓撲。
然而，沿 Astragalus 背骨（尤其是?Meso-Astragalus?區域）存在高水平基因樹不一致與?QS 對替代拓撲的強烈偏斜。舉例：Hypoglottis 與 Diholcos 這一節點，只有?23 個 informative genes（out of 668）?給出該 QS 指標?0.27/1/0.48，雖然物種樹的支持值仍顯示 LPP = 1 / BS = 100——說明高支持度的節點可能由少數強信號或合并效應驅動，但基因層面替代拓撲頻率不低。

7) 網狀演化證據（PhyloNet）

在用?22 個代表性類群（576 loci）?進行 PhyloNet 分析時，作者檢驗了 0–6 個 reticulation 的模型，發現最優模型為 6 個 reticulations（log-likelihood ≈?–392,572），并在多個主類群間重建出復雜的 reticulation 事件。
許多推斷出的雜交事件涉及?“ghost lineage”（未采樣或已滅絕譜系）?或祖先節點（例如 Trimeniaeus 與 Neo-Astragalus 祖先的相互作用），且某些事件在不同 reticulation 假設下重復出現（例如 Trimeniaeus ? Diholcos），增強了“真實存在歷史混合”的可信度；作者仍建議更密集取樣以穩健確認細節。

8) 質控與其他觀察

標本年代不顯著影響基因回收量（支持用標本館樣本做大規模靶位富集的可行性）。
并行/副本（paralogy）在 Astragalus 中較為常見（個別樣本 paralog warnings 高達數百），因此作者采用 HybPiper 的 paralog_retriever、ASTRAL-Pro 等工具來降低 paralogy 對物種樹推斷的干擾。

三?關鍵發現

1.系統發育重建：核基因數據（781個直系同源位點）支持黃芪屬分為11個主要分支，但發現Ophiocarpus分支在核基因組中多系分布，而在葉綠體基因組中單系。

2.核質沖突：葉綠體系統發育與核基因組存在顯著不一致，特別是在Ophiocarpus、Hypoglottis和Diholcos等分支的拓撲結構上。

3.網狀進化證據：系統發育網絡分析（PhyloNet）檢測到至少6次雜交事件，主要發生在Meso-Astragalus類群間，遺傳貢獻概率在0.135-0.4之間。

四?關鍵圖解析

圖1：基于ASTRAL的黃芪屬物種樹

基于ASTRAL軟件構建的黃芪屬種系樹，采用781個正交基因座數據。節點支持度（局部后驗概率，LPP）≥0.95（未特別標注時）。餅圖顯示主干節點處基因不一致性（由PhyParts計算）。歐黃芪屬內各分支的彩色標注名稱遵循Azani等（2017）及Su等（2021）的命名體系。插圖展示主干沿線主要差異，采用標注方法進行比較，省略拓撲結構相同的樹形部分。

圖2：核質基因組沖突與網狀進化證據

圖2A：核質基因組拓撲結構比較

核基因組樹（左圖）特征：

Ophiocarpus分支：多系分布于Hypoglottis類群中（紅色標記），與形態學分類沖突
Diholcos分支：嵌套于Hypoglottis內部，形成兩個獨立的高支持度亞支（BS=100）
Contortuplicata分支：與Hamosa分支形成姐妹群關系

葉綠體樹（右圖）特征：

Ophiocarpus分支：單系且與Glottis分支形成姐妹群（BS=100）
Hypoglottis分支：單系且與Contortuplicata分支姐妹關系
Diholcos分支：與Astracantha分支姐妹關系

關鍵沖突點：

Ophiocarpus的單系性（葉綠體）vs多系性（核基因）
Diholcos在核基因組中嵌套于Hypoglottis，而在葉綠體中與Astracantha關聯
Contortuplicata與不同分支的關聯關系

圖2B：系統發育網絡分析

網絡結構特征：

主要雜交事件：6個明確信號（紅色箭頭），涉及Trimeniaeus、Hypoglottis和Diholcos等分支
遺傳貢獻概率：
- Trimeniaeus→Hypoglottis+Diholcos共同祖先（0.3）
- 滅絕譜系→Contortuplicata（0.3）
- Trimeniaeus→Neo-Astragalus祖先（0.4）

圖3：與他人研究的比較