生命之樹是進化生物學的核心,但由于?不完全譜系排序(ILS)、雜交?和?多倍化?等復雜過程,解析深層且難解的系統發育關系仍然是一個挑戰。**豆科(Leguminosae)**這一物種豐富且生態多樣化家族的理解,但在族級及更高層次的許多深層關系依舊未能解決。研究結合 231 個物種的新測序 genome skimming 數據 與已有的 葉綠體基因組、線粒體基因組和轉錄組數據,基于 完整葉綠體基因組、39 個線粒體基因和 1559 個低拷貝核基因 重建了豆科系統發育樹,涵蓋了幾乎所有已知族和主要未定位類群。通過 核基因樹四分分析 并結合最大似然樹與 ASTRAL 結果,對 22 個有爭議節點 提出了最可能的系統關系解釋。研究表明:ILS 是主要沖突來源,基因流(gene flow) 是一個被低估但重要的次要因素。這些過程可能解釋了 Papilionoideae 中 50-kb 倒位類群 等頑固難解的系統發育關系。總體而言,本研究通過多數據分區與多方法結合,解析了豆科的關鍵系統發育爭議,建立了一個穩健的系統發育框架,為進一步研究這一在生態與經濟上都極其重要的家族提供了新基礎。
文章來源:https://doi.org/10.1093/sysbio/syaf057
研究背景
豆科約?22,520 種、796 屬,廣泛分布于全球幾乎所有生境,在生態(固氮作用)和經濟(大豆、豌豆、苜蓿等重要作物和藥用/木材植物)上極其重要。
由于其快速多樣化(尤其在白堊紀—古近紀交界時期),豆科深層次系統發育關系一直難以解決。
主要挑戰:不完全譜系排序(ILS)、基因流(introgression/hybridization)、多倍化(polyploidization)、基因樹估計誤差(GTEE)?導致的基因樹與物種樹沖突。
研究方法
1. 樣本與取樣策略
覆蓋范圍:幾乎所有豆科亞科(6 個)與族(49 個)。
新增數據:
235 個樣本(231 個物種),利用?genome skimming?獲得葉綠體和線粒體數據。
樣本來源包括新鮮葉片、硅膠干燥樣品和標本館標本。
數據整合:
葉綠體基因組(plastome):696 個樣本(677 個物種,433 屬,約覆蓋已知屬的 54.4%)。
線粒體數據:459 個樣本,包含 39 個線粒體蛋白編碼基因。
核基因數據:1559 個低拷貝核基因(來源于轉錄組和基因組數據,463 個物種,333 個屬)。
外群選擇:包括同目內的其他科(如 Polygalaceae、Quillajaceae、Surianaceae),以及若干其他被子植物科。
2. DNA 提取與測序
DNA 提取:
新鮮/硅膠干燥葉片 → 改良 CTAB 法。
標本館樣品 → DNeasy Plant Mini Kit(針對降解 DNA 適配)。
文庫構建:
DNA 片段化,篩選 350 bp 插入片段。
Illumina HiSeq 4000/X-Ten 平臺測序(2 × 150 bp)。
3. 基因組裝與注釋
葉綠體基因組:
使用?GetOrganelle(調用 Bowtie2、SPAdes、BLAST+)進行組裝。
組裝圖用?Bandage?可視化和人工修正。
注釋使用?PGA?和?Geneious,以大豆基因組為參考。
線粒體基因:
使用?SPAdes?+ GetOrganelle 獲取線粒體 contig。
對照已發表的豆科線粒體基因組進行比對和人工修正。
核基因數據:
引用 Zhao et al. (2021) 的數據集(1559 個低拷貝核基因)。
基因主要功能:DNA 修復、RNA 剪接、蛋白結合等 housekeeping genes。
4. 數據處理與比對
葉綠體:提取 203 個片段(81 coding + 122 noncoding),分別比對(MAFFT)并拼接為不同矩陣。
線粒體:保留 39 個基因,拼接為 MG39 矩陣。
核基因:1559 個基因分別比對和拼接為 Nucl1559 數據集。
低質量或缺失嚴重的片段會被 trimAl 過濾。
5. 系統發育推斷
最大似然樹(ML):
使用?PartitionFinder2?確定分區方案。
RAxML?推斷樹(GTR+G 模型),1000 bootstrap。
物種樹推斷:
使用?ASTRAL-III(基于基因樹四分法,適用于 ILS 情況)。
主要對核基因和葉綠體數據應用,線粒體數據由于信息量有限未用于沖突分析。
沖突分析:
核基因樹Quartets分析:檢測基因間沖突。
ILS 與基因流檢測:使用局部支持值、Reticulation Index 等方法分離不同沖突來源。
研究結果
1. 系統發育框架
六個亞科的單系性得到強烈支持。
49 個已承認族單系得到確認。
在蝶形花亞科(Papilionoideae)內,識別出?10 個潛在新族(tribes)?候選群體,建議提升為正式族級單位。
一些關鍵關系得到澄清:
ADA 類群(Angylocalyceae + Dipterygeae + Amburaneae)?與其他 Papilionoideae 的關系。
Baphieae、Dalbergioid、Genistoid?等重要類群的相對位置。
對長期未定位的屬(如 Austrosteenisia、Dermatophyllum)提出分類學參考。
圖1豆科696個質體基因組的編碼區和非編碼區串聯的最大似然樹
圖2?豆科核基因和質體基因組系統發育樹在族級分支層面存在的核質沖突
圖3?葉綠體和核基因的單基因樹支持度頻率分布
2. 沖突模式
ILS 是主要沖突來源:解釋了大多數深層次分支的不一致。
基因流(introgression):
在?ADA 類群、Wisterieae、Mimoseae、Caesalpinieae?等分支表現突出。
主要造成?細胞核-葉綠體沖突。
基因樹估計誤差(GTEE):在?Papilionoideae 的 50-kb inversion clade?中尤為明顯。
定量結果:
~71% 的沖突節點與 ILS 相關;
18% 主要受基因流驅動;
31% 由 ILS 與基因流共同作用。
圖4?基于豆科核基因系統發育樹的不完全譜系分選(ILS)、基因樹估計誤差(GTEE)及基因流(RI)信號的量化
圖5?不完全譜系選、基因樹估計誤差以及基因流對豆科植物系統發育樹結構的影響