关于宏基因组分析中的分箱

Published at 2021-05-08 15:45

Author:zhixy

View:1861


分箱的定义

宏基因组数据在短序列reads拼接组装成长的重叠群contigs后,如仅仅在于挖掘其中的功能基因,宏基因组完全可被视为普通的基因组数据,进行后续基因组注释分析。

然而宏基因组学的主要目的是分析微生物群落的分类组成,开发未知微生物,恢复特殊微生物的部分核心或全基因组,揭示未知微生物如何参与环境中微生物群落的代谢。因此,就需要将重叠群按照他们本来所属的物种/种群进行分组

这种分组,或聚类,即为分箱,英文Binning。

分箱的方法

分箱的方法分为两类:

  1. 依赖分类信息的分箱 (taxonomic-dependent binning),又称taxonomy binning
  2. 不依赖分类信息的分箱 (taxonomic-independent binning),又称genome binning

Taxonomy binning是一种有监督的方法,即将宏基因组序列数据通过比对的方法 (blast, bowtie, bwa, minimap等),匹配到一个基因组数据库中,进而通过参考序列的分类信息对宏基因组序列进行分箱。这种策略受到数据库完整性的限制,特别是所要研究的宏基因组序列来自于完全未知的微生物时。

Genome binning是一种无监督的机器学习方法,通常根据序列的特征,序列间的关联模式,不需要参考数据库。根据分箱所使用的序列特征,Genome binning又可分为三大类:基于序列组成性特征的,基于丰度分布差异的和前两种混合的。

基于序列组成性特征的方法,假定源自不同基因组的序列 (contigs) 具有相似的序列特征,如GC含量,核苷酸频率(kmers频率,特别是四联核苷酸频率),关键的单拷贝基因等。

基于丰度分布差异的方法,认为源自同一基因组的序列 (contigs),在同一样本中应具有一致的丰度,而在不同的样本之间,它们又应该具有相似的丰度分布。

混合策略时将这两种方法结合在一起,一定程度上提高了分箱的准确性。但尽管如此,面对更为复杂微生物群落,这些方法仍然是力不从心。其中最大的难题是:微生物群落中大量存在那些较近源的物种,它们在基因组序列上较相似,且丰度分布也可能较为相似

分箱的工具

近年来为解决Genome binning的问题,研究者开发了很多软件方法。例如:

还有一些整合工具,如:

分箱效果的评价

分箱类似一个解谜过程。对某一对重叠群contigs来说,它们的分箱结果,只有4种情况:

  1. 假如它们属同一基因组,被分到同一个bin,即真阳性结果 (true positive, TP)
  2. 假如它们属同一基因组,被分到不同的bin,即假阳性结果 (false positive, FP)
  3. 假如它们属不同的基因组,被分到同一个bin,即假阴性结果 (false negative, FN)
  4. 假如它们属不同的基因组,被分到不同的bin,即真阴性结果 (true negative, TN)

利用上述四种结果,首先可产生两种较为简单直接的评价方法:

  • 完整度,
  • 精确度,

当假阴性较低,同时真阳性较高时,完整度越高;当假阳性较低,同时真阳性较高时,精确度越高。

所以完整度是对假阴性结果的控制,而精确度是对假阳性结果的控制。

在完整度和精确度的基础上,还有F1-score用来综合两种指数。

此外,还可用更复杂的调整兰德系数Adjusted Rand Index (ARI)来评估聚类模型的性能。

几点看法

  1. 分箱效果完全依赖于之前的拼接组装,组装的效果依赖于样品群落结构的复杂度,以及测序深度。目前多数组装软件的算法基于kmers的De Bruijn图,通常长kmer参数对于高丰度物种的基因组组装有利,而短kmer参数对于低丰度物种的基因组组装有利。

  2. 当群落结构较为简单,特别是物种丰富度 (多样性) 低,优势物种丰度高时,通过宏基因组测序和分箱操作,拿到优势物种的完整基因组的可能性是较高的。

  3. 结构简单的群落结果,如果存在多个优势物种,且它们之间没有明显基因组特征差异时,正确分箱的可能性会被显著拉低。

  4. 而在群落结构较为复杂时,分箱的结果显然不能等同于一个物种/种群的基因组。或许用泛基因组来定义更合适。

  5. 对于模拟数据,或者人工重组菌群数据(CAMI),分箱结果的评价是有意义的。但对于微生物群落中仍然未知的多数物种,分箱的效果如何评价?这或许不仅仅是一个算法设计的问题。

参考文献

  1. Sczyrba et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nature Methods. 2017 14(11):1063-1071. doi: 10.1038/nmeth.4458.
  2. Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017 35(9):833-845. doi: 10.1038/nbt.3935.
  3. Yue et al. Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets. BMC Bioinformatics. 2020 21:334. doi: 10.1186/s12859-020-03667-3.