关于宏基因组分析中的分箱

Published at 2021-05-08 15:45

Author：zhixy

分箱的定义

宏基因组数据在短序列reads拼接组装成长的重叠群contigs后，如仅仅在于挖掘其中的功能基因，宏基因组完全可被视为普通的基因组数据，进行后续基因组注释分析。

然而宏基因组学的主要目的是分析微生物群落的分类组成，开发未知微生物，恢复特殊微生物的部分核心或全基因组，揭示未知微生物如何参与环境中微生物群落的代谢。因此，就需要将重叠群按照他们本来所属的物种/种群进行分组。

这种分组，或聚类，即为分箱，英文Binning。

分箱的方法

分箱的方法分为两类：

依赖分类信息的分箱 (taxonomic-dependent binning)，又称taxonomy binning
不依赖分类信息的分箱 (taxonomic-independent binning)，又称genome binning

Taxonomy binning是一种有监督的方法，即将宏基因组序列数据通过比对的方法 (blast, bowtie, bwa, minimap等)，匹配到一个基因组数据库中，进而通过参考序列的分类信息对宏基因组序列进行分箱。这种策略受到数据库完整性的限制，特别是所要研究的宏基因组序列来自于完全未知的微生物时。

Genome binning是一种无监督的机器学习方法，通常根据序列的特征，序列间的关联模式，不需要参考数据库。根据分箱所使用的序列特征，Genome binning又可分为三大类：基于序列组成性特征的，基于丰度分布差异的和前两种混合的。

基于序列组成性特征的方法，假定源自不同基因组的序列 (contigs) 具有相似的序列特征，如GC含量，核苷酸频率(kmers频率，特别是四联核苷酸频率)，关键的单拷贝基因等。

基于丰度分布差异的方法，认为源自同一基因组的序列 (contigs)，在同一样本中应具有一致的丰度，而在不同的样本之间，它们又应该具有相似的丰度分布。

混合策略时将这两种方法结合在一起，一定程度上提高了分箱的准确性。但尽管如此，面对更为复杂微生物群落，这些方法仍然是力不从心。其中最大的难题是：微生物群落中大量存在那些较近源的物种，它们在基因组序列上较相似，且丰度分布也可能较为相似。

分箱的工具

近年来为解决Genome binning的问题，研究者开发了很多软件方法。例如：

还有一些整合工具，如：

分箱效果的评价

分箱类似一个解谜过程。对某一对重叠群contigs来说，它们的分箱结果，只有4种情况：

假如它们属同一基因组，被分到同一个bin，即真阳性结果 (true positive, TP)
假如它们属同一基因组，被分到不同的bin，即假阳性结果 (false positive, FP)
假如它们属不同的基因组，被分到同一个bin，即假阴性结果 (false negative, FN)
假如它们属不同的基因组，被分到不同的bin，即真阴性结果 (true negative, TN)

利用上述四种结果，首先可产生两种较为简单直接的评价方法：

完整度， $completeness=\frac{TP}{TP+FN}$
精确度， $precision=\frac{TP}{TP+FP}$

当假阴性较低，同时真阳性较高时，完整度越高；当假阳性较低，同时真阳性较高时，精确度越高。

所以完整度是对假阴性结果的控制，而精确度是对假阳性结果的控制。

在完整度和精确度的基础上，还有F1-score用来综合两种指数。

$F1=2\times\frac{precision{\times}completeness}{precision+completeness}$

此外，还可用更复杂的调整兰德系数Adjusted Rand Index (ARI)来评估聚类模型的性能。

几点看法

分箱效果完全依赖于之前的拼接组装，组装的效果依赖于样品群落结构的复杂度，以及测序深度。目前多数组装软件的算法基于kmers的De Bruijn图，通常长kmer参数对于高丰度物种的基因组组装有利，而短kmer参数对于低丰度物种的基因组组装有利。
当群落结构较为简单，特别是物种丰富度 (多样性) 低，优势物种丰度高时，通过宏基因组测序和分箱操作，拿到优势物种的完整基因组的可能性是较高的。
结构简单的群落结果，如果存在多个优势物种，且它们之间没有明显基因组特征差异时，正确分箱的可能性会被显著拉低。
而在群落结构较为复杂时，分箱的结果显然不能等同于一个物种/种群的基因组。或许用泛基因组来定义更合适。
对于模拟数据，或者人工重组菌群数据(CAMI)，分箱结果的评价是有意义的。但对于微生物群落中仍然未知的多数物种，分箱的效果如何评价？这或许不仅仅是一个算法设计的问题。

参考文献

Sczyrba et al. Critical Assessment of Metagenome Interpretation-a benchmark of metagenomics software. Nature Methods. 2017 14(11):1063-1071. doi: 10.1038/nmeth.4458.
Quince et al. Shotgun metagenomics, from sampling to analysis. Nature Biotechnology. 2017 35(9):833-845. doi: 10.1038/nbt.3935.
Yue et al. Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets. BMC Bioinformatics. 2020 21:334. doi: 10.1186/s12859-020-03667-3.

Columns

Python ICNP Others R Linux Phylogenetics Phylogenomics Genomics Reference Evolution Bioinformatics Protocols Metagenomics Statistics MinIO—分布式对象存储服务器

A Lab of Microbial Systematics and Evolution