微生物基因组去冗余——dRep
Published on 2023-05-29 11:18
Author: liujr
3882 views
1.简介
dRep 利用 MASH 和 FastANI 进行基因组距离和平均核苷酸一致性计算,减少成对基因组比较的计算时间。dRep可以对基因组进行聚类,并且选出每个基因组簇的代表基因组,快速对基因组去冗余,留下高质量基因组进行后续分析。
2.安装
dRep 可以通过pip或conda进行安装:
pip install drep
$ git clone https://github.com/MrOlm/drep.git
$ cd drep
$ pip install .
conda config --add channels bioconda; conda install drep
更多安装信息详见
https://drep.readthedocs.io/en/latest/installation.html
3.使用
3.1 快速使用
默认参数计算,指定去冗余功能(dereplicate),然后是输出目录 (out_directory) 和 通配符(*) 指定目录下的多个fasta输入文件
[user@server ~] # dRep dereplicate out_directory -g path/to/genomes/*.fasta
3.2 常用参数设置
-pa MASH 聚类阈值 (default: 0.9)
-sa FastANI 聚类阈值 (default:1)
--genomeInfo 可从外部导入checkm 的结果,只需要包含完整度污染度和异质性信息
我们可以根据实际基因组情况来设置参数,获得更好的去冗余结果
3.3 输出结果
输出结果目录中:
data/ 保存了dRep 每一步得到的结果,包括
- checkM
- Clustering_files
- fastANI_files
- MASH_files
- prodigal
data_tables/ 为基因组基本信息统计表,包括基因组的完整度、污染度、异质性、长度等信息。
dereplicated_genomes/ 为去冗余后的基因组,是dRep的主要计算结果
figures/ 中有图片,包括:
- 初级聚类图 Primary_clustering_dendrogram.pdf
- 次级聚类图 Secondary_clustering_dendrograms.pdf
- 簇得分 Cluster_scoring.pdf
- 基因组比对的统计 Clustering_scatterplots.pdf
- 每个重复集的“最佳”基因组,以及几个快速的整体统计数据 Winning_genomes.pdf
4.参考文献
Olm, M. R., Brown, C. T., Brooks, B. & Banfield, J. F. dRep: a tool for fast and accurate genomic comparisons that enables improved genome recovery from metagenomes through de-replication. The ISME Journal 11, 2864-2868, doi:10.1038/ismej.2017.126 (2017).