多序列比对和对齐结果的修剪、比较

Published at 2020-07-31 11:01

Author:licj

View:1175


多序列比对

在系统发育分析中,确定同源基因的同源位点是整个分析流程的第一步,也是较为关键的一步。

我们需要借助一些特定的算法,比较来自不同物种的序列信息,推断出序列的位点间的同源性。比对的效果直接影响后续分析,所以我们可能需要对多个不同算法的比对结果进行修剪(以去除比对效果校差的位点)、进而进行综合评估,选出一个最优的结果。

比对和修剪软件的基本用法

比对软件与方法

Muscle

muscle 的使用比较简单。输入和输出的文件默认都是FASTA格式。

基本用法:

(base) [user@server ~]# muscle -in inputfile -out outputfile

不在屏幕上输出程序的进程信息:

(base) [user@server ~]# muscle -in inputfile -out outputfile -quiet

选择最大的迭代次数(默认是16次):

(base) [user@server ~]# muscle -in inputfile -out outputfile -maxiters num

MAFFT

mafft 的输入和输出的文件默认都是FASTA格式。

基本用法:

(base) [user@server ~]# mafft --auto  inputfile > outputfile # --auto 自动设定其它参数

不在屏幕上输出程序的进程:

(base) [user@server ~]# mafft --auto  inputfile > outputfile --quiet

选择最大的迭代次数(默认是0次):

(base) [user@server ~]# mafft --maxiterate num inputfile > outputfile

选择计算核心数 :

(base) [user@server ~]# mafft  -t num inputfile > outputfile

ClustalO

基本用法:

(base) [user@server ~]# clustalo -i inputfile -o outputfile
(base) [user@server ~]# clustalo -i inputfile -o outputfile --auto # --auto 自动设定其它参数

Prank

输入和输出的文件默认都是FASTA格式。基本用法:

(base) [user@server ~]# prank -d=inputfile -o=outputfile -F

程序会根据进化信息来进行推断出哪些位点可以使用插入碱基的方法来替代引入gap。 -F:程序检测出的插入位点是可以信任的,并且作为插入的位点不参与后续的对齐过程。如果省略-F,该算法不会错误地补偿插入间隔,但也不能保证插入的位点不参与后续的对齐。

结果会以-o指定的名字后加上.best.fas的形式输出。

Probcons

输入和输出的文件默认都是FASTA格式。基本用法:

(base) [user@server ~]# probcons inputfile > outputfile

比对结果的修剪与比较

比对结果的修剪

trimAl 可用于对比对结果的修剪,去除对齐效果不佳的位点,同时还可以用于比较不同比对结果的优劣,选出最优结果。

一个多序列比对结果可以使用--automated1参数,基于序列的特征自动寻找合适的方法来修剪对齐位点。

(base) [user@server ~]# trimal -in inputfile -out outputfile -automated1

trimAl 还可以跟据用户设定的参数值来去除对齐效果差的序列。此时你需要设置两个参数。

(base) [user@server ~]# trimal -in inputfile -out outputfile -automated1 -resoverlap 0.6 -seqoverlap 0.8

-resoverlap的值是指每一位点(每一列)的重叠分数(取值0-1)。计算残基重叠分数时,只考虑该位点是残基、gap、还是不确定是残基或gap,这样计算每个对齐位点之间的差异比。 -seqoverlap的值表示高于-resoverlap值的位点占整条序列长度的百分比(取值0-1)。不满足条件的序列会被删除。

比对结果的比较

trimAl 还可以用-compareset参数来实现不同的比对结果的比较。

(base) [user@server ~]# trimal -compareset fileset -out optimal_alignment

其中fileset是一个保存了需要比较的各比对文件名称的文本文件。

(base) [user@server ~]# cat fileset
muscle.fasta
mafft.fasta
clustalo.fasta
prank.fasta
probcons.fasta