Published at 2020-05-19 16:15
Author:zhixy
View:1596
fastp是一款较新的数据质控软件。它可以仅仅扫描FASTQ文件一次,就完成比FASTQC cutadapt Trimmomatic 这三个软件加起来的功能还多很多的功能,而且速度上比仅仅使用Trimmomatic一个软件还要快3倍左右。
fastp的特性:
推荐安装方式:
(base) [user@server ~]# conda install -c bioconda fastp
fastp的参数比较多,但常用的主要包括以下几个部分:
-i, --in1 read1 input file name (string)
-o, --out1 read1 output file name (string [=])
-I, --in2 read2 input file name (string [=])
-O, --out2 read2 output file name (string [=])
fastp默认启用了接头处理,但是可以使用-A
命令来关掉。fastp可以自动化地查找接头序列并进行剪裁,对于SE数据,还是可以-a
参数来定义接头,而对于PE数据则完全没有不需要,fastp基于PE数据的overlap分析可以更准确地查找接头,去得更干净,而且对于一些接头本身就有碱基不匹配情况处理得更好。
fastp可以对所有read在头部和尾部进行统一剪裁,比如151x2的PE测序中,最后一个循环通常质量是非常低的,需要剪裁掉。使用-f
和-t
分别指定read1的头部和尾部的剪裁,使用-F
和-T
分别指定read2的头部和尾部的剪裁。
fastp支持像Trimmomatic那样对滑动窗口中的碱基计算平均质量值,然后将不符合的滑窗直接剪裁掉。使用-5
参数开启在5’端,也就是read的开头的剪裁,使用-3
参数开启在3’端,也就是read的末尾的剪裁。使用-W
参数指定滑动窗大小,默认是4,使用-M
参数指定要求的平均质量值,默认是20,也就是Q20。
默认开启短序列过滤,默认值为15,使用-L
(--disable_length_filtering)禁止此默认选项。或使用-l
(--length_required)自定义最短序列。
fastp支持对PE数据的每一对read进行分析,查找它们的overlap区间,然后对于overlap区间中不一致的碱基,如果发现其中一个质量非常高,而另一个非常低,则可以将非常低质量的碱基改为相应的非常高质量值的碱基值。此选项默认关闭,可使用-c
(--correction)开启。
fastp可以对低质量序列,较多N的序列,该功能默认是启用的,但可以使用-Q
参数关闭。使用-q
参数来指定合格的phred质量值,比如-q 15
表示质量值大于等于Q15的即为合格,然后使用-u
参数来指定最多可以有多少百分比的质量不合格碱基。比如-q 15 -u 40
表示一个read最多只能有40%的碱基的质量值低于Q15,否则会被弃掉。使用-n
可以限定一个read中最多能有多少个N。
Chen S, Zhou Y, Chen Y, Gu J. fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics 2018, 34(17):i884–i890. DOI:10.1093/bioinformatics/bty560