简介
Velvet 是一种常用的,基于de Bruijn图算法的基因组短序列拼接软件。官方参考文档
推荐安装方式:
[user:server ~]# conda install -c bioconda velvet
使用velveth来准备数据
velveth接受输入的文件,产生一个hash表。生成两个文件:Sequences和Roadmaps,用法为:
(base) [user@server ~]# velveth velveth_output kmer -shortPaired -fastq fasta_R1.fq -shortPaired2 -fastq fasta_R2.fq
- velveth_output 为输出结果
- $kmer 设置Kmer的大小。该值3点要求:1.必须为奇数;2.必须小于或等于编译velvet时设置的MAXKMERLENGTH值;3.必须小于reads的长度。
- -shortPaired -fastq 指定单末端fastq文件1
- -shortPaired2 -fastq 指定单末端fastq文件2
使用velvetg来进行基因组组装
velvetg是vlevet软件的进行de Bruijin图构建和操作的核心。用法为:
(base) [user@server ~]# velvetg velveth_output -exp_cov auto -cov_cutoff auto -clean yes -scaffolding yes
- velveth_output velveth的输出结果
- -exp_cov 期望的kmer覆盖度。如果设置了auto,则该值为所有nodes的kmer覆盖度值的median值; 该值设置为auto,则同时自动设置-cov_cutoff为auto。如果对杂合基因组进行组装时,设置auto,却很难进行预测,组装结果肯定不好。 auto适用于标准的基因组测序。
- -clean default: no 是否删除所有的不能用于重新计算的中间文件
- -scaffolding defautl: yes 是否要使用paired end信息进行scaffolds组装
VelvetOptimiser搜索提供的kmer范围以获得最优,估计预期覆盖范围,然后搜索最佳覆盖截止。主要参数:
- -s|hashs=i The starting (lower) hash value (default '19').
- -e|hashe=i The end (higher) hash value (default '191').
- -x|step=i The step in hash search.. min 2, no odd numbers (default '2').
- -f|velvethfiles=s The file section of the velveth command line. (default '0').
- -a|amosfile! Turn on velvet's read tracking and amos file output. (default '0').
- -o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '').
- -t|threads=i The maximum number of simulataneous velvet instances to run. (default '128').
- -g|genomesize=f The approximate size of the genome to be assembled in megabases. (Only used in memory use estimation.)
(base) [user@server ~]# VelvetOptimiser.pl -s 51 -e 91 -f '-shortPaired -fastq strain_trim1.fastq -shortPaired2 -fastq strain_trim2.fastq' -t 60
VelvetOptimiser从51至91间隔2,搜索最优的kmer值,并完成拼接。strain_trim1.fastq和strain_trim2.fastq分别为双末端测序结果,fastq格式。
参考文献
Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008 May;18(5):821-9. DOI:10.1101/gr.074492.107