基因组序列拼接——velvet

Published at 2020-05-03 11:09

Author:zhixy

View:1083


简介

Velvet 是一种常用的,基于de Bruijn图算法的基因组短序列拼接软件。官方参考文档

推荐安装方式:

[user:server ~]# conda install -c bioconda velvet

使用velveth来准备数据

velveth接受输入的文件,产生一个hash表。生成两个文件:Sequences和Roadmaps,用法为:

(base) [user@server ~]# velveth velveth_output kmer -shortPaired -fastq fasta_R1.fq -shortPaired2 -fastq fasta_R2.fq
  • velveth_output 为输出结果
  • $kmer 设置Kmer的大小。该值3点要求:1.必须为奇数;2.必须小于或等于编译velvet时设置的MAXKMERLENGTH值;3.必须小于reads的长度。
  • -shortPaired -fastq 指定单末端fastq文件1
  • -shortPaired2 -fastq 指定单末端fastq文件2

使用velvetg来进行基因组组装

velvetg是vlevet软件的进行de Bruijin图构建和操作的核心。用法为:

(base) [user@server ~]# velvetg velveth_output -exp_cov auto -cov_cutoff auto -clean yes -scaffolding yes
  • velveth_output velveth的输出结果
  • -exp_cov 期望的kmer覆盖度。如果设置了auto,则该值为所有nodes的kmer覆盖度值的median值; 该值设置为auto,则同时自动设置-cov_cutoff为auto。如果对杂合基因组进行组装时,设置auto,却很难进行预测,组装结果肯定不好。 auto适用于标准的基因组测序。
  • -clean default: no 是否删除所有的不能用于重新计算的中间文件
  • -scaffolding defautl: yes 是否要使用paired end信息进行scaffolds组装

kmer的选择——VelvetOptimiser

VelvetOptimiser搜索提供的kmer范围以获得最优,估计预期覆盖范围,然后搜索最佳覆盖截止。主要参数:

  • -s|hashs=i The starting (lower) hash value (default '19').
  • -e|hashe=i The end (higher) hash value (default '191').
  • -x|step=i The step in hash search.. min 2, no odd numbers (default '2').
  • -f|velvethfiles=s The file section of the velveth command line. (default '0').
  • -a|amosfile! Turn on velvet's read tracking and amos file output. (default '0').
  • -o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '').
  • -t|threads=i The maximum number of simulataneous velvet instances to run. (default '128').
  • -g|genomesize=f The approximate size of the genome to be assembled in megabases. (Only used in memory use estimation.)
(base) [user@server ~]# VelvetOptimiser.pl -s 51 -e 91 -f '-shortPaired -fastq strain_trim1.fastq -shortPaired2 -fastq strain_trim2.fastq' -t 60

VelvetOptimiser从51至91间隔2,搜索最优的kmer值,并完成拼接。strain_trim1.fastq和strain_trim2.fastq分别为双末端测序结果,fastq格式。

参考文献

Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008 May;18(5):821-9. DOI:10.1101/gr.074492.107