Published at 2021-03-28 21:03
Author:zhanpc
View:1020
SRA ( Sequence Read Archive)是NCBI旗下的数据库之一,其作用是存储包括Illumina、454、IonTorrent、Complete Genomic、PacBio和Oxford Nanpores在内的二/三代测序技术所产生的原始序列数据。这些数据可以提交给GeneBank(美国)、EMBL(欧洲)和DDBJ(日本)这三大核酸数据库之一,并会在三者间共享,这三大核算数据库组成的联合核苷酸数据库被称为INSDC(国际核苷序列联合数据库)。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。
SRA的官方网址为:https://www.ncbi.nlm.nih.gov/sra/
根据SRA数据产生的特点,将SRA数据分为四类:
1. Studies-- 研究课题
2. Experiments-- 实验设计
3. Runs-- 测序结果集
4. Samples-- 样品信息
SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.
1. Studies是就实验目标而言的,一个study 可能包含多个Experiment。
2. Experiments包含了Sample、DNA source、测序平台、数据处理等信息。
3. 一个Experiment可能包含一个或多个runs。
4. Runs 表示测序仪运行所产生的reads。
SRA数据库用不同的前缀加以区分:
1. SRP,ERP,DRP表示Studies;
2. SRX,ERX,DRX 表示 Experiments;
3. SRS,ERS,DRS 表示 Samples;
4. SRR ,ERR,DRR表示 Runs;
直接在搜索框输入sra id号就可以了
以BALB / c小鼠淋巴结组织的RNA-Seq记录为例:
一般我们使用NCBI提供的SRA Toolkit来下载数据,下面是SRA Toolkit用法
cd 安装目录(一直到可执行程序bin下)
直接下载安装包(在网页上下载),或者通过ftp协议下载(命令如下,比较慢)。
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
tar -zxvf sratoolkit.2.11.0-centos_linux64.tar.gz
以SRR2172038为例子,下载并转为fastq格式,和sam格式(常用工具)
#进入可执行程序目录下
cd sratoolkit.2.11.0-centos_linux64/bin
#下载 SRR2172038的数据,格式为sra格式. 下载完之后会出现SRR2172038.sra的数据
./prefetch SRR2172038
#利用 fasterq-dump 将sra格式转为fastq格式
./fasterq-dump SRR2172038.sra
#或者利用sam-dump转成sam格式
./sam-dump SRR2172038.sra
# prefetch.py
import os
# SRR14067479-SRR14067488
for i in range(79,89):
id = 'SRR140674'str(i)
print("正在下载SRR140674"id)
os.system('prefetch -p 'id)
print("完成下载SRR140674"id)
python prefetch.py # 直接运行
进入 all runs 详情页:
使用SRA TooKit 下载,(上面下载的txt文档为SraAccList.txt):
prefetch --option-file SraAccList.txt
这里只做简单演示。可以根据 模块的 --help参数,查看具体的参数进行使用。
可以将下载的SRA TooKit 加入到环境变量中,这样就可以在全局使用SRA TooKit
具体详情的信息,NCBI官网提供了相关的电子书籍
网址:https://www.ncbi.nlm.nih.gov/books/NBK56551/