您的位置:首页 > 运维架构 > Linux

NCBI sra数据下载软件安装

2016-01-14 14:30 721 查看
引用网址:
http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=prefetch
http://blog.csdn.net/likelet/article/details/8226368
http://liuwei441005.blog.163.com/blog/static/13570581120144935013905
1.SRA Toolkit 的安装
cd /opt/
wget ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz
tar -xzf sratoolkit.current-centos_linux64.tar.gz
mv sra.. sratoolkit
cd sratoolkot
#配置sra toolkit
./vdb-config -i



上下可以选择,按回车键选择指定项,当[x]时代表已选中
主要修改存储路径选择[Change] 回车
按TAB键选中【Goto】回车输入指定路径,然后保存退出。注意:所指定的路径大小必须大于100G,不然会出错。



按6键保存 ,按7键退出
下载命令 :./fastq-dump.2.5.6 SRR167669 -i 输出的为fasq格式
使用sratool下载速度比ftp 快但是没有asprea 快
2.aspre 的安装
安装包在scp root@192.168.8.151:/opt/aspera-connect-3.6.1.110647-linux-64.tar.gz .
passwd:123.bmk
tar -zxvf aspera-connect-3.6.1.110647-linux-64.tar.gz
sh aspera-connect-3.6.1.110647-linux-64.sh
安装好以后,会在HOME目录下新建一个叫.aspera的目录,有两个文件比较重要:
一个是ascp的可执行文件:
~/.aspera/connect/bin/ascp
另一个ascp的密钥文件:
~/.aspera/connect/etc/asperaweb_id_dsa.putty
建议将密钥备份到HOME目录下方便使用:
安装好以后,会在HOME目录下新建一个叫.aspera的目录,有两个文件比较重要:
一个是ascp的可执行文件:
~/.aspera/connect/bin/ascp
另一个ascp的密钥文件:
~/.aspera/connect/etc/asperaweb_id_dsa.putty
建议将密钥备份到HOME目录下方便使用:
$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/
或者是.putty结尾的文件(试下吧 哪个能下用哪个)
再把aspera-license复制到系统目录
$ sudo cp ~/.aspera/connect/etc/aspera-license /usr/local/bin/
再把ascp可执行文件的路径加入PATH变量中,或者将其拷贝到当前目录
或者是.putty结尾的文件(试下吧 哪个能下用哪个)
再把aspera-license复制到系统目录
~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/
再把ascp可执行文件的路径加入PATH变量中,或者将其拷贝到当前目录
export PAHT="/root/.aspera/connect/bin:$PATH
source /etc/profile
测试代码,注意最后有个点,代表下载到当前目录下:
ascp -i /your-path-to/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -QT -l 200m biomarker@ftp-trace.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR102/SRR1025665/SRR1025665.sra .
passwd:BMK.123.BMK
2、参考《Viewing and downloading tabular metadata with the SRA Run Selector》下载宏基因组数据对应的下载链接
打开这个网址:http://www.ncbi.nlm.nih.gov/Traces/study/ , 搜索SRA号
http://trace.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA192977



下载后得到的链接地址如下:



做些修改,把ftp://ftp-trace.ncbi.nlm.nih.gov部分都去掉,只剩下文件路径,如下:



3、开始下载:
ascp -i /your-path-to/.aspera/connect/etc/asperaweb_id_dsa.putty --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list SRR_Download_List.txt .
4、用SRA tools把SRA格式转换成fastq
下载tools https://www.ncbi.nlm.nih.gov/books/NBK158900/,linux版本,下载解压后可以直接使用,添加个环境变量即可。 命令: fastq-dump.2.3.5.2 -A SRR*.sra
ascp -i /your-path-to/.aspera/connect/etc/asperaweb_id_dsa.putty --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list SRR_Download_List.txt .
每次都输入密码太麻烦,可以在命令行或.profile中设置ASPERA_SCP_PASS这个环境变量:
export ASPERA_SCP_PASS=你的aspera密码
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息