您的位置:首页 > 运维架构 > Linux

(有参考基因组)植物转录组分析之一数据处理

2016-07-03 20:30 393 查看
1,拿到测序结果,是fastq.gz格式的压缩文件,(批量)解压得到  (可以不用解压)

Sample_1R_20160524_GTCCGC_L001_R1.fastq   Sample_1R_20160524_GTCCGC_L001_R2.fastq


注:该文件是双向测序所得的结果,所以有1,2之分

2,拿到原始文件后我们需要对测序质量进行一个评估 ,使用软件为FastQC 

nohup perl /home/lixiangyong/software/FastQC/fastqc -o qc --noextract -f fastq  Sample_1R_20160612_GTCCGC_L001_R1.fastq Sample_1R_20160612_GTCCGC_L001_R2.fastq
-o 选择一个输出的文件夹(我选的是qc,注意,该程序不会自己创建文件夹)

--noextract 输出的结果是.zip文件,默认自动解压缩,命令里加上--noextract则不解压缩

简便点可以这样(fastqc 可以处理gz压缩文件)

fadtqc *.R1.fastq.gz   *R2.fastq.gz

检测完毕后会得到.html文件,里面有关于这个测序结果的之来年个报告(那个压缩包里面就是.html里面的图片,没啥用)

根据这个结果,我们会发现以下问题,针对这些问题,需要对序列进行处理。

3,清理reads,分为好几步  

清理的原则是

1含有过多non-ATCG碱基N的reads  

2测序质量较低的碱基数占的比例过高的reads  (例如序列前几个位点)

3含有Primer/Adaptor(接头)的reads 

nohup perl /home/Software/NGSQCToolkit_v2.3.3/QC/IlluQC_PRLL.pl -pe /home/data/RNA2016bak/Sample_1R_20160612_GTCCGC_L001_R1.fastq Sample_ye_20160612_GTCCGC_L001_R2.fastq 2 5 -c 4 -l 70 -s 20 -o Filename/ &
  使用软件为
 NGSQCToolkit_v2.3.3    中的 IlluQC_PRLL.pl


 然后是参数,可以--help查看具体的规则

5       根据测序及其,1.8版本以后的都选5
-c 8  选用的cpu多点,相对快一些
-l 70  -s 20    去除了数据中碱基质量低于20(q20)的为低质量碱基; ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads
-o 选着输出的文件夹


3.2 对reads进行trim,剪裁,

根据前面FastQC的结果,我去掉了5‘端15个碱基,因为我们发现在序列的前15个bp 位点ATCG的比例比那话较大,表明这部分数据不可靠,理论上每个位点ATCG出现的概率是一定的,同时去除了长度小于25的reads(默认20)

工具 

TrimmingReads.pl


nohup perl /home/lixiangyong/software/NGSQCToolkit_v2.3.3/Trimming/TrimmingReads.pl -i Sample_gen_20160524_GTGAAA_L001_R1.fastq_filtered_trm  -l 15 -n 25  &

3.3 去掉接头序列

此处使用的软件是FastX

nohup /home/software/FastX/fastx_clipper -a ./a.txt G -l 25 -d 0 -Q 33 -i ../hua_R2.fastq -o trimmed-hua-R2.fastq &

其中 a.txt 里面放的是我们的接头序列,因为我们去掉的接头序列不止一个,如5‘3’的,为了保证数据准确他的样本的接头也一快放在里面去掉

也可以像帖子一样
http://blog.sciencenet.cn/blog-1509670-914439.html fastx_clipper -a AGATCGGAAGAGCACACG -l 25 -d 0 -Q 33 -i SRR306394_1.fastq -o SRR306394_1_trimmed.fastq

本文参考
http://www.360doc.com/content/14/0106/00/14641369_342933351.shtml
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息