@zhoujj2013
2017-09-15T02:08:52.000000Z
字数 820
阅读 968
note
大多数研究者所在的实验室没有条件进行基因测序的,有很多研究所会有测序仪,但是基本上是空置的。大部分研究者是让测序公司代理测序的。公司是以盈利为目的的,所以数据会出现各种各样的问题。
所以要做到以下几点:
对数据进行fastqc分析,对测序数据有基本的了解。在脑海里要设定以下条件:
不同类型的数据对数据量的要求不一样,应该根据需求判断数据是否能用于后续分析。
此部分的分析软件:
trimmatic
fastx-tools
很多生物信息分析员看到质量报告符合要求,就认为这个数据后续分析应该是没问题,但是质量控制是贯穿数据分析整个过程的。如何从不对结果中分析数据的质量?
序列比对统计,对不正常数据要有敏感性; total mapped read, corcodant mappping, paired mapped reads
注意:如何提高对数据的敏感性?唯一的方法是多分析数据,对看已经发表的数据,多去翻查以下ENCODE,ROADMAP PROJECT的数据。
通过可视化判断数据的问题;把比对数据导入到IGV对数据比对质量进行分析。
直接查看数据比对结果,选中一些区域进行检查;
samtools可以用于查看数据比对结果。
samtools view -i XX.bam | less -S
Picard中Markduplicates对比对结果中的重复率进行计算。通常重复率过高表明这个数据实验过程出现问题。
不同的数据分析,这部分的分析不一样。
这方法写得比较简单,只做参考。