不要急于完成 RNA 测序 (RNA-seq) 数据处理流程的质量控制步骤。它实际上是您正在运行的任何流程的数据探索部分 - 您稍后会感谢自己花时间正确而彻底地执行。在 BioStrand,质量控制 (QC) 是 RNA 表达分析和变异调用流程的重要组成部分。RNA-seq 数据可能出错的事情很多,因此避免一些奇怪的化学或生物学问题的最佳机会是在质量控制步骤上付出额外的努力。
在这篇文章中,我将简要回顾一些常见的 QC 步骤和相关工具,以及一些我希望在现成的教程中提到的技巧和窍门!我将特别关注 RNA 测序数据,因为与全基因组测序数据相比,它涉及几个额外的复杂程度。
粗略地说,QC 由两个主 比利时手机数据 要部分组成:
原始读取的质量控制
对齐读取的质量控制 - 此步骤是必要的,因为在将读取与参考基因组/转录组对齐之前,某些问题是不可见的。
原始读数的质量控制
这部分与全基因组测序数据基本相同。您至少需要检查以下指标:
Phred 质量分数(每个碱基和每个序列的平均值)
适配器内容
重复率
GC 含量
用于收集以上所有内容(以及更多内容!)的规范工具是FastQC。
当提到根据某些 QC 指标表现不佳的读取时,永恒的问题是“修剪还是不修剪?”和“过滤还是不过滤?”不幸的是,没有也不可能有“一刀切”的答案。通常,您的计算工具无法提供帮助,生物学家的见解就变得不可或缺。