楼主 | 收藏 | 举报 2018-07-23 00:00 浏览:96 回复:9

RNA-seq数据分析方法

最近读到一篇Nature Method上一篇关于RNA-seq数据分析的文章，觉得很不错，杜宇刚开始多转录组分析的同学很有帮助，里面还介绍了一些关于可变剪接的问题。

下面列上列上的基本信息：

Computational methods for transcriptome annotation and quantification using RNA-seq
Manuel Garber, Manfred G Grabherr, Mitchell Guttman & Cole Trapnell
High-throughput RNA sequencing (RNA-seq) promises a comprehensive picture of the transcriptome, allowing for the complete annotation and quantification of all genes and their isoforms across samples. Realizing this promise requires increasingly complex computational methods. These computational challenges fall into three main categories: (i) read mapping, (ii) transcriptome reconstruction and (iii) expression quantification. Here we explain the major conceptual and practical challenges, and the general classes of solutions for each category. Finally, we highlight the interdependence between these categories and discuss the benefits for different biological applications.
全文链接：http://www.nature.com/nmeth/journal/v8/n6/full/nmeth.1613.html

下面是在科学网上找到的一篇对该文章的点评和分析，附上全文，供大家参考阅读。

高通量RNA测序（RNA-seq）有望描绘出转录组的整体图像，实现样本内所有基因及其亚型的完整注释和定量。随着测序价格的不断下降，以及个人化测序仪的上市，更多的实验室有机会尝试这种新技术。

然而，测序之后的数据分析才是真正的挑战。在RNA-seq之后，还需要一些强大的计算工具，才能绘制出完整的转录组图谱。在这一期的《自然—方法学》（Nature Methods）上，来自MIT和哈佛Broad研究院的研究人员发表了一篇综述，介绍了转录组注释和定量的计算方法。

首先，他们介绍了一些方法，将读数与参考转录组或基因组直接比对。之后，他们讨论了鉴定表达基因和亚型的方法。最后，他们还介绍了一些方法，来预计基因和亚型的丰度，以及分析样品间的差异表达。

由于RNA-seq数据生成的不断改善，现有计算工具的发展有着很大差异。在某些领域，如读数定位，有多种算法存在，但在差异表达分析上，解决方案才刚刚出现。作者们强调了这些方法的核心原理和每种方法的关键差异，以及它们在RNA-seq分析上的应用。他们还讨论了这些不同的方法如何影响结果以及数据的阐释。

为了方便读者参考，他们还将现有的方法列成了一张表，注明了它们的原理和用途。另外，他们精选了一些有代表性的方法，应用在已经发表的RNA-seq数据组中。此数据组包含了5800万个末端配对的读数。

数据比对是RNA-seq分析中的一项基本任务，然而也面临着一些挑战，比如数据量大，读数很短（36-125 bp），错误率可观，且许多读数跨越外显子-外显子交界。对于RNA-seq的比对方法，作者将其分成“unspliced read aligners”和“spliced aligners” 两类，并分别介绍。

转录组重建也是个很困难的任务，因为基因表达差异很大，且读数可能来源于成熟的mRNA，也可能来源于未完全剪接的前体RNA，这样就很难鉴定成熟的转录本。当然，读数短也为分析带来了困难。目前的转录组重建方法主要有两类，一类是基因组指导的，另一类是不依赖于基因组的。作者比较了这两类方法，并具体介绍了每一类下面的几种方法。

至于转录组的图谱分析，DNA芯片一直是首选方法。在使用RNA-seq来估计基因表达时，需要将读数适当地标准化，才能提取出有意义的表达预测值。作者介绍了一些方法，来预计基因和亚型的丰度，以及分析样品间的差异表达。

作者还提到，随着测序技术的成熟，如读长不断增加，现有的计算工具需要发展，也能满足新的需求，同时新工具也会不断出现，满足新的应用。

打赏