通常来说,某一个物种体内所有细胞里含有的DNA都应该是一模一样的,只是因为每一种细胞里所表达的RNA之间存在差异,才使这些细胞有所区别。诸如“为什么肿瘤细胞与正常细胞会不一样?”这样的重要问题都可以通过对这些不同细胞里的RNA进行研究来解决,比如转录组学(transcriptome)研究就是一个很好的方法,而这就需要用到RNA测序技术。本期的《自然 方法》(Nature Methods)杂志隆重推出了国际RNA测序基因组注释评价项目协会(RNA-seq Genome Annotation Assessment Project, RGASP)发表的两篇文章,这两篇文章向我们介绍了RNA测序领域的现状。RNA测序(RNA-seq)是最近兴起的一种基因表达研究技术,不仅可以对基因表达的情况进行整理、归类(cataloging),也可以对基因表达情况进行比较。国际RNA测序基因组注释评价项目协会(international RGASP consortium)最近发表的两篇论文报道了一场竞争程度相当激烈的、大规模的RNA测序热潮,各国的科学家们都在寻求最佳的RNA测序分析算法,而且结果也是出人意料的丰富多样。
我们往往喜欢将某一个物种的基因组比喻成该物种的“生命秘籍(book of life)”。
可为了解决基因表达问题,我们还需要另外一本秘籍。
那就是转录组,我们不妨将之比作“生命杂志(newsstand of life)”,如下图所示。
转录组重建工作,就好像是把被碎纸机粉碎的杂志又一本本地重新拼接起来。
有很多杂志(即RNA)每一期都“印刷”了很多本,其中有一些可能还有存货,还有一些留在报刊亭里,可是有一些却早就被“卖光”了。在过去,经销商们只会关注销量最好的杂志,而这种杂志每一本都非常贵,所以你可能也就买得起几本而已(喻指RNA研究技术和相关产品非常少,而且价格昂贵,科研人员只能对比较重要、热门的几种RNA进行研究)。可是现在,由于测序技术,以及相关技术的飞速发展,你可以把报刊亭里的所有杂志全都买回去,而且价格还不贵。唯一的区别就是经销商卖给你的并不是一本本的杂志,而是先把所有的杂志全都放进碎纸机里,然后把一大堆碎纸条卖给你。幸运的是,在这个虚拟的世界里,还有那么一大帮热心的社会改良家来帮忙整理碎纸条(tape-wielding dogooders,这帮人就是我们现实生活中的计算机程序开发人员),帮助我们将碎纸条还原成一本本的杂志。还有一群像RGASP这样的统计狂热分子也跑来凑热闹,他们组织了一场比赛,看看哪些人整理碎纸条的效率最高,准确率最高,能够又快又好地还原出杂志的本来面目。这个整理、拼接碎纸条的工作就是“转录子重建(transcript reconstruction)”工作,这也是Steijger等人的文章里最关注的工作。而转录子重建工作的重点内容之一就是将RNA测序得到的片段信息与该RNA来源细胞的基因组对应起来,这就是Engström等人的文章里最关注的工作。
老实说,这场比试的结果有点让人失望。尽管从事这项工作的工作人员数量很多,重建工作的准确率(通过好几种方法和多种测序指标评价)却远远不及100%。以我们人类基因组为例,目前还没有一种转录子重建方法的准确率(以平均敏感度和准确性评价)能够达到60%。在线虫和果蝇重建工作中的准确率会稍高一些,但是这两种生物的基因组要比我们人类的基因组小得多,也要简单得多。而且这3个物种都是迄今为止被研究得最充分、最深入的3个物种。有很多物种只是最近才完成基因组测序工作,并没有太多时间完善这些物种的基因组序列,因此,对这些物种而言,它们的转录子重建工作会更加困难,准确性会更低。
从理论上来说,RNA测序其实是一个非常简单的过程,只需要分离、得到RNA样本,然后用高通量测序仪对这些RNA样本进行测序,最后拼接出RNA序列就行了。那么问题究竟出在哪里呢?主要存在以下几个方面的问题:
1. 我们获得的RNA样本与我们拿来最比较的基因组可能不是同一个来源的。这一点在人类基因组研究工作中尤为突出,因为人类参照基因组就是来自好几个人的基因组序列;
2. RNA样本的制备过程可能有问题,其中包含了未经充分处理的RNA,或者其它转录子的噪音。而且测序的深度越深,这种问题就表现得越明显,这也刚好解释了为什么测序深度比较深的时候转录子重建工作的准确率会下降;
3. 测序技术本身的问题。绝大部分测序技术都会使用到PCR反应,而我们都知道,PCR反应对GC含量高的序列比较“排斥”,所以这个测序过程本身就会自然而然地“偏向”GC含量低的序列。
分辨出哪些RNA序列是真正的序列,哪些只是噪音信号是一个技术大难题,这可能也是导致众多算法所得出的结论千差万别的主要原因。如果在算法中采用了根据之前的数据建立的基因结构模型(model of gene structure),比如Augustus、mGene和Transomics(http://linux5.softberry.com/cgi-bin/berry/programs/Transomics/)等算法的表现要略好于没有使用这些模型的算法,这是因为如果使用了基因结构模型,他们还能够大概知道这些基因是个什么样子。所以要开发出更好的算法,首先就需要建立更好的基因结构模型。不过这需要在技术上有更大的发展。更低的差错率能够提高比对工作的准确性,而获得更长的测序结果,比如使用太平洋生物科技公司推出的测序仪(Pacific Bioscience),则可以让转录子重建工作更容易,甚至不需要进行转录子重建。
虽然RNA测序分析工作的难度非常大,但是我们可以肯定,这项工作无论是对于分子生物学,还是计算机科学都有非常大的促进和推动作用。实际上,本期杂志刊出的这两篇文章都已经有点过时了。基因组学与生物信息学这两大领域都是瞬息万变的新兴科研领域,也许我们今天刚刚开展的工作,写下或者看过的论文,到了明天就被淘汰了。对于协会等组织开展的涉及大量数据的工作这一点表现得尤为突出。眼光挑剔的读者们看完了整篇文章之后,还是不知道在他们的实际科研工作中究竟应该使用哪种算法时可能就会指出,这些研究的意义究竟何在?
不过这类研究工作至少能够起到以下这3点作用:
1. 这些工作提供了一份宝贵的历史材料,让后人可以了解RNA测序等工作始于何时;
2. 为目前的工作提供了一个宝贵的参照系,能够对最新的技术和进展进行检验;
3. 促进了某个项目、协会和组织的建立,推动整个研究领域向前发展。
最后这第3点尤为重要。如果你有机会接触、见证,甚至是亲自参加一次像RGASP,或者是Assemblathon(http://assemblathon.org/)这样的工作,你就会被这群科学家们的创造力、诚实和大度所折服。这些项目并没有获得太多特定的资助,他们所使用的数据可能也不会与某个特定的科学问题非常匹配,也常常会有“如果我们有这些数据该多好”之类的感慨,不过他们总是会竭尽所能地做到最好,这不是因为有人要求他们这么做,只是因为他们自己要求自己这么做。最终的结果可能不会让圈内人(甚至是圈外人)满意。Le mieux est l‘ennemi du bien(至真者,真之敌;至善者,善之敌;至美者,美之敌)这句老话同样适用于基因组学研究工作。
参考原文:
Ian Korf. Genomics: the state of the art in RNA-seq analysis. Nature Methods, 26 November 2013; doi:10.1038/nmeth.2735
Tamara Steijger, Josep F Abril, Pär G Engström, Felix Kokocinski, Tim J Hubbard, Roderic Guigó, Jennifer Harrow & Paul Bertone. Assessment of transcript reconstruction methods for RNA-seq. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2714
原文来自:http://page.renren.com/601484932/channel-noteshow-920050838