1、图形化注释circRNA的外显子和内含子构成
图2 图形化注释circRNA的外显子和内含子构成
在软件左上角的circRNA中输入circRNA的编号或基因座位后,点击“图释”按钮即可显示该circRNA外显子和内含子构成(图2)。左上角显示的内容是该circRNA在circbase数据库中的信息,第一行是circRNA编号和亲本基因符号,第二行是circRNA的基因座位,第三行是亲本基因的编号,第四行是circRNA的序列长度。
图形显示的内容是注释circRNA得到的信息。顶部数据分别是circRNA结束和起始碱基的序号,如图3所示,496表示该circRNA的长度是496,与circBase中的序列长度一致(当注释得到序列长度与circBase中的数据不一致时请阅读本说明书第3部分的内容)。环上的不同色块表示不同的外显子和内含子,环内部的数据用于说明来源于亲本基因的几号外显子和内含子,“e+数字”或“i+数字”分别表示该外显子和内含子不是由亲本基因完整的外显子和内含子剪切而来,也就是说只是剪切了外显子和内含子的部分片段。环中间显示的是注释得到的circRNA的亲本基因的基因符号。
如果提示注释失败,可以更改refGene的版本后再试。更改方法如图3所示。如果是circBase中的circRNA请采用“GRCh37.75”。
图3 通过更改红框内的选项来更改refGene的版本
2、图形化注释circRNA序列在亲本基因中的功能
如图4所示,点击①处的“More”,图形会显示序列的在亲本基因中的功能;②处的主屏幕会显示更加详细的信息。CDS:编码区;UTR:非编码区;start_codon:起始密码子;stop_codon:终止密码子。
图4 图形化注释circRNA序列在亲本基因中的功能
3、获得circRNA序列
在软件左上角的circRNA中输入circRNA的编号(如hsa_circ_0057691)或基因座位(如chr11:33307958-33309057+或chr11 33307958 33309057 +)后,点击“序列”按钮即可获得circBase中记录的该circRNA的序列。因为数据库中有140733条的circRNA,所以需要等待几秒钟才能显示序列。
对于circBase中没有的circRNA,可以在输入circRNA的基因座位后点击“UCRC RNA”按钮得到circRNA的spliced sequence,点击“UCRC DNA”则可以得到genomic sequence。
图5 参考文献:Novel Role of FBXW7 Circular RNA in Repressing Glioma Tumorigenesis, J Natl Cancer Inst, 2018
图6 circPrimer对hsa_circ_0001451的图释结果
另:有文献报道称实测的circRNA序列与circBase中的序列有差异(PMID:28903484;图5),该文研究人员发现hsa_circ_0001451的序列长度是620nt而circBase中记录的序列长度是1227nt。我们用circPrimer对该circRNA图释后发现,我们图释的结果显示hsa_circ_0001451的序列长度是620nt(图6),与文献一致。此外,我在应用circPrimer的过程中也发现有一些circRNA图释得到的序列长度与circBase中的序列长度不同,为了获取这些circRNA的序列,可以通过点击“UCRC RNA”按钮来实现。
注:点击“序列”按钮检索的是circBase数据库中的序列,点击“UCRC RNA”按钮是根据基因座位以及外显子构成截取的序列,两者的序列来源不同。不论circBase中是否有某个circRNA都可以通过点击“UCRC RNA”按钮来获取circRNA的序列和点击“UCRC DNA”获取circRNA对应的基因组序列。
4、设计circRNA背靠背引物
图7 以hsa_circ_0057691为例设计背靠背引物
点选“背靠背”引物,然后点击“确定”按钮,软件会自动将circRNA序列从中间分开并将两段序列位置互换,通过符号“[”和“]”框定接头处碱基来告知Primer3产物要包括该接头。此时模板序列已经拷贝到粘贴板中,点击软件左侧的Primer3 (V0.4)或Primer3 (V4.1),粘贴模板序列,并将Product Size Ranges改为50-100(荧光定量PCR扩增片段最大不可超过250),然后点击“Pick Primers”按钮(如图7所示)。
4、设计跨circRNA剪切点(backsplice junction)的引物
点选“引物跨剪切位点”,然后点击“确定”按钮,软件会自动将circRNA序列从中间分开并将两段序列位置互换,通过在两段序列中间添加符号“-”来告知Primer3 (V4.1)引物要跨该序列区。点击软件左侧的Primer3 (V4.1),粘贴模板序列,并将Product Size Ranges改为50-100(荧光定量PCR片段最大不可超过250),然后点击“Pick Primers”按钮(如图8所示)。
图8 以hsa_circ_0057691为例设计跨circRNA剪切点的引物
如果得不到合适的引物,则按照图9更改参数后再点击“Pick Primers”按钮。
图9 当得不到合适的引物时,请按照此图更改Primer3 (V4.1)的参数
5、测验引物的特异性
在软件右上角输入要检测的引物,如图10所示,点击“引物测验”按钮。因为要检索的circRNA序列较多,因此需要较长时间完成测验(<1分钟)。图10中①处的数字9表示该引物可以扩增9个circRNAs,②处的列表显示了9个circRNAs的ID、基因符号、扩增产物大小以及引物特征(列名为F0R)。F0R列中的数据如果是0表示该引物是背靠背引物(divergent primer),如果是1表示该引物是线性扩增引物(convergent primer),如果显示的是“F或R+数字”的形式,表示引物跨circRNA的剪切位点,F表示上游引物,R表示下游引物,数字表示跨过剪切位点的碱基数。如图10所示hsa_circ_0057691的F0R是“R 3”表示下游引物有3个碱基跨过了剪切位点。
图10 引物测验
6、图形化显示引物在circRNA中的位置
引物测验后点击图10 ②处的列表中的结果会图形化显示引物在circRNA中的位置,如图11所示。
图11 图形显示引物在circRNA中的位置
7、将序列转换为反向互补、反向和互补序列
在获得了circRNA序列后(也可输入自己序列),点击“反向互补”、“反向”或“互补”按钮完成序列的转换。
8、引物测验目的和原理
来源于一个亲本基因的circRNAs可能含有相同的序列,例如SATB2基因由12个外显子构成,这些外显子及其内含子可以形成53种不同的circRNAs。比如,hsa_circ_0118561由SATB2的外显子9和10环化而成,而hsa_circ_0057685由SATB2基因的外显子9、10和11环化而成(图12)。为hsa_circ_0118561设计的背靠背引物必然会扩增hsa_circ_0057685(图12B和12C),通过circPrimer1.1软件可以检测设计的引物可以扩增多少个circRNA以及他们的扩增片段有多大,如果目的片段很小而干扰片段特别大时可以通过缩短扩增时间来排除干扰。或者,通过设计跨剪切点的引物来排除干扰,如图12D所示。不过需要特别注意的是,如果跨过剪切点的碱基过多时会导致SATB2 mRNA以及其它一些含有外显子10的circRNAs都会被扩增,这是因为引物只要3’段跟模板结合即可合成下游序列。
图12 背靠背引物和跨剪切点引物的原理