楼主 | 收藏 | 举报 2018-06-10 00:00   浏览:161   回复:0

QIIME2官方帮助文档的中文版

声明:本文为QIIME2官方帮助文档的中文版,由中科院遗传发育所刘永鑫博士翻译并亲测有效,文档翻译己获QIIME2团队官方授权。由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。

如中文翻译没有及时更新,新阅读英文原版 https://docs.qiime2.org68

本人只习惯使用命令行模式分析数据,图形界面和Ipython模式下使用暂不介绍。本系列的教程主要以命令行方式为大家演示。在其它方面有使用的经验的朋友,欢迎共享您的使用笔记发布于“宏基因组”公众号,方便大家学习和使用。

简介

QIIME2是微生物组分析流程QIIME(截止17.7.13被引7771次)的全新版(不是升级版),采用python3全新编写,并于2018年1月全面接档QIIME,是代表末来的分析方法标准(大牛们制定方法标准,我们跟着用就好了)。

优点

  1. 更易于安装:曾经QIIME的安装让无数生信人竞折腰,QIIME2引入了Miniconda软件包管理器,没有管理员权限也可以轻松安装;同时发布了docker镜像,下载即可运行;
  2. 使用方法多样:支持命令行模式(q2cli),也支持图型用户界面q2studio;还有Python用户喜欢的Artifact API(类似IPython notebook);
  3. 分析流程化:分析流程更加标准化,不让用户盲然下面该做什么;
  4. 可视化增强:QIIME后发制人,超越引用6964次的mothur流程,就是其可视化方面的优势,现可视化结果更加漂亮,且全新采用交互式图形结果,点选可查看细节,更易于分析;
  5. 方便合作:项目很少一个组可完成,多人多地结果图表方便共享,适合当下科研合作的需求;
  6. 可扩展:支持自定义功能并加入分析流程;高手可以自己写包,加入QIIME2的流程中了;
  7. 分析可重复:全新定义了文件系统,即包括分析数据、也包括分析过程和结果,每一步的结果,均可追溯全部分析过程,方便检查和重复。

安装

有多种安装方法,根据环境任选其一即可,先后序列即推荐序列。

1. Miniconda软件包管理器安装(需要有Linux服务器,但无需管理员权限)

本人测试采用Miniconda安装QIIME2于Ubuntu 16.04,这也是官方推荐的方法,确实非常简单。

2. Docker方式安装,Linux需要管理员权限

我比较喜欢使用docker,直接下载预配置好的系统使用,对本地系统无影响
Dokcer的基本操作请查看本公众号之前的教程扩增子分析流程2.使用Docker运行QIIME34,或后台回复docker;

3. Windows 10 64x Pro + Docker

Docker已经出Windows版了,但是需要Windows10 64位专业版 + HyperV,或者Win7 64位以上+Docker toolsbox,我尝试了一下没成功,可能是我相关知识不足或环境不满足,想用Windows体验分析的可以尝试一下。

QIIME2版本升级

本文案以2016.6升级至2016.7为例

QIIME2目前只处于Alpha版,每月均有升级。如使用中存在问题,建议立马升级至最新版。本系统至2018年1月会推出Beat稳定版。

Linux conda安装版的升级

Docker安装方式的升级

与其説是升级,其实是下载了一个全新的docker,但之前共用的文件还可以用。下载失败,也説找不到文件

扩增子分析QIIME2. 2分析实战:人体不同部分微生物组Moving Pictures

本文的操作的前提是完成QIIME2的安装,想安装QIIME2请阅读《扩增子分析QIIME2. 1简介和安装》。

本示例的的数据来自文章《Moving pictures of the human microbiome》,Genome Biology 2011,取样来自两个人身体四个部位五个时间点,

启动QIIME2运行环境

对于上文提到了两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。

准备数据

拆分样品

使用qiime tools view demux.qzv或访问 https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmoving-pictures%2Fdemux.qzv在线查看
下图展示拆分样品的图表结果,其中的图表示各样品测序数据柱状分布图,展示不同测序深度下样品数量分布,可下载PDF文件;表可下载CSV格式文件,即每个样品的数据量表,可用Excel打开。

序列质控和生成OTU表

此步主要有DADA2和Deblur两种方法可选,推荐使用DADA2,去年发表在Nature Method上,比较同类方法优于其它OTU聚类结果;相较QIIME的UPARSE聚类方法,目前DADA2方法仅去噪去嵌合,不再按相似度聚类。比上一代分析结果更准确。

  1. DADA2
    主要作用是去除低质量序列、嵌合体;再生成OTU表,现在叫Feature表,因为不再使用聚类方法,相当于QIIME时代100%相似度的OTU表。

读者思考时间:基于上图对拆分样品的统计结果,如何设置下面生成OTU表的参数。

  1. –p-trim-left 截取左端低质量序列,我们看上图中箱线图,左端质量都很高,无低质量区,设置为0;
  2. –p-trunc-len 序列截取长度,也是为了去除右端低质量序列,我们看到大于120以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除。

  1. Deblur
    与DADA2二选一,用户可自行比较结果的差异,根据喜好选择。

Feature表统计

图中展示了Feature表的统计结果

代表序列统计

下图展示代表序列网页版详细,点"Click here"可下载fasta文件

建树:用于多样性分析

Alpha多样性

读者思考时间:下面多样性分析,需要基于标准化的OTU表,标准化采用重抽样至序列一致,如何设计样品重抽样深度参数。–p-sampling-depth

如是数据量都很大,选最小的即可。如果有个别数据量非常小,去除最小值再选最小值。比如此分析最小值为917,我们选择1080深度重抽样,即保留了大部分样品用于分析,又去除了数据量过低的异常值。
注:本示例为454时代的测序,数据量很小。现在一般采用HiSeq PE250测序,数据量都非常大,通常可以采用3万或5万的标准筛选,仍可保留90%以上样本。过低或过高一般结果也会异常,不建议放在一起分析。

以Evenness为例,下图展示多样性的箱线图,可以下载svg矢量图

也可点击如下网址,查看可交互结果。https://view.qiime2.org/visualization/?type=html&src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmoving-pictures%2Fcore-metrics-results%2Fevenness-group-significance.qzv19

读者思考时间:实验设计中的那一种分组方法,与微生物群体的丰富度差异相关,这些差异显著吗?

解答:图中可按Catalogy选择分类方法,查看不同分组下箱线图间的分布与差别。图形下面的表格,详细详述组间比较的显著性和假阳性率统计。
结果我们会看到本实验设计的分组方式有Bodysite, Subject, ReportAntibioticUse,只有身体位置各组间差异明显,且下面统计结果也存在很多组间的显著性差异。

Beta多样性

以Bray_curtis可视化结果为例,下图展示多样性的三维散点图,可以下载svg矢量图

读者思考时间:按subject分组有显著区别吗?按body-site分组有显著区别吗?那些body-site组间存在区别?

大家仔细查看按subject进行主坐标轴分析的结果,如下链接,我是没看到区别;
https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmoving-pictures%2Fcore-metrics-results%2Funweighted-unifrac-subject-group-significance.qzv
大家仔细查看按body-site进行主坐标轴分析的结果,如下链接,只有左右手间无明显差别,其它各组间均有显著差别。
https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmoving-pictures%2Fcore-metrics-results%2Funweighted-unifrac-body-site-significance.qzv

按其它距离计算的结果,读者可以仔细看看不同距离矩阵计算结果的区别。个人感觉,一般比较好解释科学问题的方法就是适合的方法。

物种分类

以堆叠柱状图,展示物种各组、各分类级别下的相对丰度,图形可交互查看每个柱的详细信息,也可以下载svg矢量图。

读者思考时间1:代表序列文件rep-seqs.qzv可视化结果中,可以下载fasta文件采用NCBI进行blast注释物种信息,与我们目前的结果比较,看看有什么不同,各分类级别的注释定义的相似程度是什么?
读者思考时间2:查看门水平(level2)分类结果柱状图,看每一类body-site中主要丰度的门类是什么?

差异丰度分析

差异丰度分析采用ANCOM (analysis of composition of microbiomes),是2015年发布在Microb Ecol Health Dis上的方法,文章称在微生物组方面更专业,但不接受零值(零在二代测序结果表中很常见)。我个人一直用edgeR,感觉靠谱,因为高通量测序本质上是相同的。

差异Features/OTUs分析

读者思考时间:不同身体部分有那些Features存在丰度差异?那一组是最高或最低丰度?这此差异的Features属那些分类单元?

使用qiime tools view ancom-BodySite.qzv查看结果,或下载结果用qiime2网页在线打开查看,回答上面的问题。

差异分类学级别分析:以按门水平合并再统计差异

可视化结果包括统计、各组丰度分位数和交互式火山图

读者思考时间:不同身体部分有那些Features存在丰度差异?那一组是最高或最低丰度?这此差异的Features属那些分类单元?
使用qiime tools view ancom-BodySite.qzv查看结果,或点如下链接查看详细,回答上面的问题。
https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmoving-pictures%2Fl2-ancom-BodySite.qzv

结果描述:结果的可视化(Visual)页面,一共分为三部分。

  1. 第一个表为ANCOM statistical results,只列出组间存在显著差异的门,其统计值W的计算及解释尚不清楚,查原始文章也没有找到。有待更新版中解释。
  2. 第二个表为各组的丰度分位数,就是箱线图的原始数据,为什么作者没有直接出图,我将与作者沟通讨论;目前可以比较各组的分布,来具体看组间的差异,但不够直观;
  3. 统计各门类的火山图,坐标轴还没有详细解释,但其意思是越靠上越显著差异。此图采用Python的bokeh库生成的交互式图形,可以点击图中的点来查看具体的详细,如具体的分类学信息。相当于表1的可视化。

结果的网页还有其它页面,如peek页面可以查看此文件的基本信息,Provenance页面显示当前结果的生成过程图,点击过程中的点可以查看具体的程序和参数;链接按扭可以生成共享链接;下载按扭可以下载原始文件。

扩增子分析QIIME2. 3粪便菌群移植分析

原文地址: https://docs.qiime2.org/2017.7/tutorials/fmt/7

此实例需要一些基础知识,要求完成本系列文章前两篇内容:1简介和安装和2分析实战Moving Pictures。

本实验研究自闭症且胃肠道功能紊乱患者,采用粪便菌群移植方法,来降低患者的行为异常和肠道紊乱。监测移植后18个月范围内肠道菌群的变化,采用MiSeq PE300测序技术。

实验数据下载

序列质控评估

查看可视化评估结果,也可下载qzv文件,使用 view.qiime2.org3 打开查看,或直接打开作者在线预计算好的结果。 https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Ffmt%2Fdemux-summary-1.qzv

问题:从上图中我们判断选择质控的参数是什么?
序列上游13 bp的序列质量偏低,设置trim-left 13截掉前13bp序列;整体150bp的质量都不错,则保留150 bp的序列长度。

Feature表和代表性序列生成

合并不同组的序列和表

table.qzv文件中Feature/OTU表统计的结果如下,或在线查看详细信息:https://view.qiime2.org/visualization/?type=html&src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Ffmt%2Ftable.qzv3

OTU表总结

MetricSample
Number of samples121
Number of features337
Total frequency48,925

样品数据量分布

TypeFrequency
Minimum frequency84.0
1st quartile276.0
Median frequency380.0
3rd quartile492.0
Maximum frequency860.0
Mean frequency404.3388429752066

特征表频率统计

TypeFrequency
Minimum frequency2.0
1st quartile9.0
Median frequency24.0
3rd quartile85.0
Maximum frequency10,832.0
Mean frequency145.1780415430267

通过上表,我们可以确定Feature特征表标准化的重抽样数据,由于本测试,只用了文章原始数据的10%的数据,数据量很小,最小值为84,第一分位数为276,我们可选择276保留75%以上的样品。一般最小值最少1000,推荐5000以上。

多样性分析

现在我们已经获得了特征表(Feature/OTU),以及代表性序列(Feature Seq)
自己尝试用上篇文章的分析方法,回答下面这些问题。

前两节课的知识应该可以回答下面的问题,过两天我也会分析并做出答案。大家一定要实操才有真正分析的能力,想不出来就多操作和思路上一篇分析。

  1. 个人微生物组;
    1. 按subject-id分类存在组成差异?
    2. 按subject-id分类存在丰富度差异?
    3. 按subject-id分类存在均匀度差异?
  2. 菌群移植;
    3. 移植几周后,患者的菌群在unweighted unifrac距离下最像供体;
    4. 移植几周后,患者的菌群在bray-curtis距离下最像供体;
    5. 比较两种距离结果那种解释更好;
  3. 实验设计:比较粪便和试子样品采集方法
    4. 比较不同取样方法结果中最大差别的类别?差异类别用blast,或classifier注释有什么不同?
    5. 两类样品的unweighted unifrac和bray-curtis间有什么不同?
    6. 供体粪便与那种取样的结果更像?
    7. 两类取样方法的Alpha多样性存在差别吗?
  4. 每个测序Run中有多少样品?在不同测序Run中是否存在系统性差异?

扩增子分析QIIME2. 4阿塔卡马沙漠微生物组分析

原文地址: https://docs.qiime2.org/2017.7/tutorials/atacama-soils/3

此实例需要一些基础知识,要求完成本系列文章前两篇内容:1简介和安装和2分析实战Moving Pictures。

本教程设计有两个目的:熟悉双端数据的处理;基于Moving Pictures后的主自分析练习以积累项目经验。

实验设计

本实验研究对像为智利北部的阿塔卡马沙漠。 此地为世界上最干旱的地区之一,其中有些地方十年降水量不足1毫米。尽管这里极端干旱,但仍有微生物生活在这里。我们的采样地点为东部的Baquedano和西部的Yungay,发现土壤温度与降水量正相关。在这两个地点,我们挖坑,并在不同深度取三组样品。

实验数据下载

双端数据分析方法

质量分析后,我们根据上图结果和相关表格来确定下步denoise分析参数。详细信息查看点下面链接
https://view.qiime2.org/visualization/?type=html&src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fatacama-soils%2Fdemux.qzv6 。网页中交互式图形可以查看每个碱基位置的详细信息。

去噪并生成Feature表和代表性序列

设置左端截掉13bp,右端不截。(我通常处理是先合并双端,再质控,再去引物,虽然复杂更感觉更合理。但此方法可能更适合EMP项目,每个人的设计不同,参数不同)

结果本地qiime tools view查看,本地没有配置可视化环境的,请下载文件在线查看 view.qiime2.org3
大家先本地或在线分析Feature表和代表性序列的统计结果,先熟悉数据。再按照2分析实战中方法,继续建树、多样性分析及比较,回答下面的问题?

接下来分析并回答的问题

  1. 接下来OTU表标准化参数–p-sampling-depth应该选多少?有多少样品应该从实验中剔除?过滤后核心矩阵中有多少数据量?
  2. 实验设计中的那种分级方式中微生物组成差异最大?采用那种距离计算方法分开更明显,是unweighted UniFrac还是Bray-Curtis?考虑尝试使用qiime diversity beta-correlation and qiime diversity bioenv分析结果,可以使用--help查看详细帮助。
  3. 使用qiime diversity alpha-correlation分析样品间的相关性,看看能得到什么结论?
  4. 按组分析Alpha多样性,并比较是否有显著差异?
  5. 在门水平查看不同温度下微生物组成?看那些种类与湿度相关?
  6. 在有无植被的取样地点,什么菌门差异明显?

Acknowledgements

本文的数据来自 干旱土壤微生物组:显著增加与温度,在mSystems正在审稿

扩增子分析QIIME2. 5数据导入Importing data

为什么要导入数据?

QIIME2使用了标准文件格式qza和qzv,分别是数据文件和统计图表文件;目的是统一文件格式,方便追溯分析过程。

本人将带大家熟悉QIIME2分析流程的不同阶段,导入数据。

最典型的导入数据,是原始测序数据的导入。实际上,我们可以从分析的任何一步导入数据,继续分析。比如合作者提供了biom格式的OTU表,我们可以导入,并进行下游的统计分析。

导入数据可以采用多种方式,包括命令行或图形界面,我们这里主要介绍命令行的方式。

导入带质量值的测序数据

地球微生物组标准混样单端数据 “EMP protocol” multiplexed single-end fastq

此类数据标准包括两个文件,扩展名均为fastq.gz,一个是barcode文件,一个是样品混样测序文件。

地球微生物组标准混样双端数据 “EMP protocol” multiplexed paired-end fastq

此类数据标准包括三个文件,扩展名均为fastq.gz,一个是barcode文件,两个是样品混样测序文件。

样品文件清单格式 “Fastq manifest” formats

样品清单是包括样品名、文件位置、文件方向三列的csv文件,以pe-64-manifest为例,内容如下:

导入质量值不同编码的两类文件Phred33/64 (一般Phred33比较常见,只有非常老的数据才有Phred64格式)

导入OTU表Biom文件

BIOM v1.0.0

BIOM v2.1.0

代表性序列 Per-feature unaligned sequence data

多序列比对后的代表性序列导入(多序列比对后的序列中包括减号,表示比对的gap) Per-feature unaligned sequence data

无根进化树导入 Phylogenetic trees (unrooted)

扩增子分析QIIME2. 6数据导出Exporting data

注:最好按本教程顺序学习,想直接学习本章,至少完成本系列第一篇QIIME2安装。

为什么要导出文件?

QIIME2采用统一qza文件格式,是为了保证文件格式统一和分析流程可追溯。但不可能要求每个人都用此需系统,需要导出其它软件兼容的格式,方便交流和其它用户更个性化的分析。

导出Feature/OTU表

导出的biom文件位于exported-feature-table文件夹中,名为feature-table.biom,可用biom程序对文件进行格式转换和分析

导出进化树

导文件为exported-tree/tree.nwk,是标准树nwk文件

导出与提取

提取包括所有的信息文件,如下例中的feature表文件,结果即包括feature表,又包括生成此文件的相关软件版本信息,还有生成此文件所有步骤的文件说明。

QIIME2. 7元数据 Metadata in QIIME 2

本节分析需要完成1QIIME2安装和2分析实战Moving Picture。

什么是元数据Metadata

元数据是实验设计的描述信息表或统计结果,是分析原始数据必须的基本信息。
元数据是从原始数据中获得生物学发现的关键。在QIIME2中,样品的元数据包括技术细节,如DNA条形码用于区分样品、样品描述,如分类、时间点、取样部分等。对于特征表(Feature,原称OTU)的元数据,一般为特征的注释信息,如物种分类信息。样品和特征表的元数据在QIIME2中很多步分析需要使用。

文本格式实验设计(mapping file)格式要求

为了方便分析,对样品的描述必须包括一些基本信息和格式规范,QIIME2中实验设计mapping file基本要求如下:

  • 文件必须是制表符分隔的纯文本文件,建议使用Excel编辑并复制到纯文本编辑器(如editplus, ultraedit等)中保存为txt格式;
  • 注释行以#开头,可以出现在文中任意位置,程序会自己忽略;
  • 空行也会被忽略;
  • 第一行为表头,与QIIME1相比不再以#开头,更合理;
  • 表头每列名称必须唯一,不能包括标点符号;(建议实验设计只使用字母和数字,任何符号在后续分析都可能会有问题)
  • 文件至少包括除表头外的一行数据;
  • 第一列为样品名,用于标识每个样品,必须名字唯一。

下载示例元文件

查看示例元文件–实验设计

查看结果需要配置ssh方式的可视化,推荐阅读xshell+xmanager或xming配置ssh的X11转发,可图型显示支持;
或下载qzv文件在https://view.qiime2.org/网站在线查看;或直接点击下面链接查看
https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmetadata%2Ftabulated-sample-metadata.qzv

用户思考时间:
上面的示例元文件,subject-1的样品有多少个?来自gut的样品有多少个?
提示:linux下可以使用grep检索;网页中可以按列排序。

查看QIIME2生成的文件元数据

请最好下载在线查看效果最好,可以网页中直接操作结果(SSH转发的图像操作效果差)?

用户思考时间:

Faith’s PD的最大值是多少?最小值是多少?提示:使用列排序功能。

qzv文件包括结果生成的过程,请查看该结果的追溯图,研究分析过程。

组合型原数据

https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmetadata%2Ftabulated-combined-metadata.qzv 在线查看结果。用户自己的数据 ,需使用qiime tools view命令或下载后在线打开。

查看结果:只包括两个文件中的交集部分,这在以后是很常见的操作,用于选择部分结果。

https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmetadata%2Funweighted-unifrac-emperor-with-alpha.qzv 查看组合后的结果

思才情:那一类取样位置有最高的Faith’s进化多样性值?查看中使用按body site上色,再按Faith’s PD连续着色;

查看特征(Feature/OTU)元数据

https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Fmetadata%2Ftabulated-feature-metadata.qzv 查看代表序列和分类信息的组合结果

用户思考:所有.qza都是元数据吗?使用qiime metadata tabulate自己试试吧。

网页中查看可以导出任意格式的结果,并可追溯实验的分析过程。

扩增子分析QIIME2. 8数据筛选Filtering data

复杂的实验通常会有非常多的组,具体分析中会根据批次、处理条件、基因型等信息进行反复筛选和分析,是分析中常用的操作。本文主讲特征表(Feature/OTU table)和距离矩阵的筛选。

下载实验相关数据

过滤Feature/OTU表

按数据量过滤

有时也会过滤掉高丰度的OTU或样本,需要使用--p-max-frequency参数

偶然因素的过滤 Contingency-based filtering

举个栗子,你有实验和对照各十组,结果中会有很多OTU只在一个样品中出现,而在其它所有样品中均为零,这种情况一般认为是偶然因素的结果,不具有普遍性,有生物学意义的可能性也比较小,因此通常过滤掉他们,以减少下游分析工作量,降低结果的假阴性率。

同样上面筛选最小值,有时也会筛选最大值,它们的参数为--p-max-features--p-max-samples

基于索引的过滤

比如实验中的某些样品发现问题,如生长过程到受胁迫、人或动物吃错药(某些人体样品查出末如实申报的抗生素使用),需要在实验中进行剔除。

基于实验设计条件的筛选

这是最常用的,重点关注

如果想过滤物种类型呢?需要你的表中有物种信息,尝试使用filter-features选项吧

过滤距离矩阵

扩增子分析QIIME2. 9训练特征分类集Training feature classifiers with q2-feature-classifier

完成此本文分析,必须成功安装QIIME2。

为什么为训练分类集?

因为不同实验的扩增区域不同,鉴定物种分类的精度不同,提前的训练可以让分类结果更准确。

分析前准备

下载和导入参考数据集

提取参考序列 Extract reference reads

训练分类集

测试分类集

下载并在线view.qiime2.org查看;或点击链接查看预计算的结果https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2017.7%2Fdata%2Ftutorials%2Ffeature-classifier%2Ftaxonomy.qzv

感兴趣的朋友,可以拿这个训练后的结果,和之前的比较。看看有什么变化?

附1. 核心概念

https://docs.qiime2.org/2017.7/concepts/1
想要深入理解QIIME2的分析过程,QIIME定义的基本概念需要了解一下。

  1. 数据文件: 人工产品 (artifacts)
    QIIME2为了使分析流程标准化,分析过程可重复,制定了统一的分析过程文件格式.qza;qza文件类似于一个封闭的系统,里面包括原始数据、分析的过程和结果;这样保证了文件格式的标准,同时可以追溯每一步的分析,以及图表绘制参数。这一方案为实现将来可重复的分析提供了基础。比如文章投稿,同时提供分析过程的文件,别人可以直接学习或重复实验结果。
  2. 数据文件:可视化(visualizations)
    QIIME2生成的图表结果文件类型,以.qzv为扩展名,末尾的v代表visual;它同qza文件类似,包括分析方法和结果,方便追溯图表是如何产生的;唯一与qza不同的,它是分析的终点,即结果的呈现,不会在流程中继续分析。可视化的结果包括统计结果表格、交互式图像、静态图片及其它组合的可视化呈现。这类文件可以使用QIIME2 qiime tools view命令查看,不安装程序也可在线 https://view.qiime2.org/78 导入显示;
  3. 语义类型(Semantic types)
    QIIME2每步分析中产生的qza文件,都有相应的语义类型,以便程序识别和分析,也避免用户引入不合理的分析过程(如使用末标准化的OTU表进行多样性分析)。了解分析各步的结果,才能对分析有更深入和全面的认识。
  4. 插件(Plugins)
    QIIME2中的某个特定功能即为插件,比如拆分样品、Alpha多样性分析等。插件每个人都可以开发,系列已经由社区开发了标准化分析的插件,其他用户按其标准开发的特定分析,并可与团队联系发布,或整合入平台。
  5. 方法和可视化
    方法是对QIIME2定义的输入格式进行操作的过程,并产生标准格式的输出,以方便后续分析,输入和输出均为qza文件;可视化是对定义的标准输入,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv,文件不仅包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。

附2. Glossary 名词解释

Action 方法或可视化的动作

A general term for a method or visualizer.

Artifact 本流程定义的文件格式,存储数据和分析结果

Data that can be used as input to a QIIME method or visualizer, or that can be generated as output from a QIIME method. Artifacts typically have the extension .qza when written to file.

Method 对Artifact分析的方法

An action that takes some combination of artifacts and parameters as input, and produces one or more artifacts as output. These output artifacts could subsequently be used as input to other QIIME 2 methods or visualizers. Methods can produce intermediate or terminal outputs in a QIIME analysis.

Parameter 参数,软件或方法中可调整的部分

A primitive (i.e., non-artifact) input to an action. For example, strings, integers, and booleans are primitives. Primitives are never output from an action.

Pipeline 流程,一系统分析方法的串联

A combination of actions. This is not yet implemented.

Plugin 插件,可扩展的功能

A plugin provides microbiome (i.e. domain-specific) analysis functionality that is accessible to users through a variety of interfaces built around the QIIME 2 framework. Plugins can be developed and distributed by anyone. In more technical terms, a plugin is a Python 3 package that instantiates a qiime2.plugin.Plugin object, and registers actions, data formats, and/or semantic types that become discoverable in the QIIME 2 framework.

Result 分析结果

A general term for an artifact or visualization. A result is produced by a method, visualizer, or pipeline.

Visualization 可视化,把数据绘制成图表方便查看和分析规律

Data that can be generated as output from a QIIME visualizer. Visualizations typically have the extension .qzv when written to file.

Visualizer 可视化工具,将结果可视化的软件

An action that takes some combination of artifacts and parameters as input, and produces exactly one visualization as output. Output visualizations, by definition, cannot be used as input to other QIIME 2 methods or visualizers. Visualizers can only produce terminal output in a QIIME analysis.

附3. 常用的语义类型semantic types

原文链接:https://docs.qiime2.org/2017.7/semantic-types/1

FeatureTable[Frequency]: 频率,即Feature表(OTU表),为每个样品中对应OTU出现频率的表格

FeatureTable[RelativeFrequency]: 相对频率,OTU表标准化为百分比的相度丰度

FeatureTable[PresenceAbsence]: OTU有无表,显示样本中某个OTU有或无的表格

FeatureTable[Composition]: 组成表,每个样品中OTU的频率

Phylogeny[Rooted]: 有根进化树

Phylogeny[Unrooted]: 无根进化树

DistanceMatrix: 距离矩阵

PCoAResults: 主成分分析结果

SampleData[AlphaDiversity]: Alpha多样性结果,来自样本自身的分析

SampleData[SequencesWithQuality]: 带质量的序列,要求有质量值,要求序列名称与样品存在对应关系,如为按样品拆分后的数据格式

SampleData[PairedEndSequencesWithQuality]: 成对的带质量序列,要求序列ID与样品编号存在对应关系;

FeatureData[Taxonomy]: 每一个OTU/Feature的分类学信息

FeatureData[Sequence]: 代表性序列

FeatureData[AlignedSequence]: 代表性序列进行多序列比对的结果

FeatureData[PairedEndSequence]: 双端序列进行聚类或去噪后,分类好的OTU或Feature

EMPSingleEndSequences: 采用地球微生物组计划标准实验方法产生的单端测序数据;

EMPPairedEndSequences: 采用地球微生物组计划标准实验方法产生的双端测序数据;

TaxonomicClassifier: 用于物种注释的分类软件

Reference

  1. https://qiime2.org/4
  2. Caporaso, J. Gregory, Justin Kuczynski, Jesse Stombaugh, Kyle Bittinger, Frederic D. Bushman, Elizabeth K. Costello, Noah Fierer et al. “QIIME allows analysis of high-throughput community sequencing data.” Nature methods 7, no. 5 (2010): 335-336.
  3. Schloss, Patrick D., Sarah L. Westcott, Thomas Ryabin, Justine R. Hall, Martin Hartmann, Emily B. Hollister, Ryan A. Lesniewski et al. “Introducing mothur: open-source, platform-independent, community-supported software for describing and comparing microbial communities.” Applied and environmental microbiology 75, no. 23 (2009): 7537-7541.
  4. https://docs.qiime2.org/2017.7/glossary/2
  5. https://docs.qiime2.org/2017.7/install/virtual/docker/
  6. https://docs.qiime2.org/2017.7/concepts/1
  7. https://docs.qiime2.org/2017.7/tutorials/moving-pictures/
  8. Microb Ecol Health Dis. 2015 May 29;26:27663. doi: 10.3402/mehd.v26.27663. eCollection 2015. https://www.ncbi.nlm.nih.gov/pubmed/26028277
  9. Nat Methods. 2016 Jul;13(7):581-3. doi: 10.1038/nmeth.3869. Epub 2016 May 23. DADA2: High-resolution sample inference from Illumina amplicon data. https://www.ncbi.nlm.nih.gov/pubmed/27214047
  10. Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns http://msystems.asm.org/content/2/2/e00191-16
  11. Python交互可视化图形库 http://bokeh.pydata.org/en/latest/1
  12. https://docs.qiime2.org/2017.7/tutorials/fmt/7
  13. The data in this tutorial was initially presented in: Microbiota Transfer Therapy alters gut ecosystem and improves gastrointestinal and autism symptoms: an open-label study. Dae-Wook Kang, James B. Adams, Ann C. Gregory, Thomas Borody, Lauren Chittick, Alessio Fasano, Alexander Khoruts, Elizabeth Geis, Juan Maldonado, Sharon McDonough-Means, Elena L. Pollard, Simon Roux, Michael J. Sadowsky, Karen Schwarzberg Lipson, Matthew B. Sullivan, J. Gregory Caporaso and Rosa Krajmalnik-Brown. Microbiome (2017) 5:10. DOI: 10.1186/s40168-016-0225-7.
  14. https://docs.qiime2.org/2017.7/tutorials/atacama-soils/3
  15. The data used in this tutorial is presented in: Arid Soil Microbiome: Significant Impacts of Increasing Aridity. Neilson, Califf, Cardona, Copeland, van Treuren, Josephson, Knight, Gilbert, Quade, Caporaso, and Maier. mSystems (under review).
打赏
网站首页 | 关于我们 | 联系方式 | 使用协议 | 版权隐私 | 网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报
 
免责声明:本站有部分内容来自互联网,如无意中侵犯了某个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理。