所有分类
在工业革命期间,工厂开始依靠机器而不是人来进行大规模生产。在社会变革的过程中,标准化从确保螺母和螺栓的制造方式与保持生产质量完全相同,成为大西洋两岸使用的标准铁路轨距。当标准不存在或不被普遍接受时,标准的重要性得到了极大的体现,例如,Mac,与PC,甚至是磅与公斤。
工业革命后一个多世纪以来,DNA测序技术的进步已经在科学研究中引起了类似的巨大变化,其中一个方面是研究地球的生物多样性。微生物在调节涉及碳,氮和磷的全球循环中发挥着至关重要的作用,但其中许多仍未被培养和未知。更多地了解这种所谓的“微生物暗物质”涉及从单细胞和宏基因组的扩增DNA中提取微生物基因组。随着基因组数据生产在过去二十年中不断增加,并且正在世界各地的各种平台上生成,科学家们共同努力建立诸如“草案组装”和全面适用的数据收集标准等术语的定义。元数据,“简单地定义为”关于其他数据的数据。“在序列数据的情况下,元数据可以包含什么生物体或细胞被测序,它来自哪里,它在做什么,质量指标,以及一系列其他特征,通过为序列数据提供上下文并使序列数据的重要性得到更好的生物学理解,为序列数据增加价值。
2017年8月8日在Nature Biotechnology上发表由美国能源部联合基因组研究所(DOE JGI)的研究人员领导的国际团队,DOE办公室的科学用户设施,已经开发了标准,用于提供单个扩增基因组(SAG)和宏基因组装配的最小元数据。基因组(MAGs)提交给公共数据库。“在过去几年中,单细胞基因组学已成为补充宏基因组学的流行工具,”研究资深作者,DOE JGI微生物基因组学项目负责人Tanja Woyke说。“从2007年开始,来自环境细胞的第一个单细胞基因组出现在公共数据库中,它们是数据质量波动的草案集.Magagenome组装的基因组具有相似的质量挑战。对于想要进行比较分析的研究人员来说,它' 知道进入分析的内容非常重要。强大的比较基因组学依赖于广泛而正确的元数据。“
基因组质量的分类
在他们的论文中,Woyke和她的同事提出了四类基因组质量。低质量草案的完成率不到50%,对组装的片段进行最少的审查,不到10%的非目标序列污染。中等质量草案将至少完成50%,对组装碎片的审查很少,污染不到10%。由于存在23S,16S和5S rRNA基因,以及至少18个tRNA,污染低于5%,高质量草案将完成90%以上。完成质量类别保留用于没有间隙的单个连续序列,每100,000个碱基对少于1个错误。
在DOE JGI的基因组在线数据库(GOLD)上,DOE JGI已经产生了大约80%的超过2,800个SAG和超过4,500个MAG。DOE JGI科学家和研究第一作者鲍勃鲍尔斯说,许多已经在GOLD中的SAG将被视为低质量或中等质量草案。这些是非常有价值的数据集,但出于某些目的,研究人员可能更喜欢使用高质量或完成的数据集。“单细胞和宏基因组数据集的整体质量差别很大。但是,如果低质量,碎片化的基因组是生命树上新分支的唯一代表,一些数据优于无数据,”他补充道。“提出建议的类别将迫使科学家在提交给公共数据库之前仔细考虑基因组质量。”
从提案到社区实施
从印刷提案转向实施需要社区支持。Woyke和Bowers构想了SAG和MAGs的最低元数据要求,作为序列数据的现有元数据标准的扩展,称为“MIxS”,由基因组标准联盟(GSC)于2011年开发和实施.GSC是一个开放的成员工作机构,确保研究界参与标准制定过程,并包括国家生物技术信息中心(NCBI)和欧洲生物信息学研究所(EBI)的代表。这很重要,因为这些是实现最低元数据要求的主要数据存储库。通过直接与数据提供者合作,
“其他重要的公共微生物组数据管理系统,如MG-RAST,IMG和GOLD也已经采用了MIxS标准,”DOE JGI原核生物超级计划和GSC理事会成员Nikos Kyrpides表示。他指出,作为DOE JGI核心使命的一部分,该研究所一直参与组织社区以制定基因组标准。“GSC一直在帮助社区共同制定和实施越来越多的相关标准。事实上,在DOE JGI最近的一次GSC会议上确定了将MIxS扩展到未开垦的生物体的必要性。”
“这些扩展通过定义与描述宏基因组单细胞基因组和基因组的采样和测序相关的关键数据元素,补充了MIxS元数据标准套件,”GSC总裁兼研究共同作者,基因组科学研究所的Lynn Schriml说。在马里兰大学医学院。“这些标准开辟了元数据数据探索的全新领域,因为绝大多数微生物(称为微生物暗物质)目前尚未在MIxS标准中进行描述。”
她将该团体及其使命描述为社区驱动。她说:“我认为制定标准的人是进行研究的人是有帮助的。” “我们对数据抱有既得利益。研究正在不断发展和扩展,我们必须严格捕获这些数据。开发这些新颖的元数据标准使研究人员能够始终如一地报告最关键的元数据进行分析。使用受控数据捕获数据词汇表有助于数据的一致性,从而使数据库更加丰富和可重用。“ 最后,希望序列数据伴随着商定的元数据标准对于想要使用它的每个人来说意味着同样的事情。
上一篇:在古细菌中提出DNA折叠的起源
下一篇:新型痘病毒威胁幼年松鼠
我要评论