所有分类
细菌的社区遍布各处:我们的身体内部,我们的身体和我们周围的一切。人体肠道内含有数百种细菌,有助于消化食物和提供营养,但也可能使我们生病。为了更多地了解这些细菌群以及它们如何影响我们的生活,科学家们需要对它们进行研究。但是这项任务带来了挑战,因为将细菌带入实验室要么不可能,要么会破坏科学家希望研究的生物过程。
为了克服这些困难,科学家们转向了宏基因组学领域。在宏基因组学中,研究人员使用算法将来自环境样本的DNA拼接在一起,以确定存在的细菌的类型和作用。与化学等已建立的领域不同,研究人员根据一系列已知标准评估其结果,而宏基因组学是一个相对年轻的领域,缺乏这样的基准。
马里兰大学计算机科学教授米海波普在马里兰大学高级计算机研究所的联合任命,最近帮助评判了一项称为宏基因组解释的关键评估(CAMI)的国际挑战,该评估是对宏基因组学软件进行基准测试的。结果发表在2017年10月2日的“自然方法”杂志上。
“我们可以说没有一种算法可以说是最好的,”Pop说,他也是UMD卫生相关信息学和生物成像中心的联合主任。“我们发现,一个工具在一个环境中表现更好,而另一个工具在另一个环境中表现更好。研究人员必须知道他们需要根据他们试图回答的具体问题选择软件。”
该研究的结果对于Pop来说并不令人惊讶,因为宏基因组学软件开发人员面临着许多挑战。首先,DNA分析在宏基因组学中具有挑战性,因为回收的DNA通常来自田间,而不是严格控制的实验室环境。此外,来自许多生物的DNA(其中一些可能没有已知的基因组)在样本中混合在一起,使得难以正确地组装或拼凑个体基因组。此外,DNA在恶劣环境中会降解。
"I like to think of metagenomics as a new type of microscope," Pop said. "In the old days, you would use a microscope to study bacteria. Now we have a much more powerful microscope, which is DNA sequencing coupled with advanced algorithms. Metagenomics holds the promise of helping us understand what bacteria do in the world. But first we need to tune that microscope."
由于他在基因组和宏基因组装配方面的专业知识,CAMI的领导者邀请Pop帮助评估挑战参与者提交的文件。2009年,Pop帮助发布了Bowtie,这是用于组装基因组的最常用软件包之一。最近,他与马里兰大学医学院合作分析了数十万个基因序列,作为有史以来在发展中国家进行的最大,最全面的儿童腹泻病研究的一部分。
“我们发现了引起腹泻病的新的未知细菌,我们还发现细菌之间的相互作用可能会加重或改善疾病,”波普说。“我觉得这是我用宏基因组学做过的最有影响力的项目之一。”
在竞赛中,CAMI研究人员将大约700个微生物基因组和600个病毒基因组与其他DNA来源相结合,并模拟了这样一个DNA集合如何在该领域出现。参与者的任务是重建和分析模拟DNA库的基因组。
CAMI的研究人员在三个方面对参与者的提交进行了评分:他们如何组装碎片化的基因组;他们如何将DNA片段“分类”或组织成相关组,以确定混合物中的生物家族;以及它们如何“分析”或重建混合物中存在的生物的特性和相对丰度。Pop提供了用于评估提交的组装基因组的指标和软件。
19个团队使用6个基因组装配器,9个装配器和10个分析器提交了215个条目来应对这一挑战。
结果表明,对于组装,使用不同长度的较小DNA片段拼接基因组的算法优于使用固定长度的DNA片段的算法。然而,没有任何组装者在挑选不同但相似的基因组方面做得很好。
对于分箱任务,研究人员发现权衡软件程序如何准确识别特定DNA片段所属的组,以及软件分配给任何组的DNA片段的数量。这一结果表明,研究人员需要根据准确度或覆盖范围是否更重要来选择分档软件。此外,当样本包括多个相关基因组时,所有分箱算法的性能下降。
在分析中,软件可以更好地恢复样品中相对丰富的细菌,或者更好地检测生物体,即使数量非常少。然而,后一种算法更经常地识别错误的生物体。
展望未来,Pop表示,CAMI小组将继续针对不同的数据集和针对软件性能更具体方面的新评估来应对新的挑战。Pop很高兴看到科学家们使用这些基准来解决实验室和诊所的研究问题。
“宏基因组学领域需要标准来确保结果正确,经过充分验证并遵循最佳实践,”Pop说。“例如,如果医生打算根据宏基因组软件的结果进行干预,那么这些结果必须正确。我们的工作为选择合适的软件提供了路线图。”
上一篇:研究人员获得鸡胚胎发育数据
我要评论