所有分类
来自HelmholtzZentrumMünchen的科学家开发了一个用于管理大量数据集的程序。该软件名为Scanpy,是分析人类细胞图谱的候选者,最近在基因组生物学中发表。
“这是关于分析大量单个细胞的基因表达数据,”HelmholtzZentrumMünchen计算生物学研究所(ICB)的主要作者Alex Wolf解释道。他与他的同事Philipp Angerer一起在Fabian Theis博士教授的机器学习小组中开发了Scanpy。除了在Helmholtz Zentrum的职位外,Theis还是慕尼黑技术大学生物系统数学建模教授。“新的技术进步产生了数个数量级的数据,相应的信息内容也相应增加,”Theis说。“但是,用于基因表达分析的历史进化的软件基础设施根本不是为应对新的挑战而设计的。
人类细胞图集的竞赛
根据Theis的说法,一个主要的国际研究项目也可以从该软件中受益。一个国际科学家团队正在编制一个名为人类细胞图谱的参考数据库,该数据库包含所有人类细胞类型基因活动的数据。“对于这个项目,以及越来越多其他数据库组合在一起的项目,拥有可扩展的软件非常重要,”Theis说。因此,Scanpy目前是帮助分析人类细胞图谱的候选者并不奇怪。
“Scanpy的出版标志着第一个允许使用广泛的机器学习和统计方法对大型基因表达数据集进行全面分析的软件,”沃尔夫解释说,这一成就。“该软件已经被世界各地的许多团体使用,特别是在哈佛大学博士学院和麻省理工学院麻省理工学院。”
从技术上讲,该应用程序是一个开拓性的发展:传统上,生物统计学程序是用编程语言R编写的,而Scanpy是基于Python语言,它是机器学习社区中的主要语言。另一个新功能是基于图形的算法是Scanpy的核心。与将细胞视为基因表达空间内的坐标系中的点的通常方法不同,算法使用类似图的坐标系。该系统不是通过数千个基因的表达值来表征单个细胞,而是通过识别它们最近的邻居来简单地表征细胞 - 非常类似于社交网络中的连接。事实上,为了识别细胞类型,Scanpy使用与Facebook相同的算法来识别社区。
下一篇:基因改善植物生长和转化为生物燃料
我要评论