pg电子官网

网站地图 / 联系pg电子官网 / ENGLISH / pg电子官网

基因组所开发国际首个基于Spark的大数据系统发育建树工具CloudPhylo

作者：生命与健康大数据中心徐行健

宣布时间：2016-10-31

宣布时间：2016-10-31 | 【大中小】 | 【打印】【关闭】

作者：生命与健康大数据中心徐行健宣布时间：2016-10-31 | 【大中小】 | 【打印】【关闭】

　　构建系统发育树是分子进化研究中剖析物种间进化关系的基础办法与重要环节。随着生物大数据时代的到来，古板的建树工具在使用大数据集构建系统发育树时需要消耗更多的盘算资源且运行时间超长，使得科研事情者无法快速高效地进行分子进化剖析。为此，生命与健康大数据中心（BIG Data Center；http://bigd.big.ac.cn）利用Spark云盘算技术，于近期开发了一款适用于大数据集的系统发育树构建工具——CloudPhylo。Spark是一种新的漫衍式云盘算框架，它实现了MapReduce漫衍式并行算法�；赟park框架的程序在运算历程中可高效地将中间输出结果生保存内存中，大大降低了因为频繁读写文件造成的损耗。因此，与古板的Hadoop框架相比，Spark能更好地应用于需要重复迭代的大数据剖析任务。

　　CloudPhylo是目前国际上首款针对大数据集开发的系统发育建树工具，同时也是海内首个使用Spark云盘算技术开发的生物信息学剖析软件。在应用于模拟和真实的大数据集构建系统发育树时，CloudPhylo均体现出了比古板建树软件更高的运行效率和更大的并行加速比（图1）。

　　该工具已经安排在BIGD云平台Qomo（https://cloud.big.ac.cn/users/bigd/tools/clouldphylo）上，无须外地装置，用户可在线提交数据并进行剖析。同时本项事情的相关具体内容已经宣布在Bioinformatics杂志中（http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645）。

PG电子·(中国)官方网站该项研究事情获得了国家高技术研究生长计划（2014AA021503和2015AA020108）和pg电子官网国际相助局国际大科学计划（153F11KYSB2016008）等基金资助。

　　论文链接：http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645

PG电子·(中国)官方网站

　　图1 CloudPhylo在差别条件下的并行加速比

附件下载：

PG电子·(中国)官方网站

版权所有 © pg电子官网(国家生物信息中心)　京ICP备05002857号　文保网安备案1101050063号
地点：北京市向阳区北辰西路1号院104号楼　邮编：100101　电话：86-10-84097216

PG电子·(中国)官方网站

PG电子·(中国)官方网站