10倍速!浪潮分享第三代基因测序计算优化方案

栏目: 编程工具 · 发布时间: 5年前

日前,在德国法兰克福会展中心举行的2018国际超算大会(ISC18)上,浪潮分享了面向第三代基因测序组装软件的高性能计算系统优化方案。浪潮的FALCON优化方案使得关键步骤计算性能提升了20%左右,而浪潮并行优化的MECAT相比原单机版本获得了近10倍的性能提升,优异的性能表现引发了国际同行的极大关注。

10倍速!浪潮分享第三代基因测序计算优化方案

ISC现场,浪潮AI&HPC Dr.朱红分享第三代基因测序计算优化方案

二代测序和三代测序都属于高通量测序技术,测序数据产出量很大,需要结合高性能计算技术来进行后续的测序数据处理。相较于二代测序技术,以单分子测序技术为代表的三代基因测序带来了更长的测序读长,这使得对更加复杂的物种如各种农作物和植物等的基因研究成为可能,但是相对更高的测序错误率(~15%)需要进行数据纠错,又对高性能计算带来了新的挑战。三代基因测序组装这类应用对于系统的计算性能、网络和磁盘等方案都有很高的要求。很多用户在通常的高性能计算平台来处理测序数据时,性能都不理想。

目前,由Pacbio公司开发的FALCON及中国的中山大学开发的MECAT是第三代基因测序组装领域的两款主流软件。FALCON由于把测序数据(raw data)切割成KB级别的卷来进行纠错,因而需要频繁的磁盘I/O,所以在计算过程中,磁盘I/O经常会成为系统瓶颈。浪潮专家优化FALCON软件的底层参数,优化了软件架构,降低了系统对于硬件I/O依赖,下图为处理同一测试用例时,优化前后磁盘I/O强度对比。

10倍速!浪潮分享第三代基因测序计算优化方案

优化FALCON前后磁盘I/O强度对比

优化完成后,FALCON软件的核心部分性能提升了20%,而且软件的集群扩展性也有明显提升。

10倍速!浪潮分享第三代基因测序计算优化方案

优化后FALCON核心部分性能提升20%

针对MECAT软件,浪潮完成了该软件从单机环境向集群环境的并行优化工作。经测试,新部署的经过浪潮并行优化的集群版本在12个节点上运行时,可以把人类全基因组组装时间从200多个小时缩短到不足24小时,相比原单节点版本获得近10倍的加速比,这表明集群版本的扩展线性度非常好。下图是MECAT组装过程中各个环节的用时对比:

10倍速!浪潮分享第三代基因测序计算优化方案

MECAT组装过程各环节用时对比

【本文版权归存储在线所有,未经许可不得转载。文章仅代表作者看法,如有不同观点,欢迎添加存储在线微信公众号(微信号:doitmedia)进行交流。】


以上所述就是小编给大家介绍的《10倍速!浪潮分享第三代基因测序计算优化方案》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Head First Design Patterns

Head First Design Patterns

Elisabeth Freeman、Eric Freeman、Bert Bates、Kathy Sierra、Elisabeth Robson / O'Reilly Media / 2004-11-1 / USD 49.99

You're not alone. At any given moment, somewhere in the world someone struggles with the same software design problems you have. You know you don't want to reinvent the wheel (or worse, a flat tire),......一起来看看 《Head First Design Patterns》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具