2015 年,我和华大基因立下一个小目标……

648 阅读4分钟

导读:2015 年,阿里云和华大基因立下一个目标:到 2020 年,要在 24 小时完成个人全基因组测序。这在当时是一个几乎被认为不可能的挑战。  而在 2020 年刚开始的第 17 天,我们就实现了这个目标!并且把个人全基因组测序分析做到只需要 15 分钟,不到一顿饭的功夫。

云端实现大规模弹性调度计算

1.png

图 1 - WGS 分析过程示意图

基因计算所面临的挑战不同于常规计算,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;基因数据的安全隐私保护、大规模数据挖掘;按需调度和弹性扩容等。

此次方案由华大 DNBSEQ 自主测序仪、BGI Online 混合云架构、阿里云容器服务 ACK/AGS 基因服务以及赛乐基因 GPU 加速算法的深度融合而成。其中,华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。

在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据 (FASTQ文件) 上传至 OSS,以及授权 Bucket 给 AGS 服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。

这套端到端解决方案,无缝衔接测序平台和基因云平台,全面支持包括 DNBSEQ 系列测序仪在内的多种测序平台,可按需定制分析流程,交付灵活性极高。

速度更快,精度更高,成本更低

相比同类产品,它在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,在 2020 年,新的 WGS 交付方案将会助力基因科研与临床检测再上一个新台阶。

经过实际测试,整套方案在 15 分钟内完成了 8 组 30X WGS 样本二级分析处理。在保证精度的前提下,实现 15 分钟对 7200 亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且经过 NA12878 测试数据集与金标准 VCF 比较,二级分析的精度高于或等于 BWA-0.7.17/GATK 4.1.3 的数据产出,SNP 精度到达 99.80%!

2.png

图 2 - 实测 30X WGS N12878 数据加速效果

3.png

图 3 - 30X WGS 软件加速一致性
同时,阿里云 ACK/AGS 提供云上 PaaS 加速能力,以混合云方式协助华大基因完成自主测序仪大批量下机数据分析的近实时交付,可有效降低分析计算成本,缩短该环节交付周期。

加速解码生命进程

此前,线下进行单个样本的 WGS 分析通常需要 70+ 小时;2016 年底,BGI Online(国际版)实现 17 小时完成 100 个 WGS 分析;2017 年底,时间降至 120 分钟;到如今携手阿里云,创下 15 分钟完成 1 个 WGS 的新纪录,BGI Online 再次刷新了全基因组分析的速度极限。

随着精准医学人群队列项目的陆续启动,我国自主可控的基因测序与分析平台显得愈发重要。BGI Online 将在未来继续完善平台功能,为用户提供完整、全面、友好的功能体验,使生物信息领域的研究更简单高效。

解码未知,丈量生命。科技的每一小步,都会成为人类前行的一大步。华大基因及 BGI Online 将继续携手合作伙伴,共同为基因事业贡献力量。

注:人类全基因组测序(Whole Genome Sequencing,简称WGS)是利用高通量测序技术对人类不同个体或群体进行全基因组测序,并进行生物信息分析的方法。癌症和遗传疾病的深度解析往往需要对大量样本进行 WGS 测序与分析,而且对 WGS 数据的挖掘还能发现非常多极具价值的遗传多样性信息。一个人类全基因组有 30 亿碱基,一个 30X 的 WGS 测序数据量大约在 100G。

云原生实践峰会即将开幕

容器云.png

阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术圈。”