制作带有java监控命令的镜像
在生产环境中,经常有docker容器的CPU消耗太高而导致宿主机的CPU占用率攀升,引起AWS CloudWatch的警报邮件等,另外在批量重启容器的时候,也会经常遇到短暂对宿主机的CPU消耗过高的情况,现阶段准备再原来的容器中新增java的监控命令。具体是在镜像中包含如:jps、jstat和ps等命令的容器。
致 谢
从论文的选题、资料收集再到撰写的整个过程,在碰到基因测序的疑难问题时,得到了许多老师和同学的热情帮助。
首先,我要感谢的是我的导师邝祝芳老师,当他得知我的毕设课题需要大数据平台与基因测序结合,询问我是否需要高性能计算的服务器,并随后立马帮我申请了湖南大学的天河一号超级计算机的使用账号。在我毕业设计的基因样本数据的准备过程,和基于Hadoop大数据平台的搭建过程中,他对我的研究提出了很多宝贵的意见,这也使我基因测序的研究方向更加清晰了,最后得以顺利开发出系统平台。
参 考 文 献
[1] Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating[P]. 74, 5463–5467 (1977).
[2] Struster SC.Next-generation sequencing transform today’s biology[J].Nat Methods.5(1):16-18 (2008).
结 论
在本次的论文中,主要对Hadoop大数据框架做了深入了解,并对生物信息学中基因测序领域有了一个全新的认识。在这次基于Hadoop的基因组测序大数据分析平台研究的课题中,构建了针对生物全基因组的测序流程,并将自己所学的大数据领域的知识与全基因组测序流程相结合,利用Hadoop特有的HDFS分布式存储系统的特性,来容错的存储样本数据,并通过MapReduce计算框架将原本串行分析的WGS流程构建成不同的Map任务和Reduce任务,达到对不同的样本流程进行并行分析,提高基因测序的时效性和高扩展性。
5 系统的测试与扩展
4 基于Hadoop的平台搭建与MapReduce作业设计
3 基于Hadoop基因测序数据处理关键技术的研究
3.1 测序处理流程与MapReduce结合
基因测序处理流程中有gVCF和VCF文件生成两个阶段,而MapReduce恰好是一种分阶段处理的编程模型,它拥有Mapper和Reducer两个处理阶段,因此将MapReduce框架和测序流程结合在一起,既能保证测序流程的有序进行,又能在MapReduce框架中进行并行调度,提升测序数据处理的效率。
3.1.1 测序流程与MapReduce结合的可行性分析
MapReduce是一种可用于数据处理的编程模型,可以将数据分析处理流程分为映射阶段和归约阶段[1]。在映射阶段,各个Map程序在不同的Container中运行彼此互不干扰,即各个Mapper阶段的程序本质上是并行运行的;而到了Reducer规约阶段,将各个Mapper阶段产生的中间结果做规约整合得到最终的处理结果。因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心,也正是因为其强劲的数据分析和并行处理能力,所以选择其和测序处理流程作整合。
2 相关技术及原理
1 绪论
声明:基于Hadoop的基因组测序大数据分析平台研究是本人2018年的本科毕业设计课题,根据网络资源和自己的专业知识,独立完成整个流程设计、平台搭建和单元测试等工作。本系列文章是对该项目的一个整理总结和分享记录。该目录提及的系列文章可供转载,并无需通知作者,但需要在明显地方标注文章出处