本篇文章目录导航:
【题目】探讨Docker技术的Hadoop性能优化方法??
【第一章】Docker技术的Hadoop性能优化研究绪论
【第二章】Docker技术的相关知识背景介绍
【3.1-3.2】系统环境搭建和内存配置分析
【3.3-3.5】基于Docker容器的Hadoop架构平台搭建
【第五章】YARN性能优化研究
【第六章】异构系统下数据安全问题
【第七章】Docker技术中Hadoop性能的优化结论与参考文献
第六章总结与展望
随着社会和科学技术的迅速发展,出现了一波又一波的技术更新的浪潮,时代的发展,互联网已经与本文的生活息息相关紧密相连,每天都会产生大量数据信息,标志着数据时代的到来。随着大数据的迅速发展,如何处理这些海量数据成为了一个焦点。
Hadoop技术作为海量数据处理的代表技术,受到了越来越多的广泛的关注。它的高容错性和高扩展性以及低成本等优势使得它被大量使用于社交媒体、日志分析和数据中心等大数据的应用中。当然它的性能方面还存在一些不足之处。
Docker容器技术与传统虚拟化技术相比有着轻量级、部署方便和易移植等特点,Docker技术逐渐成为未来技术发展的主流技术。本文提出了基于Docker容器技术搭建Hadoop平台架构的方案,从内存配置参数、YARN资源管理来提高Hadoop的性能,并提出新的数据分配方案来保证数据的安全性。
6.1 论文工作总结
本文先从本课题的选题的背景与相关内容为出发点,对Hadoop技术和Docker容器技术的发展做了相关的介绍。分析Docker容器技术与传统虚拟化技术相比的优势,提出了在Docker容器中搭建Hadoop平台架构。然后首先从hadoop的内存配置方面进行分析,通过对比其默认参数的性能,得出性能更好的内存配置参数。本文使用YARN框架集群管理,通过实验数据设置合适的并发级别,在有限的资源内使Hadoop的性能最高。最后通过整合秘密共享技术来提出新的数据分配方案,以提高异构Hadoop系统中数据存储的安全性。在Docker容器虚拟化技术的基础上,进行Hadoop平台架构的搭建,并做了如下的工作:
(1)内存参数和Docker容器的数量对Hadoop性能的影响已经被讨论和分析。测试结果表明,当内存成为节点瓶颈时,可以通过增加分配给节点的内存来提高Hadoop的性能。但是,当内存不是瓶颈时,增加分配给节点的内存可能会导致性能下降。通过分析内存和CPU使用情况,发现随着内存资源的增加,创建更多的Map和Reduce任务,CPU上运行的线程也越来越多。
(2)本文提出了一个新的安全碎片分配方案,用于提高异构Hadoop系统的安全性,其中Data Nodes具有各种各样的漏洞。本文开发了一个存储保证模型,通过部署拟议该方案,发现了一些可以提高异构Hadoop系统保证水平的原则。这些原则旨在使系统设计人员和异构Hadoop系统能够实现数据存储的安全副本分配解决方案。本文还实施了此方案,将数据块和副本放置到Hadoop系统中。最后,本文在异构Hadoop集群系统中进行实验,分析该方案在不影响Hadoop性能的前提下,显著的提高了异构环境下数据的安全性。
综上所述,本文通过分析传统Hadoop平台架构在处理海量数据的过程中存在的不足之处,提出了一种基于Docker容器技术的Hadoop平台架构设计,并从三个方面提出优化方案。
通过实验,验证了在现有的资源的前提下,在内存配置、YARN集群管理和Hadoop异构环境下数据安全问题方面作出了很好的解决办法。
6.2 论文不足与展望
本实验方案验证了本系统模型优化了内存配置参数、YARN资源管理和Hadoop异构环境下数据安全性等问题,但也存在着一些不足:
(1)基于Hadoop内存配置优化方面,在Docker容器中内存配置的优化方案虽然通过了实验的验证,但这个方案相对来说一个简单被动的配置还存在着一些不足。
(2)在YARN资源管理方面,定义少量的大容器,则会导致计算资源的利用率降低和执行时间增加。如果定义了大量的小容器,将会更好地利用集群资源。但是,由于内存和I/O子系统的资源争用,执行时间可能不会减少。
在未来的工作中,本文将进行进一步的实验来研究Docker环境中Hadoop集群的网络流量和I/O速率的配置。
参考文献
[1]董春涛,李文婷,沈晴霓,等. Hadoop YARN大数据计算框架及其资源调度机制研究[J].信息通信技术,2015(1):77-84.
[2]White T. Hadoop: The definitive guide 4th Edition[J]. O’reilly Media Inc Gravenstein Highway North, 2012,215(11):1 - 4.
[3]田秀霞,周耀君,毕忠勤,等.基于Hadoop架构的分布式计算和存储技术及其应用[J].上海电力学院学报, 2011, 27(1):70-74.
[4]杨东华,李宁宁,王宏志,等.基于任务合并的并行大数据清洗过程优化[J].计算机学报, 2016(1):97-108.
[5]夏靖波,韦泽鲲,付凯,等.云计算中Hadoop技术研究与应用综述[J].计算机科学, 2016, 43(11):6-11.
[6]徐德智,刘扬,SarfrazAhmed.基于Hadoop的RDF数据存储及查询优化[J].计算机应用研究,2017,34(2):477-480.
[7]Yao X, Mokbel M F, Alarabi L, et al. Spatial Coding-based Approach for Partitioning Big Spatial Data inHadoop[J]. Computers & Geosciences, 2017.
[8]邹保平,黄文思,张文晋,等.基于Docker的应用部署管理平台研究[J].电子设计工程,2017,25(12):41-44.
[9]李孟,曹晟,秦志光.基于Hadoop的小文件存储优化方案[J].电子科技大学学报, 2016, 45(1):141-145.
[10]董新华,李瑞轩,周湾湾,等.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(s2):1-15.
[11]刘朵,曾锋,陈志刚,等.Hadoop平台中一种Reduce负载均衡贪心算法[J].计算机应用研究,2016,33(9):2656-2659.
[12]KuJH. AStudyonPredictionModelofEquipmentFailureThrough AnalysisofBigDataBasedonRHadoop[J]. Wireless Personal Communications, 2017, 98(12):1-14.
[13]Leverich J, Kozyrakis C. On the energy (in)efficiency of Hadoop clusters[J]. Acm Sigops Operating SystemsReview, 2010, 44(1):61-65.
[14]Guo Y,Rao J, Cheng D,et al.i Shuffle:ImprovingHadoop PerformancewithShuffle-on-Write[J].IEEETransactions on Parallel & Distributed Systems, 2017, PP(99):1-1.
[15]Cattaneo G, Petrillo U F, Giancarlo R, et al. An effective extension of the applicability of alignment-freebiological sequence comparison algorithms with Hadoop[J]. Journal of Supercomputing, 2017, 73(4):1467-1483.
[16]Dittrich J, Quiané-Ruiz J A, Jindal A, et al. Hadoop++: making a yellow elephant run like a cheetah (withoutit even noticing)[J]. Proceedings of the Vldb Endowment, 2010, 3(1-2):515-529.
[17]Thusoo A, Sarma J S, Jain N, et al. Hive - a petabyte scale data warehouse using Hadoop[J]. 2010, 41(3):996-1005.
[18]Khan M, Jin Y, Li M, et al. Hadoop Performance Modeling for Job Estimation and Resource Provisioning[J].IEEE Transactions on Parallel & Distributed Systems, 2016, 27(2):441-454.
[19]杨朝辉,康磊. Hadoop平台中的Map Reduce模型及优化[J].信息技术与信息化, 2017(12):82-85.
[20]Guo Y, Rao J,Cheng D,etal.i Shuffle:ImprovingHadoop PerformancewithShuffle-on-Write[J].IEEETransactions on Parallel & Distributed Systems, 2017, PP(99):1-1.
[21]IbrahimS,Phan TD,Carpen-Amarie A,etal.GoverningenergyconsumptioninHadoopthroughCPUfrequency scaling: An analysis[J]. Future Generation Computer Systems, 2016, 54(C):219-232.
[22]曾婉琳,陈兴蜀,罗永刚. Hadoop节点资源参数优化策略[J].计算机工程, 2016, 42(1):1-6.
[23]Suresh S, Gopalan N P. An Optimal Task Selection Scheme for Hadoop Scheduling [J]. Ieri Procedia, 2014,10:70-75.
[24]李千慧,魏海平,窦雪英.基于Hadoop的排序性能优化研究[J].电子设计工程, 2016, 24(2):45-47.
[25]徐岩. Hadoop中Map Reduce的性能优化及可视化工具开发[D].北京交通大学, 2016.
[26]Almeer M H. Cloud Hadoop Map Reduce For Remote Sensing Image Analysis[J]. Journal of Emerging Trendsin Computing & Information Sciences, 2012, 3(4):637-644.
[27]李颖超.基于Hadoop的云存储系统文件处理与安全研究[J].现代电子技术, 2016, 39(21):112-115.
[28]Li Z, Shen H, Iii W B L, et al. An Exploration of Designing a Hybrid Scale-Up Out Hadoop Architecture Basedon Performance Measurements[J]. IEEE Transactions on Parallel & Distributed Systems, 2017, 28(2):386-400.
[29]刘娟,豆育升,何晨,等.基于调度器的Hadoop性能优化方法研究[J].计算机工程与设计,2013,34(1):190-194.
[30]王凤领.基于Hadoop高校教育资源云存储平台构建研究[J].计算机技术与发展, 2016, 26(3):176-180.
[31]张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学, 2012, 39(s2):115-118.
[32]Islam N S, Wasi-Ur-Rahman M, Lu X, et al. High Performance Design for HDFS with Byte-Addressability ofNVM and RDMA[J]. 2016:1-14.
[33]陈亮.一种Hadoop异构集群下提高数据本地性的分发算法[J].信息通信, 2014(2):53-54.
[34]Mackey G, Sehrish S, Wang J. Improving metadata management for small files in HDFS[J]. 2009:1-4.
[35]Khan M, Jin Y, Li M, et al. Hadoop Performance Modeling for Job Estimation and Resource Provisioning[J].IEEE Transactions on Parallel & Distributed Systems, 2016, 27(2):441-454.
[36]Zhang J, Li Q, Zhou W. HDCache: A Distributed Cache System for Real-Time Cloud Services[J]. Journal ofGrid Computing, 2016, 14(3):1-22.
[37]张阳. Map Reduce中的数据访问性能优化研究[D].华中科技大学, 2013.
[38]熊文.大数据系统基准测试和性能优化关键技术研究[D].中国科学院大学(中国科学院深圳先进技术研究院), 2017.
[39]Prewo K M, Brennan J J. Silicon carbide yarn reinforced glass matrix composites[J]. Journal of MaterialsScience, 1982, 17(4):1201-1206.
[40]熊倩,张龚,郭明,等. Map Reduce Shuffle性能改进[J].计算机应用, 2017, 37(s1):58-62.
[41]任凯,邓武,俞琰.基于大数据技术的网络日志分析系统研究[J].现代电子技术, 2016, 39(2):39-41.
[42]Oh J, Byrd A, Park M, et al. Temporal Stability of the Human Skin Microbiome[J]. Cell, 2016, 165(4):854-866.
[43]Wang W, Zhu K, Ying L, et al. Map Task Scheduling in Map Reduce With Data Locality: Throughput and Heavy-Traffic Optimality[J]. IEEE/ACM Transactions on Networking, 2016, 24(1):190-203.
[44]冯兴杰,贺阳.改进的Hadoop作业调度算法[J].计算机工程与应用, 2017, 53(12):85-91.
[45]陈忠义.基于Hadoop的分布式文件系统[J].电子技术与软件工程, 2017(9):175-175.
[46]达列雄.分布式认证中的移动自组织网门限秘密共享技术[J].科技信息:学术版, 2007(34):229-230.
[47]于金良,朱志祥,李聪颖. Hadoop Map Reduce新旧架构的对比研究综述[J].计算机与数字工程, 2017,45(1):83-87.
[48]宋衍,韩臻,李建军,等.支持安全共享的云存储系统研究[J].通信学报, 2017, 38(a01):88-96.
[49]徐廷廷,李志慧,麻敏,等.基于局域区分的新的量子秘密共享方案[J].计算机应用研究,2017,34(10):3094-3097.
[50]潘佳艺,王芳,杨静怡,等.异构Hadoop集群下的负载自适应反馈调度策略[J].计算机工程与科学,2017, 39(3):413-423.
[51]刘琳羽,南凯.一种基于Docker的开发者服务平台设计[J].科研信息化技术与应用, 2015, 6(5):65-72.
[52]纪小展.基于Hadoop平台的网络数据并行处理系统设计与实现[D].东南大学, 2017.