大学代写论文网专业提供代写毕业论文、代写本科论文服务
您现在的位置:首页 > 计算机论文 > 软件工程论文 >
异构系统下数据安全问题
发布时间:2019-10-15


  本篇文章目录导航:

  【题目】探讨Docker技术的Hadoop性能优化方法??
  【第一章】Docker技术的Hadoop性能优化研究绪论
  【第二章】Docker技术的相关知识背景介绍
  【3.1-3.2】系统环境搭建和内存配置分析
  【3.3-3.5】基于Docker容器的Hadoop架构平台搭建
  【第五章】YARN性能优化研究
  【第六章】异构系统下数据安全问题
  【第七章】Docker技术中Hadoop性能的优化结论与参考文献

第五章异构系统下数据安全

  在内存参数配置和YARN优化后的Hadoop平台上,数据在异构环境下存在的一些安全隐患,为了解决这些隐患,本章首先介绍Hadoop默认数据放置策略,并分析其存在的一些数据安全问题,然后对系统中的Data Node基于其漏洞的不同分为不同类型的组。接着提出解决方案并设计保证模型,同时对模型进行性能评估并分析数据。本方案在不影响其性能的前提下,解决了异构环境下Hadoop漏洞问题,提高数据的安全性。

  5.1 背景和相关介绍

  5.1.1Hadoop默认数据

  放置策略HDFS数据拷贝存储策略,HDFS的拷贝存储策略实现是HDFS可靠性和高性能的关键。

  优化的副本存储策略是将HDFS与大多数其他分布式文件系统区分开来的重要功能。此功能需要大量调整并需要积累经验。

  HDFS使用机架感知策略来提高数据可用性和网络带宽利用率。目前实施的副本存储策略只是朝着这个方向迈出的第一步。实现这一战略的短期目标是验证其在生产环境中的有效性,观察其行为,并为测试和研究奠定基础,以实现更高级的战略。

  大型HDFS集群系统倾向于在跨越多个机架的数据中心中运行,并且不同机架上的两台机器之间的通信需要通过交换机。在大多数情况下,同一机架中两台机器之间的带宽将大于不同机架中两台机器之间的带宽。通过机架感知过程,Name Node可以确定每个Data Node所属的机架ID。一种简单但未优化的策略是将副本存储在不同的机架中。这有效地防止了整个机架出现故障时的数据丢失,并允许在读取数据时充分利用多个机架的带宽。此策略设置可以在群集中均匀分布副本,这有利于在组件发生故障时进行负载平衡。但是,由于此策略的写入操作需要将数据块传输到多个机架,因此写入成本会增加。

  HDFS的默认复制因子为3,适用于大多数情况。副本存储策略是将第一个副本放在本地机架中的节点上,将第二个副本放在同一个机架中的另一个节点上,将第三个副本放在另一个机架中的节点上。此策略可减少机架之间的数据传输,从而提高写入操作的效率。机架错误远小于节点错误,因此该策略不会影响数据可靠性和可用性。

  与此同时,由于数据块仅放置在两个(而不是三个)不同的机架上,因此该策略减少了读取数据所需的总网络传输带宽。根据此策略,副本不均匀分布在不同的机架上。三分之一的副本位于一个节点上,三分之一的副本位于同一机架中的其他节点上,其他副本均匀分布在剩余的机架中。该策略不会影响数据的可靠性和读取并提高写入性能和性能。

  为了减少总体带宽消耗和读取延迟,HDFS尝试让读者阅读最接近它的副本。如果阅读器在同一机架上有副本,则会读取副本;如果HDFS集群跨越多个数据中心,客户端也将首先读取本地数据中心的副本。

  最初,默认的Hadoop数据放置策略主要集中在三个方面:数据放置的性能,数据可访问性以及网络和存储资源的利用率。

  Hadoop系统的结构由Name Node和Data Node组成。

  Name Nodes在数据放置过程中处理决策,而Data Node被视为数据存储。文件的副本被分割成小块,通常为64MB,Name Nodes将这些块分配给Data Node。传入数据的默认复制数设置为3。在数据放置阶段,Name Nodes将根据系统内的数据放置策略做出决定。在默认策略下,Name Nodes在选择任何Data Node作为存储数据块的目标位置之前也会考虑几个条件:

  (1)块的副本之一必须存储在请求数据放置的相同节点上。

  (2)如果系统由多个机架组成,则不同的副本将在机架上分布,以确保机架丢失时的数据可访问性。

  (3)如果系统由多个机架组成,则一个块的副本中的一个通常与请求数据放置的节点放置在同一个机架中,以减少跨机架网络I/O。

  (4)数据分布在集群中的所有Data Node中保持一致基于以上信息可以看出,默认策略中不包含系统中不同Data Node之间异构安全漏洞的实现或考虑。

  5.1.2 异构漏洞安全

  漏洞是近年来网络安全事件和网络安全威胁的主要原因。因此,许多研究工作都集中在漏洞信息的发布和维护上,如安全漏洞数据库,常见漏洞和暴露(CVE),漏洞评估系统等。但是,每个漏洞数据库在漏洞信息的覆盖范围方面存在显着差异。没有统一的漏洞信息发布标准。漏洞数据库和安全组织也缺乏必要的信息共享和通信,从而导致异构和冗余的漏洞信息。

  异构Hadoop系统已经被应用于安全敏感的应用,比如银行系统和数字政府,这些都需要新的安全方法。云存储系统的传统安全技术包括访问控制,安全威胁检测,认证,授权和容错等。在现代云存储系统中,安全敏感文件的机密性必须得到保护,因为云存储系统暴露于越来越多的恶意用户的攻击之下。当恶意程序和用户危害系统中的某些存储节点时,维护存储在云存储系统中的文件的机密性是至关重要的。

  现有的分布式系统安全技术,包括Hadoop系统,很少考虑存储节点间存在异构漏洞的系统。在大规模的Hadoop系统中,不同的Data Node可能有多种保护数据的方式。同样的安全策略可以在各种机制中实现。数据加密方案可能不同,即使采用相同的加密方案,在一个加密方案中使用的密钥也可能在Hadoop系统中有所不同。上述因素可能导致Hadoop系统的Data Node之间的不同漏洞[52]。

  5.1.3 具有异构漏洞的分布式

  存储系统中的安全碎片分配在这个数据时代,人们对存储系统有更多更高的要求,例如存储容量,I / O性能,数据安全性,系统可扩展性,系统可靠性和其他问题等。数据的错误和丢失对用户来说是非常致命的。鉴于无处不在的故障,分布式存储系统目前使用数据存储冗余来确保数据可靠性。所以在系统发生故障的情况下,支持快速有效地修复错误数据的能力对于维持系统可靠性至关重要。

  前面已经有相关工作者开发了一种安全的分片分配方案,以提高分布式系统的安全性,其中存储站点具有各种各样的漏洞。在他的分配方法中,将文件分片技术与秘密共享方法一起应用于具有异构漏洞的分布式存储系统。其中根据不同的漏洞集将多个存储站点分为不同的节点类型。在基于网络的分布式存储系统中,由于考虑到分布式存储系统中的异构漏洞,他们的方案提高了安全性。但是,该方案没有解决Hadoop系统中由于数据复制而导致的风险增加问题。由于分布式存储节点处理的文件片段数量增加,数据复制可能会带来安全风险。

  这意味着文件复制存在并存储在分布式存储系统中时,文件更有可能被破坏。随着ApacheHadoop已经成为流行的分布式框架,在这项研究中,本文尝试提出一种新的方法来优化Hadoop系统,并采用类似的存储保证改进方案。

软件工程

  5.2 异构系统下数据安全存在的问题

  Apache Hadoop是一个分布式框架,是研究和现实应用程序中分布式处理的流行解决方案。大数据和高需求驱使Hadoop系统的规模迅速增长,并且变得越来越可扩展和异构。当Hadoop系统规模不断扩大时,存储节点和网络状况之间的可用带宽、处理器速度、磁盘容量、生命周期、潜在弱点、安全级别、故障率以及故障模式等异构功能也将不断增长。另一方面,在这样的系统上运行的不同应用程序的异构特征正在同时增加。不同应用程序的数据可能具有不同的大小,访问速率以及不同级别的安全性和性能要求。本文相信未来的云存储系统安全机制必须意识到异构的漏洞。

  在系统设计的各个方面,分布式框架越来越容易受到安全问题的侵害,HDFS的对此问题的安全解决方案非常有限。为了保证数据安全,HDFS在很大程度上依赖于系统的加密技术来保护数据。通过应用异构环境,由于每个节点的加密级别和安全标准不同,当一种DataNode被破坏时,整个系统不会受到影响。但是,HDFS没有考虑到异构性。之前已经有学者提出了许多安全解决方案来解决这个问题。例如,安全文件分配方案(S-FAS)将文件碎片与具有异构漏洞的分布式系统中的秘密共享技术相结合。

  对于HDFS,其他主要的安全风险之一是数据复制。尽管所有类型的系统都存在数据泄露和泄露的风险,但数据复制将提高可靠性。但是,由于Data Nodes处理的文件片段数量不断增加,可能会带来安全风险。当文件的更多复制存储在云存储系统中时,尤其是在高风险的网络环境中,文件更可能被破坏,可以使用异构功能来提高非复制数据的存储安全性。

  本文的本章工作重点是解决Hadoop中数据复制的安全问题,提出新的分配方案,并将其应用于Hadoop中的HDFS。基于本文的保证评估模型和实验结果,新的分配方案展示了一个有效的安全解决方案,解决了安全碎片和副本分配的问题,同时不会影响Hadoop的性能。基于提交给Hadoop的文件,本文的方案将生成候选节点的目标列表,并将被传递到Hadoop的数据放置策略的修改版本。根据候选节点列表,本方案将尝试使用不同类型的Data Node来存储文件的不同片段,同时将片段的副本保留在相同类型的Data Node中。

  5.3 优化方案

  5.3.1 系统环境

  本文的数据分配方案是为典型的Hadoop分布式文件系统设计的。系统可以包含位于不同地点的一个或多个机架,其连接在一个子网络内或在大规模云系统的更高层级内。

  典型的HDFS由连接到交换机的多个Data Node和Namenode组成。不同交换机中可能有一些Data Node通过不同的交换机连接。机架中的Data Node可能使用不同的安全方法,因此可能有不同的安全漏洞。本文在逻辑上将Data Node分类到不同的Data Node组,其中同一组的Data Node共享相同的安全方法。

  表5.1介绍了本文在本文中使用的符号。

  本文的研究基于一个典型的Hadoop集群系统,它包含??个机架,即??1,??2,. . . . . ????。

  在任何机架????中包含????个 Data Node,即??1 ={????1,????2,. . . ????????}。该系统是基于异构漏洞构建的,在????中每个节点可能有不同的安全配置。


  根据Apache.org上的文档,当收到读取请求时,分布式文件的重建将被提交给主节点。

  文件重建后,Master Node将返回文件。此外,Master Node将处理写入请求,方法是将文件分成若干片段,并使用所使用的数据放置策略将其写入系统。

  对文件的访问通常会通过Master Node,但是对于恶意用户,他们可能会绕过Master Node,并在未经授权的情况下访问Data Node。文件的片段将存储在不同的Data Node中。下面的将讨论与默认的HDFS块放置策略有关的威胁模型的细节。

  由于Name Node通常不是一个Data Node,数据泄露将包括两个阶段。首先,攻击者成功闯入一个Data Node。其次,攻击者检索存储在节点上的片段。

  本文假设? ??是Data Node遭到攻击的概率。????是攻击者在Data Node上检索到被破坏的碎片的概率。事件??是数据泄露,即未经授权的片段泄露。????和????是独立的,所以??的概率将是????和????

  的乘积。本文可以把文件碎片被泄露给攻击者的可能性表示为公式(5.1):

  在一个典型的同类分布式集群中,攻击者可以通过使用相同的攻击方法来收集文件的其他需要的片段。如果攻击者能够收集一定数量的加密密钥片段,那么攻击者将能够重建加密密钥并解密截获的文件。但是,如果两个Data Node有不同的漏洞,对其中一个Data Node的成功攻击可能不一定导致对另一个Data Node的成功攻击[52]。不同的Data Node具有不同的漏洞的异构Hadoop系统,可以防止在其他类型的Data Node上发生一种类型的Data Node的成功攻击。

  以下的例子说明了忽视漏洞异质性导致的非常高的安全风险。文件??被系统中的 Master Node分成三个数据块,fa,fb和fc。HDFS包含16个Data Node,分为4组,??1,??2,??3和??4。每个组中的 Data Node提供相同的安全漏洞。这个例子的全面的 图 片 可 以 ??1  = {??1,??2,??3,??4} , ??2  = {??5,??6,??7,??8} , ??3  ={??9,??10,??11,??12}和??4  = {??13,??14,??15,??16}。

  默认的数据放置策略基于随机选择,它仅与当前节点的数据负载有关,所以可能有两个或更多的片段(在这里是fa,fb和fc)的文件将被分配给同一组中的节点。例子表明,一个更安全的解决方案将是其中三个节点属于不同的组??1,??2和??4。在这种情况下,攻击者必须找出三套成功的攻击方法,每个组上一个获得所有三个碎片。

  当所选择的三个节点R1,R2和R3共享相同的脆弱性时的情况。在这种情况下,攻击者通过在其中一个节点上使用相同的一组攻击方法,在任何节点R1,R2,R3或R4上发起成功的攻击之后,将轻松获得所有三个碎片。攻击者成功获得三个分片后,攻击者可以重建文件F.

  只要可能有三个片段被分配到同一组中的Data Node,则该文件可能容易被同一组成功的攻击方法所破坏。这个例子说明了为什么可以通过适当的数据分配充分利用异构漏洞来提高存储保证。

  5.3.2 解决方案设计

  作为解决上述问题的安全数据放置策略,本方案在进行数据放置决策时考虑了Data Node之间的异类漏洞。此外,本文将该方案整合到HDFS的数据块放置策略中使其与HDFS一起工作。

  这种方案将适用于单机架和多机架系统,在这里本文使用单机架系统作为例子。如果同一机架中没有足够多的Data Node存在不同的漏洞,本文的方案会考虑其他机架来选择数据放置候选。在本文所提出的方案中,根据异构Hadoop系统中的脆弱性特征将Data Node划分为多种不同的类型。在某些情况下,Data Node成功的风险被袭击是无法控制的。因此,本文的方案旨在提高安全性,即使在某些Data Node受到攻击的情况下也是如此。一种提高安全性的方法是Data Node尽可能少地发布信息。

  数据复制是在Hadoop中实现的,以提高可靠性。但是,数据复制会增加数据存储的风险。在本文的数据复制方案中,理想的数据分配是将片段的所有副本存储到同一组的Data Node中。

  不同类型的Data Node组负责不同片段的副本存储。因此,对于任何Data Node组,只有一组成功的攻击方法文件碎片被破坏,这意味着黑客无法重建文件。

  通过假设本文在每个类型的组中有足够的Data Node选择,具体来说,本文的方案使用以下策略来做出数据块放置的决定(算法1):

  (1)Hadoop系统中的所有Data Node根据其安全漏洞分为不同的节点类型组。同一组中的Data Nodes共享相同的漏洞集合。

  (2)当客户端发出数据放置请求时,本方案将尝试尽可能多地使用不同的Data Node组,同时维护Hadoop的原始随机Data Node选择行为。这样做可以防止出现明显的决策模式,并确保文件不会被破坏,除非至少有??个不同的碎片被成功破解。

  (3)相同数据片段的所有副本将存储在同一组的Data Node中。

  (4)(??,??)秘密共享方案被纳入本文方案的分配机制。

  在Check If Good Target()函数中,该方案将一个标志绑定到每个group_id,防止该方案多次选择相同的组。由于本方案与为Hadoop系统中的每个Data Node组提供机密性的安全机制正交,所以本方案可以与任何保密服务无缝集成在Hadoop系统中提供增强的安全服务。本章在下一节的存储保证模型中证明了本方案将会提高Hadoop系统的数据安全性。

  5.3.3 保证模型

  在本节中,本文开发了一个保证模型来定量评估异构Hadoop系统的数据存储。该模型包括乘法原理、概率论和组合。本文分析整个攻击过程中的步骤到一个Hadoop系统。这里本文用乘法原理来描述攻击过程。为了描述攻击过程中每一步的成功率,本文应用概率论和组合评估过程。

  考虑到(??,??)秘密共享方法用于数据加密,加密密钥也被分割和分配使用与文件片段使用的方法相同的方法。当??中的 Data Node受到攻击时,攻击者也将得到一个带有加密密钥片段的分片副本。然而,根据秘密共享的方法,攻击者必须获得至少??个不同的片段来重建文件。

  在保证模型中,??表示使用一组攻击方法损害文件??的事件,??(??)表示事件??发生的概率。??表示选择一组 Data Node攻击的事件,??(??)意味着事件??发生的概率。??是事件,如果??发生,至少有??个不同的片段的复制品可以使用相同的一组攻击方法进行攻击。受损复制品的数量范围从?? × ??到?? × ??(在 S-FAS中,范围从??到??),因为基于本方案的数据放置策略,一个类型组的Data Node或者存储片段的所有副本或者不存储任何该片段的复制品。

  然后,本文使用事件??来表示在文件的一个片段上发生的成功攻击。通过对这三个事件应用乘法原理,??,??和??,本文计算事件??的概率,文件??被一个相同的一组攻击方法损害的事件:

  当??(??),??(??)和??(??)是事件??,??和??在 Data Node组的总类型为??时发生的概率,概率??(??)与??(??)相关,这很大程度上取决于本文 HDFS站点所应用的安全机制以及攻击程度。

  但是,当??等于 1时,表示系统的安全方法是一致的,概率??(??)将等于 1,这意味着如果任何攻击方法适用于Data Node,则文件??将被破坏。那么,??(??)将被简化为:

  本文将????定义为组????中的Data Node的数量,??是 Hadoop系统中的Data Node的总数。因此,攻击者在整个Hadoop系统中选择????中的Data Node攻击概率可表示为??(??) =????其中??代表组合的总数用??副本分配文件的片段。正如本文在第三部分提到的,本文的方案强制一个片段的所有副本必须存储在同一个Data Node组中以增加数据存储的安全性。结果,?和???????????(?????)的乘积是文件副本至少????的组合存储在 Data Node组????中的组合数。

  为了简化问题,本文假设安全机制和攻击程度对HDFS的数据保证没有影响。这是合理的,因为本文的方案是独立于HDFS中的Data Node之间应用的安全机制,而且如果任何研究强调??(??),本文可以把它放入本文的模型。由于??(??)的研究不包括在本研究中,所以本文可以在此研究中将??(??)设置为 1。

  现在本文可以转换方程5.2与方程5.4如下:

  如果文件??不能被攻击者重建,则文件??的机密性得到保证。给定一个数据分配决定??,本文可以通过从1中减去??(??)得到存储在 Hadoop系统中的文件??的存储保证??(??)如下:

  5.3.4 系统保证模型评估

  描述的保证模型表明,Hadoop系统中的Data Node数量以及第?个组?

  中的Data Node数量的影响。另外,阈值?和片段的数量??(与块编号相同)在一个文件中也对系统保证有影响。

  本节的其余部分介绍了本文对这些因素对新的分配方案在Hadoop系统中提供的信息保护的影响的定量评估。

  (1)异质性对系统保证的影响如果目标Hadoop系统中的所有Data Node共享同一组安全漏洞,则一个成功的攻击方法集将能够重建受损文件。对于具有均匀脆弱性的Hadoop系统,阈值??对系统保证没有影响。当涉及到具有异构漏洞的Hadoop系统时,随着??和阈值?

  ?的增加,系统保证显着增加。这种趋势意味着高度异质性的脆弱性会导致很高的机密性保证。

  (2)复制度对系统保证的影响数据复制在Hadoop中实现,默认复制度为3。在图5.1的所有四个测试案例中,??设置为120,?

  ?设置为1至6,??设置为2。当??为1时,系统是一个同构系统图5.1显示了复制度对存储在Hadoop系统中的文件的数据保证的影响。将复制度从1增加到4,同时保持系统大小??为120,节点组数??为3。从图5.1可以看出,本实验的新方案能够很好地处理复制的数据存储,并且随着复制度的增加,存储保证性也会提高。这是因为该方案要求数据块及其副本必须存储在同一个Data Node组中,这就降低了同一文件的其他数据块占用这些Data Node组的可能性。

  5.3.5 解决方案性能分析

  在本方案的实施中,所有信息(包括安全漏洞和存储负载)都将存储在节点配置文件中。

  配置文件将在本文的方案的初始化过程中加载,以及“展示位置决策”扩展将在方案引用它之前预处理信息。另外,在本方案完成候选节点列表之后,本方案模块将把列表发送到本文定制的数据放置策略。当某些节点发出写入请求时,模块将生成一个列表,它通过引用本文预处理的Data Node配置信息包含HDFS的最佳候选对象。

  本文的集群环境由十六个节点组成,这四个节点分为四类组,每组有四个数据节点。Apache Hadoop版本是2.7.0。

  本文使用以下数据大小来测试使用HDFS默认数据放置策略和新的数据分配方案的性能相比较:

  100MB,200MB,500MB,1GB,5GB和20GB。

  测量的时间成本包括Data Node选择的处理。

  由于HDFS读写功能的性能高度依赖于I/O性能,磁盘写入和网络通信速度都可能成为整个过程的瓶颈。当数据量足够大时,可以忽略决策过程中的时间,这也是合理的。图5.2中系统大小?

  ?为16,复制度为1,展示了本文的新方案数据块放置策略和默认的Hadoop数据块放置策略的性能比较。在每个系列测试中,完成五轮测试并计算每个系列的平均值。

  从图5.2中本文可以看出,影响文件放置过程的总时间成本的主要因素仍然是数据大小。

  本方案数据放置策略和HDFS默认策略都使用相同的时间放置相同数量的数据。而且这两个策略在文件大小增加的同时也显示出相同的趋势。由此可以得出结论:本方案的数据放置策略相对于默认的HDFS几乎没有影响Hadoop系统的性能,并且显著提高了异构环境下的数据存储安全性。

  5.4 本章小结

  本章首先将异构Hadoop系统中的Data Node按逻辑分类为基于其漏洞不同的Data Node类型的组,来解决异构漏洞问题。每个Data Node类型组包含具有类似安全漏洞组的Data Node。

  本章提出了一个新的数据安全分配方案,用于提高异构Hadoop系统的安全性,其中Data Nodes具有各种各样的漏洞。为了量化本方案提供的信息保证,开发了一个存储保证模型。通过部署拟议的方案,发现了一些可以提高异构Hadoop系统保证水平的原则。这些原则旨在使系统设计人员和异构Hadoop系统能够实现数据存储的安全副本分配解决方案。本章实施了该方案,将数据块和副本放置到Hadoop系统中。最后,本章在异构Hadoop集群系统中进行实验,分析该方案的性能。

  本章讨论了实施该方案的动机、设计、实现、保证评估模型和性能评估。基于存储保证模型和实验结果的分析表明,与默认的HDFS性能相比,在保持系统性能的前提下,本方案提高了异构环境下的Hadoop数据存储安全。

对应分类:
版权所有:大学论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:82274534@qq.com