• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 散文 > 正文

    面向云计算的数据管理技术研究:大数据技术包括云计算平台

    时间:2019-04-20 03:15:18 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

      摘要:该文首先对云计算的定义及云计算中数据管理技术进行了介绍,之后深度剖析了当前互联网主流云数据管理系统的基本原理,最后指出了云数据管理领域的主要研究方向。并对目前存在的问题与未来研究热点进行了探讨,为进一步的研究提供依据。
      关键词:云计算;资源管理;云存储;分布式计算
      中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)13-3209-03
      Data Management Technology for Cloud Computing
      WANG Cheng1, ZHAO Bi-fang2
      (1.Wells Fargo Bank, West Des Moines, 50266,USA; 2.ASDI Inc, West Des Moines, 50266,USA)
      Abstract: Firstly, the definition of cloud computing and cloud computing, data management techniques were introduced, the depth of analysis of current Internet mainstream cloud the basic principles of data management systems, and concluded that the main research directions of the cloud the field of data management. And the existing problems and future research focus are discussed to provide a basis for further research.
      Key words: cloud computing; resource management; cloud storage; distributed computing
      云计算(Cloud Computing)是网格计算(Grid Computing)、分布式计算(Distributed Computing)、效用计算(Utility Computing)、并行计算(Parallel Computing)、负载均衡(Load Balance)、虚拟化(Virtualization)、网络存储(Network Storage Technologies)等传统技术发展融合的产物,是目前比较流行的名词[1-2]。广义上的云计算指通过计算机网络以易扩展、按需的方式获得所需服务,主要是指服务的使用与交付模式[4],服务可以是其他服务。通过以上陈述,笔者认为,狭义云计算是指以网络为媒介,通过按需、易扩展的方式从而能获得所需要的资源,即IT基础设施的交付和使用模式[3]。
      云计算主要包括以下三个层次服务:(1)软件即服务(SaaS);(2)平台即服务(PaaS);(3)基础设施即服务(IaaS)[5]。由于云技术需要有大量的用户参与其中,这就会造成诸多隐私问题。譬如用户参与涉及到收集部分用户数据,势必会引发用户数据安全问题,很多使用者会担心自身的隐私会被云技术收集从而暴露。因此,很多厂商都在加入云计划的同时均会表示尽量避免收集用户的安全隐私,若不慎收集到也不将此泄露甚至使用,给他人造成不便。但在实际情况中仍有不少人质疑厂商的承诺,这是因为仍有不少知名厂商在此期间都被指责有可能泄露用户隐私,且泄露事件也确有其事。
      1云数据管理研究现状
      1.1 Google File System文件系统(GFS)
      Google有一套自身专属的云计算平台,该平台是为Google提供最重要的搜索应用提供服务,目前已扩展到其他应用程序[6-7]。Google的云计算基础架构模式包括4个相互独立又紧密结合在一起的系统: Google File System分布式文件系统,针对Google应用程序的特点提出的MapReduce编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTable。除了性能,可伸缩性、可靠性以及可用性以外,GFS设计还受到Google应用负载和技术环境的影响。图1给出了Google File System的系统架构[8]。
      1.2 MapReduce分布式编程环境
      Google简化分布式系统的编程是通过构造MapReduce编程规范来实现的。程序员只需将注意力放在应用程序本身,由平台来处理关于集群的处理问题(包括可扩展性与可靠性)[9-10]。MapReduce运算基本单元通过“映射”和“化简”来构成,用户只需提供自己的Map函数以及Reduce函数即可并行处理海量数据。图2给出了MapReduce执行过程,该过程分为Map和Reduce两个阶段,在两个阶段之间还有一个中间的分类阶段,即将中间结果包含相同的key的中间结果交给同一个Reduce函数去执行,另外两个阶段都使用了集群中的所有节点[11-12]。
      
      图1 Google File System的系统架构
      
      图2 MapReduce处理程序的执行过程
      1.3分布式的大规模数据库管理系统BigTable
      由于有部分的Google应用程序需要对大量的格式化或半格式的化数据进行有效处理, Google构建了大规模数据库系统Big? Table,该系统有弱一致性要求。BigTable的应用包括Maps,Orkut,Search History,RSS阅读器等。BigTable数据库系统的数据模型如图3[13]。数据模型所有的数据都存放在表格单元中,包括行列以及相应的时间戳。BigTable的内容按照行来划分,将多个行组成一个小表(这个小表称为Table),保存到某一个服务器节点中。   
      图3 Google BigTable的数据模型
      2存在的问题与未来研究热点
      云计算是一种处理大规模密集型数据的并行分布式计算技术,目前已有的云计算编程模型以MapReduce典型为代表,其他的大体上是这种方式的变种。谷歌公司开发的编程架构MapReduce简化了编程人员的工作,并且使数据的处理效率提高,因此MapReduce受到了较多的关注,获得了较大的发展,但还没有形成成熟的、系统化的理论体系,并且在面对计算过程相对复杂的计算任务时,这种简单的编程模型将可能效率低下,甚至有些复杂的计算任务会因为这种分解方式而不能收敛[14-16]。
      一般来说云计算的终端用户应该不用考虑分布式并行处理系统方面的细节问题,就可以享受云计算所带来的的各种服务。但是随着企业数据密集型大规模计算需求的出现,现有编程模型还面临着更多的新挑战。一方面石化企业遗留了大量历史数据,并且石化企业每年产生的数据已达到PB(拍字节,1015B)数量级,其总量不仅成几何级数增长,其结构也呈现连续的高维时空特性,较传统的二维关系表和结构的万维网数据更复杂多变。随着数据总量和复杂性的增加,用户的查询需求越来越多,也越来越复杂。“数据在,找不到”的问题日益严重,如何有效地在云计算平台中存储和管理海量数据,成为其中的新的难题。另一方面在数据密集型大规模计算系统中,影响性能的重要因素包括了大规模数据的移动、复杂计算的局部性、多任务的调度等操作,为了兼顾简单性及性能优化,编程模型需要对上述影响因素提供适当的透明性。
      云计算需要对大量分散的数据进行集中处理和分析,这就要求数据管理技术需能对大量数据进行高效管理。如何在规模庞大的分布式数据中快速准确的找到目标数据,也是云计算数据管理技术所必须解决的问题。同时,由于管理形式的不同造成传统的SQL数据库接口无法直接移植到云管理系统中来。另外,在云数据管理方面,如何保证数据安全性和数据访问高效性也是研究关注的重点问题之一。
      3结束语
      本文首先对云计算的定义及云计算中数据管理技术进行了介绍,之后详细阐述云计算数据管理技术的研究现状,并对目前存在的问题与未来研究热点进行了探讨,为进一步的研究提供依据。
      参考文献:
      [1]徐志伟,廖华明,余海燕.网络计算系统的分类研究[J].计算机学报,2008,31(9):1509-1515.
      [2]钟伟彬,周梁月,潘军彪,等.云计算终端的现状和发展趋势[J].电信科学,2010,26(3):22-26.
      [3] Armbrust M,Fox A,Griffith R,etc.A view of cloud computing[J].Communication of the ACM,2010,53(4):50-58.
      [4]陈康.云计算后台大规模数据处理技术探讨[J].电信工程技术与标准化,2009,22(11):12-16.
      [5]陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348.
      [6]李晓伟,沈艳秋.云计算及其发展进程[J].科技信息,2011,15(2):1-3.
      [7] Rodrigo N,Calheiros,Rajiv Ranjan,Anton Beloglazov,etc.CloudSim: a toolkit for modeling and simulation of cloud computing environments and evaluation of resource provisioning algorithms [J].Software-Practice & Experience,2011,41(1):23-50.
      [8] Mark Stillwell,David Schanzenbach,Frederic Vivien,etc.Resource allocation algorithms for virtualized service hosting platforms[J].Journal of Parallel and Distributed Computing,2010,70(9):962-974.
      [9]柳敬.云计算平台的成本效用研究[D].北京:北京邮电大学,2010.
      [10]刘少伟,孔令梅,任开军,等.云环境下优化科学工作流执行性能的两阶段数据放置与任务调度策略[J].计算机学报,2011,34(11):2121-2130.
      [11]白蛟,全春来,郭镇.基于物联网的公共安全云计算平台[J].计算机工程与设计,2011,32(11):3696-3700.
      [12] Daniel Warneke,Odej Kao.Exploiting Dynamic Resource Allocation for Efficient Parallel Data Processing in the Cloud[J].IEEE Transac tions on Parallel and Distributed Systems,2011,22(6):1045-9219.
      [13]刘晓茜.云计算数据中心结构及其调度机制研究[D].合肥:中国科学技术大学,2011.
      [14]庞志鹏,陆伟宙.云计算环境下的资源调度研究[J].移动通信,2011,35(23):32-35.
      [15]于戈,谷峪,鲍玉斌,等.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767.
      [16]丁琳琳,信俊昌,王国仁.基于Map-Reduce的海量数据高效Skyline查询处理[J].计算机学报,2011,34(10):1785-1796.

    相关热词搜索: 数据管理 技术研究 面向 计算

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章