缔冠期刊网

一种海量数据处理平台的解决方案

2022-06-09

  当今社会,信息技术高度发达。据统计,世界上每天产生的数据量可刻满1.88亿张DVD光盘,这是一个爆炸式的增长。未来,这种增长不会停止,数据量每18至24个月就会增长一倍,而物联网的出现,会进一步加快这种信息的爆炸式增长。面对这种海量的数据信息,对数据的管理和处理分析成为一个新的难题,海量数据处理技术应运而生[1]。海量数据处理基本上采用分布式存储技术,把大量信息切片,并行的进行存储和处理,以加快数据处理速度,应用属于IO密集型应用。这种分布式存储和处理架构对计算机硬件系统提出以下要求:

 

  (1)整体架构基于水平式扩展的集群架构。(2)节点CPU要求不高。(3)节点内存需求相对较高,主要用于数据处理缓冲区、磁盘和通信cache,建议每节点CPU内核内存比1:2以上[2]。(4)节点网络通信带宽要求较高,主要用于数据传输和进程通讯,建议采用低延时高速交换网络InfiniBand。(5)节点内部存储容量要求较高,用于海量数据存储,建议2TB以上。

 

  1海量数据处理平台方案

 

  1.1方案概述

 

  针对海量数据处理需求,我们采用基于高速互联的IBM刀片服务器的高性能计算集群系统,CPU配置主流Intelx86架构CPU,CPU内核与内存比达到1:4,InfiniBand低延时高速互联网络可以满足海量数据处理的数据传输的需求。同时在每个计算节点中配置2TB热插拔内置磁盘存储,用于存储分布式海量数据,计算节点采用无盘启动,无需系统盘。而外置共享存储用于科学计算数据的存储与共享,同时也可承担海量数据处理应用中外部海量数据与处理系统直接的传输中转站[3]。外置共享存储采用IBMGPFS通用并行文件系统,实现计算节点与存储节点间并行文件访问协议以及RDMA传输方式(这样可以极大的提高系统IO通信带宽),同时通过CNFS/SAMBA/FTP/HTTP等二次共享方式,提供给外部客户端多种数据传输及访问方式,最大程度上支持各种各样的跨平台客户端。海量数据处理平台逻辑拓扑示意图如图1所示。

 

  1.2方案设计原则

 

  海量数据处理平台方案设计中,主要依据以下原则:

 

  1)先进性:选择主流趋势的软硬件平台产品,使之不仅能够满足目前业务的需要,还能适应未来技术发展的趋势和需要。

 

  2)灵活性:优化系统资源配置比例,实现最大的应用灵活性。

 

  3)可扩展性:提供具有最高可伸缩性的系统,并保护用户现有的投资。

 

  4)稳定性:整体系统确保稳定、高效、连续地运营,能够支持全天24小时的连续运行需求。

 

  5)开放性:系统方案采用开放标准,开放结构,开放系统组件和开放用户接口。充分满足用户投资保护和业务扩展、系统维护等方面的需求。

 

  1.3海量数据处理平台各组成部分

 

  本方案建议的集群系统中主要包含以下组成部分:管理节点、服务节点、计算节点、系统监控节点、资源/作业调度节点、登录节点、数据传输节点、存储节点、外置共享存储。主要硬件组成如表1所示,主要软件组成如表2所示。

 

  2方案优势

 

  2.1虚拟化—计算节点无盘启动

 

  最热门的行业都是在需求和技术更新这双重的推动下前进的,在高性能计算领域中也不例外。如今,在许多行业各种规模的公司都需要解决计算密集的工作负载问题。在本方案中,计算节点采用无盘启动方式,这样就把操作系统和服务器硬件的紧耦合打开,使得海量数据处理服务可以很方便的在不同服务器硬件上运行,不存在紧密的联系,所有服务器相当于一个大的资源池,用户可以根据需求,自由的调度所需资源,并且在硬件出现故障时,缩短系统恢复所需时间;同时服务器内置磁盘可以全部用作海量数据处理,提高磁盘利用率[4]。所有系统镜像采用集中式管理,在进行系统维护、软件升级、修改系统配置等常规系统维护作业时,可以极大的缩短当机时间,减少系统维护工作量;同时我们还可以针对不同的应用,定制所需的不同系统镜像,在不同系统之间方便的进行切换,管理维护极其方便。

 

  2.2高可用数据服务—GPFS

 

  1)高可用性:随着集群系统规模的不断扩大,用户对数据访问的可用性要求也越来越高,如果因为集群系统中几台服务器的故障,就导致用户数据无法访问,这是不可接受的,GPFS有着无与伦比的高可用性,这是其他并行文件系统无法比拟的。首先GPFS采用仲裁节点组的集群仲裁方式,保证系统在出现网络故障的时候,不会出现头分裂的问题。其次GPFS的磁盘支持多路径访问方式,一个NSD服务器无法的情况下,GPFS客户端会自动通过下一个NSD服务器访问,一个磁盘最多可以支持8个NSD服务器,只有这8个服务器全部宕机,才会出现部分数据无法访问的情况。

 

  2)高可扩展性:GPFS支持在线进行扩展,在不停止服务的情况上,可以很方便的向GPFS集群加入节点和存储,在线进行文件系统扩容和缩容,在线进行GPFS软件升级。

 

  3)高IO吞吐量:通过基于文件的条带化技术,GPFS可以对IO访问进行并行处理,通过对多台存储性能的聚合,使得GPFS文件系统可以达到很高的IO吞吐量,并且可以实现IO吞吐量随存储的增加而线性增长。GPFS的IO通讯支持在InfiniBand上的RDMA通讯协议,相对于TCP/IP通讯协议,通讯带宽和延时有很大提高,非常适合海量数据传输和处理。2.3集群可扩展性—两层树状管理结构

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网