城市商业银行如何提升数据中心的可用性
某城市商业银行数据中心升级过程中,两台旧UPS因负载过高(达到容量的90%),运行50分钟后切换至旁路,发电机不通过UPS直接对IT设备供电。12分钟后三台发电机接连出现“失磁”报警,陆续停止运行,导致机房全部设备断电,系统宕机,70多家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国十多个省份,并造成部分服务器损坏,银行业务最长恢复时间达到7小时32分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统不同时间中断。
银行业的数据中心特别注重安全问题,特别是城市商业银行,一切数据中心建设都要以安全为宗旨,保护数据安全为优先的发展原则。安全是银行业的数据中心发展和建设的首要议题,一切工作都围绕着数据“安全”为核心来展开。
要实现数据中心的安全,达到提升数据中心可用性的目的,主要从两方面着手:
一、多数据中心相互配合,全国一盘棋,做到整体的可用性最大化。
近年来,随着国家对金融业两地三中心的政策要求,各商业银行都在忙着筹备自己的主用和备用数据中心,通过同城和异地灾备来保证数据的可用性要求。
有些要求高的金融机构,甚至会采用“三地六中心”的分布式架构,金融机构采用6线接入三地六中心,实时交互,以实现多点多活、冗余容错、智能导流的作用。
这是银行业数据中心在全国布局上做的可用性应对,而作为单个的数据中心,其可靠性如果没有保证,各数据中心的整体可用性依然会面临着极大的风险。
要想实现数据中心的高可用性,从数据中心基础设施考虑,则必须做到单个数据中心的可靠性、维修性和维修保障性的综合性能提高。
在提高单个数据中心可靠性、维修性和维修保障性方面,要从数据中心全生命周期多个阶段着手。
首先,要有正确的Tier等级及国标A级理念。
Uptime Tier等级标准因其作为有效提高数据中心可用性而被最为广泛接受,其被世界范围内的数据中心行业所承认,且已有一千多家数据中心拿到了Uptime Tier等级认证。如果正确掌握了Uptime Tier等级标准,则可以有效保证数据中心的可用性。
其次,要有符合等级要求的架构规划设计。
在确定了数据中心等级标准之后,在保证数据中心可靠性的同时,还要考虑数据中心可靠性与节能的平衡,还要考虑可靠性与投资分析,杜绝木桶短板效应,防止出现影响数据中心可靠运行的隐患,也要避免过度冗余,带来不必要的成本增加、能耗增加、运行费用升高。
第三、要有准确、高质量的施工。
要想实现高质量的施工,必须要有可靠的施工单位,如果是一家没有相关资质和经验的施工单位来做高标准数据中心的施工,其结果必然与预期有偏差。这就要求对施工单位的选取做出严格的把控,切实选取高质量的施工单位。同时,设备采购的时候,也要考虑设备的品牌及其质量标准,做出符合等级要求和投资预算许可范围内的产品定位。在施工过程中,也要做好质量控制,保证项目完全按图施工,将设计阶段的可靠架构完全落实成为建筑成果。
在测试之前,要做好充分的准备,业主、施工单位、测试单位、设备厂家等各方到位,对各自负责的部分安排好人手和工具,对数据中心各系统、子系统、各自故障场景等进行全方位无死角的模拟,对从设计、施工一直到运维各阶段进行全生命周期的诊断,发现可能存在的安全隐患,及早整改,做到对数据中心成品的完美收官,交付给运维一个健康完整的数据中心。
在运维阶段,大概超过50%的故障都是由人为导致的,要降低运维阶段的风险,在设计架构可靠的基础上,还要做到规范的运维,要有科学完整的运维体系,严密的组织架构,合理的人员配置,做到平时各种可能故障场景的模拟演练,分工合作,责任到人,平时演练到位了,真正遇到事情的时候,按规范要求操作,就能做到遇事不慌,将故障限制在最小范围内,实现数据中心的安全运行。
综上,如果在各个方面、各个阶段都能以可用性为中心进行布局,则完全可以实现城市商业银行数据中心的可用性得到有效的提升!