在云和大数据时代,数据容量的激增、数据种类的多样,对系统的存储架构和保护体系提出了全新的挑战。传统的信息系统架构已难以满足当前用户对其灵活性、安全性、智能性的需求。因此,就有了近年来各类新兴技术的不断升级迭代,如云计算、分布式存储、超融合等。而新技术、新架构的衍生,也在不断促进系统安全保护技术的完善升级。
任何一次系统故障,都有可能对企业造成致命性打击。据Gartner数据表明,40%的公司在灾难发生后不能恢复运营,而剩下60%中有33%将在两年内倒闭。为了有效提升系统抵御风险的能力,在IT 系统建设的过程中,有必要引入“容灾”的概念。
容灾,从广义上讲,任何提高系统可用性的措施都可称之为容灾。容灾,即灾难发生时,在保证生产系统数据尽量少丢失的情况下,保持生产系统业务的不间断运行。容灾可分为本地容灾、异地容灾、云容灾。
本地容灾
本地容灾一般指主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续正常对外提供服务。通常可通过共享存储或双机双柜的方式实现本地容灾,其中多以共享存储为主。
共享存储由三部分组成:活动主节点,不活动备节点,共享存储。其中两台计算资源节点提供主备角色服务,通过SAN网络附加型存储作为数据存储的介质。主备节点共享一份存储,一旦主节点宕机,备节点可基于共享存储实现业务的接管。但共享存储的同构成本和远距离高可用接管成本过高,存在较大存储故障风险,且只支持一对一架构。
双机双柜是一种不依赖共享存储而实现的高可用保护架构,采用主备的高可用保护模式。在双机架构中,生产主机和备机具有物理层的完全独立性,应用、系统、网络和数据都是一式两份,生产主机和备机可通过存储网络或局域网进行连接。其中,本地的存储网络连接的主备高可用适用于近距离的容灾建设,受距离限制较大;异地远距离的主备高可用,则会存在极小的数据延时。
异地容灾
异地容灾一般指在与生产机房有一定距离的异地建立与生产机房类似的信息平台(备份中心),并采用特定的技术将生产中心的数据传输到该备份中心,从而在生产中心发生较大的灾难如火灾或地质灾害时,仍能对生产数据进行保护的容灾系统。
传统的磁盘/磁带备份手段,可通过磁盘/磁带对本地关键数据进行备份,然后送至生产中心之外的地方进行保存,灾难发生后,可通过磁盘/磁带存储数据实现系统和数据的恢复。尽管这种手段成本低、易操作,但当存储数据增加时,存储介质管理将成为难以解决的问题,所以现多采用网络传输的方式进行异地容灾。英方i2Availability应用高可用可以实现超远距离的异地容灾,适合云和大数据时代的异地容灾需求。
云容灾
云容灾一般指云数据中心的物理机或虚拟机容灾。云主机系统由大量服务器组成,并分布在不同的地点,并在同一时间为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。
当然,随着云计算的普及,业务上云所带来的容灾需求也越来越多,例如云端的容灾演练。在这个新的应用领域,门徒娱乐联合华为云共同打造了全新的云端灾备演练方案Cloud CDM,它采用了英方CDM技术和华为云在云端实现灾备端自动拉起生产检验副本,打造智能化云端容灾演练体验,并在金融行业用户成功落地实施。
综上,一个容灾系统的实现可以采用不同的技术,而容灾方案的选择,由其最终要达到的效果来决定。通常可从以下五个策略维度进行容灾方案的选择:
策略1:容灾中心架构
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。容灾中心的架构按照源备端之间的距离,可分为本地容灾、同城双活、两地三中心。其中,异地容灾要求数据中心间距离须保证在三百公里以上,同时还必须做到“三不”,即不在同一地震带,不在同一电网,不在同一江河流域。
容灾中心的选址直接影响到容灾方案的效果和保护等级。当生产中心和容灾中心间的距离大于100km、小于300km时,此种方案只能为生产中心提供应用级容灾保护,提升生产中心抵御物理破坏的能力,但是不能有效避免地震、洪水等级别灾难带来的损失。
从下图可以明确,最为稳固的、保护等级最高,也是成本最高的容灾方案,即“两地三中心”:本地的生产中心和容灾中心相距100km以上,进行应用级/业务级容灾保护,且在300km以外的异地建立容灾中心,进行数据级/应用级容灾保护。
策略2:容灾中心运营模式
运营模式可以分为主备和双活两种形式:
主备模式即生产中心正常对外提供服务时,同步将数据单项复制到备端数据中心,且备端不对外提供服务。一旦生产中心故障,备端生产中心接管服务。这种模式资源投入较低且技术实施和后期维护相对简单,但是灾后业务恢复速度慢。
传统主备模式的弊端在于,备端长时间处于待机状态,存在资源浪费情况。且多种潜在因素如心跳线中断、网络短时间中断、应用服务器响应不及时等,容易导致在生产中心实际运行正常情况下进行误切换,即存在“脑裂”现象。
双活模式下的两个数据中心分别对外提供服务,且彼此之间保持双向复制。一旦一端故障,另一端立即接管其业务,保障业务的连续性。这种方式相较于主备模式,其业务恢复速度更快,但整体资源投入更高,实施及运维难度更复杂,且存在业务冲突风险。
策略3:容灾中心布局模式
布局模式可分为一对一和多对一,从下图可见,一对一模式需要的设备投入和实施、管理难度更高,但业务恢复速度快;而多对一模型虽然资源投入更经济,实施管理更方便,但整体业务恢复会慢一些。
策略4:容灾级别与能力
容灾系统按保护级别可分为:数据级容灾、应用级容灾和业务级容灾。从下图可以看出,三种容灾级别的功能、所需的恢复时间和投入均不相同,其中:
数据级容灾是针对数据进行保护,数据级容灾能够实现灾难发生后数据不会受到损坏。这种级别的容灾方案实施简单、资源投入和后期运维成本较低,但是系统恢复速度较慢,业务恢复速度难度高。
应用级容灾主要针对关键应用进行的容灾方案,应用级容灾是建立在数据级容灾的基础上,对应用系统进行实时复制,也就是在备端再构建一套应用系统,可提供应用接管能力。应用级容灾实施难度高、资源投入和后期运维成本也不小,但是系统恢复速度较快,业务恢复速度难度较低。
业务级容灾是最高级别的容灾建设,如果说数据级容灾、应用级容灾都是在 IT 系统的范畴之内,业务级容灾则是在以上两个等级的容灾基础上,还需考虑到 IT 系统之外的业务因素,包括备用办公场所、办公人员等,而且业务级容灾通常对支持业务的 IT 系统会有更高的要求(RTO 在分钟级)。相对以上两种容灾级别,业务级容灾保护的系统持续可用,业务恢复难度低,但是实施部署难度高,需要的资源投入和后期运维成本都非常高。
策略5:容灾建设与研究策略
从企业的发展阶段来看,在创始初期,企业的信息系统还在逐步构建完善的过程,这个时期可针对关键业务系统进行数据级容灾;当企业发展到一定阶段,开始稳步向上的成长期,业务系统相对初期更健全、丰富,即可根据企业实际需求选择“数据+应用”级的容灾或者“数据+应用+业务”级的容灾;在企业的成熟期,企业的业务和规模不断扩张,这个时候就可以考虑选择同城双活或者两地三中心的容灾解决方案,保障数据不丢、业务不停。
在IT领域,任何产品方案都有其利弊,在具体的场景下,当团队进入到容灾方案的甄选环节时,总需要在权衡利弊之后做取舍,判断的标准是意向方案整体上利大于弊时,可能就是场景比较适合的容灾方案。门徒娱乐拥有全域的、多层次多策略的容灾方案,可在远距离、窄带宽、跨平台等应用场景下,为用户提供本地、异地、云端的数据级和应用级灾备保护,全方位保障用户数据和业务安全。
及时响应,快速服务,为您保驾续航
立即注册