企业如何在云服务中断时避免受伤

亚马逊今年4月那次出了名的云中断导致大量著名网站的宕机,其中包括foursquare和Reddit,但是亚马逊的很多企业级云服务客户却安然度过了这次中断风险,并没有因此而受损。

这些企业级客户的系统驻留在多个可用域中,要么在传统数据中心留有备份,要么选择了备份的云服务商设置,一旦出现状况便可安然防范。

硅谷的一家照片共享公司SmugMug即便在其同行们纷纷落马之时也安然无恙。这里面的部分原因是因为它没有使用亚马逊的弹性块存储——这个特殊服务组件在系统中断时也会中断。

当然,该公司还将其系统在亚马逊的多个数据中心做了备份——这些数据中心就是亚马逊所谓的“可用域”。

SmugMug的CEO Chris MacAskill认为,加入其他的同行也能像他们那样将其应用做分布式备份的话,也能够安然度过危机。他还建议这些公司也使用多个亚马逊可用域,而且各个域之间的隔离性最好高于亚马逊可用域之间的隔离性。当然,亚马逊会对使用多个可用域收取更高的费用,所以必须仔细考虑企业的需求。

SmugMug如今非常依赖亚马逊,利用后者基于云的简单存储服务(S3)存储客户的照片和视频。SmugMug还用到了很多的EC2实例。但是它没有用到弹性块存储——该服务是每个EC2实例自带的,通常用于存储各种运营数据——而是仍然使用了传统的数据中心。

但是即便如此,SmugMug还是遭遇了一些损失,比如在亚马逊中断服务的那一周里,该公司的一台核心路由器、备份服务器和一台核心的主数据库服务器都宕掉了。“我一点儿都不想再去处理路由器或者数据库的故障,这也就是为什么我们始终采用云服务的原因,”MacAskills说。

他补充说,即便遭遇到服务中断,他们从亚马逊所获得的云服务依然要比他们自己的好,也要比其他云服务商的服务好。“我们对亚马逊非常信任。”

一家以色列公司Kitely只使用了亚马逊的一个可用域,但幸运的是,这个域逃没有出现服务中断。

不过这家公司已准备从这次中断事件吸取教训。“我们计划将我们所有的服务分布在多个可用域上去,”Kitely的研发副总裁Oren Hurvitz说。

Kitely是一家运行云会议与云协作环境的公司,其平台是OpenSim,他们会对服务进行连续检查以确保其所有服务始终在线,正常运行。

“我们的系统设计基于这样的假设:任何服务都有可能在任何时刻出现中断故障,如果我们发现有台服务器没有及时响应,我们就会停掉它,开启一台新的服务器。”他说。

传统备份服务

还有一家公司没有受亚马逊服务中断的影响,因为这家公司使用了多个可用域,这就是Mashery公司,这家公司为100多家企业,如百思买、Hoovers和纽约时报等提供API。不过Mashery也还有另外一套备份计划,那就是传统的数据中心。

“我们很早就意识到,亚马逊的服务可能会出问题,可能会完全无法使用,所以我们就决定需要做一个故障切换基础设施,”Mashery的CEO Oren Michels说。“我们采用了Internap公司专门的硬件。”

总部在亚特兰大市的Internap网络服务公司不仅能为Mashery提供一个热备份场所,而且还可为客户提供一个比云的延时要低的生产环境,或者在亚马逊服务覆盖不到的地理位置提供服务。

“我们在两个地方维护者充足的基础设施,以便应对峰值负载,”他说。

两年前,当Mashery刚开始构建其云基础架构时,亚马逊还不是云厂商。因此那个时候说要向另一个云厂商做备份还不是一个必选项,但是现在已有了这种可能。

“我们肯定会持续关注这样的做法。亚马逊为我们服务的也非常好,而Internap也是一个很好的合作伙伴,会继续为我们提供所需要的服务。”

Internap甚至压低了价格以保持竞争力,但是他说,价格并非他们进行决策时的主要依据。

“我们的客户是上百家大品牌客户,万一出现状况导致服务中断,那么失去这些客户的代价将会是非常巨大的。我们的客户之所以肯付钱要解决API的问题,就是想在一旦出现故障时我们能让他们安然无恙。”

Enderle集团分析师Rob Enderle认为,正在向云迁移的企业通常都会在开始阶段继续使用传统数据中心作为其备份。

“你可以拥有一组较少的设备作为备用设备,用于故障切换,”他说。

“通常情况下,在企业向云迁移之前就得做好这种准备。这样便可在出现故障时切换到一种性能较低的设备上去,始终维护住自己的客户。”

企业一般会把一些应用运行在传统数据中心内,而将另一些应用运行在云上,对这两方都使用同一个灾备场所,因为亚马逊的服务和传统数据中心的服务在同一时刻中断的几率是微乎其微的。但是他也反对在同一朵云中,用一组云服务为另一组云服务做备份的做法。

“一种冗余服务虽然可以和主服务使用某些相同的资源,但是必须慎用,必须确保冗余的资源是真正冗余的,而不是软硬件重叠使用的另一种叫法。”他说。

选择第二家云提供商

利用一家云服务提供商作为传统数据中心的备份一般来说要比采用其他方法更加节省成本。

这是因为在云服务商那里,你可以按计算周期付费。没有用到计算周期时,客户只需要最少量的计算能力能够快速启动服务即可,只有在需要的时候才会增加更多的服务容量。

而在传统数据中心内,必须时刻保证有足够多的服务器能够投用,以便应对峰值负载,即便这些服务器平常很少使用也得如此。转换成硬件成本,也就是诸如电力消耗和人员费用等——一般来说,一个传统的备份中心可能会使总的计算成本加倍,而一个云备份中心可能只增加了一定比例的成本而已。

举例来说,网盘加密厂商AlertBoot仅每月用电一项成本就高达5万美金,AlertBoot的CEO Tim Maliyil说。

“我们曾经在一个地方有两个物理数据中心——你简直无法相信当我们把它们关闭掉的时候是多么的高兴。如今,我们有两个云,带宽和托管费用是每月16000美金。电力和容量几乎没有任何浪费,云真的是我们的成本和持续支出最小化了。”

向云提供商迁移并不困难,因为AlertBoot早就在其传统数据中心内使用VMware的虚拟化软件了。该公司所选择的两家云服务商是SunGard和OpSource,这两家所使用的也是VMware的技术。

他说,从其中一家向另一家切换只需费时一两分钟,备份云可以迅速增加容量以处理猛然间增加的负载。而切换过程本身采用的则是Zeus科技公司的技术。

Maliyil称,他的公司之所以选择了这两家云服务商,是因为它们的企业级可靠性很好。“对于我们这个行业来说,我们的客户不能容忍发生故障,所以我们必须绕开亚马逊的基础设施。”

还有一家可帮助企业管理在多个云上的服务的公司是rPath,该公司已有90多家企业客户,多数都是大型企业和大型ISP,其中包括像AMD、富士通、高通和EMC等。

这家公司最近部署了16种格式的镜像服务,可对云环境中运行的应用进行快照处理。增加一个云一般只需要不到一周的时间,rPath的首席营销官Jake Sorofman说,“这点时间对我们来说就相当短了。”

该公司已可支持亚马逊EC2、VMware、Citrix Zen、微软Hyper-V、Rackspace和其他一些镜像格式。一旦某个应用在rPath系统中运行,那么系统只需15分钟便可生成新的镜像,并将其部署到新的云上去。

但是,应用首先必须重新为rPath系统进行架构设计,这会花费稍长一些时间。“为我们的平台重新打包应用的过程可能需要数小时到数天时间,这取决于应用的复杂程度,”他说,“但我们拥有专业的服务团队,可以很好地为客户提供服务。”

他说,很多流行的应用已经打包设计完成,例如Windows和Linux操作系统、WebLogic和WebSphere、SAP、EMC和RSA产品等。

“利用我们的技术,已经有一系列内容广泛的应用堆栈进行了模块化,都是可以现成使用的,”他说。

相关推荐