为什么说云主机比物理机故障率更低?

flowwing

2015-08-26

作者介绍

邱模炯

UCloud 平台开发中心总监，北京大学计算机系研究生毕业，擅长操作系统、虚拟化和数据中心自动化等云平台的基础技术。

引言

很多朋友对云平台可用性有所担心，认为用物理机更加放心。今天我想就这个话题抛出个人看法。希望对大家有参考意义。先抛出结论：

从业务程序的角度，云主机的可用性可以做到比物理机高，即故障率更低(可用性和故障率接近但不是一个概念，为了便于阐述，下面只讨论故障率)。

我见过很多客户抱怨云主机的故障率。同时，我也见过并且帮好几个使用物理机的客户解决问题：

他们没有专业团队及大规模环境，对于复杂点的软硬件故障几乎束手无策，有时甚至解决的过程把小问题变成大问题。

这也是我今天分享这个话题的动力。下面进入正题，下图是云主机和物理机软硬件层次对比：

为什么说云主机比物理机故障率更低?

影响云主机故障率的主要因素有：

服务器硬件质量
宿主机内核
虚拟化层(KVM+QEMU或Xen)
Linux内核(承载业务程序)

影响物理机故障率的主要因素有：

服务器硬件质量
Linux 内核(承载业务程序)

从上面的对比看，云主机比物理机故障率貌似要高，因为虚拟化层和宿主机内核非常复杂，引入额外的故障率。这是直觉，而且很有道理：

AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机，多数AWS 用户受影响。虚拟化层和宿主机内核的BUG 也会同样造成宕机及重启。

那为什么还说云主机故障率可以低于物理机呢?

备注：这里我是从终端用户的角度看的，“从厂商购买的”物理机，来对比“从云平台购买的”云主机。

原因在于：简单来说，云平台厂商往往管理几万几十万台物理服务器，并有比较专业的基础运维团队和内核团队，可以在故障率上做大量的工作，以达成这样的效果：

虚拟化层和宿主机内核的故障率接近0。这两层是内核，通过内核优化来达到;
服务器硬件质量可以不断提升;
承载业务程序的Linux内核，云平台可以帮助用户进行维护。并解决BUG，修复安全漏洞等。

有人会说，我自己购买的物理机也能做上述优化，效果比云主机更好。真的是这样的么?现实情况是：

绝大部分公司管理的服务器数量不多，不足以建立相应的团队;同时因为服务器数量少(比如不到万台)，做软硬件优化的环境不理想。

下面就上述要点展开。

虚拟化层和宿主机内核的故障率如何降低?

这主要通过自主掌控虚拟化层和宿主机内核，这整套内核来实现。

1. 自主维护Linux内核

商业Linux发行版(如RHEL6.X)的内核其实有不少BUG，因为内核太庞大、太复杂，BUG 修之不尽而且不断涌现，只要内核有人在改动，更多的BUG就还在路上。

但我们自己维护的Linux内核，我们可以迅速修复并应用进实际环境，不像商业Linux要等待较长的发布周期。

我们还可以预先研究别人犯过的错误，把更新补丁打入现在的内核;还可以屏蔽不必要的特性和改动避免BUG的引入。

简单讲，自主维护内核很灵活，最终质量不低于商业Linux发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的Linux内核。

2. 免重启热补丁技术

这是指通过二进制指令修改的方式修改Linux内核达到修复的目的。

结合自主维护Linux内核，如果发现了BUG并制作修复补丁后，可以免重启应用到生产环境的Linux内核里。

这点目前主流Linux厂商不提供。但云平台厂商可以自己做。

3. 热迁移技术

特殊情况下的热迁移，可规避尚未完全定位的内核问题。

这三点的综合效果，使得某些云厂商，因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。

可能有些早期用户应该比较有感觉，几年软件宕机不少，给客户推送的故障报告不时就和内核有关，但经过一年半载的工作后，现在几乎没有了。

服务器硬件质量如何提升?

服务器硬件故障率的影响因素有厂商品牌、机型、服务器运行时间、以及部件型号的故障率。

这里的工作需要海量服务器来做，比如上万台才有意义，而几百上千台意义不大。

这里有一张图，体现我们可以主动采取部分措施。

为什么说云主机比物理机故障率更低?

1. 服务器故障率和厂商机型关系密切

我们可以监控各厂商机型的故障率，主动下架比较差的，从而提升总体质量。

一般来说，小厂的服务器故障率会高一些，但大厂即使DELL、联想的个别机型也会有较高故障率。

这主要和机型设计和生产质量管控有关，就不阐述了。我们能做的是选择故障率低的厂商和机型。

2. 服务器运行时间久了，故障率会随之提升

对于云平台厂商，可以监控这一切故障发生前的征兆，并主动采取措施，通过热迁移手段避免云主机受影响。

3. 硬件宕机和部件缺陷关系很大

我们的统计发现，部件种类里，硬盘故障故障率最高，其次内存硬件、RAID卡等。

对于硬盘故障，可以通过RAID方式规避。对于内存硬件，可以通过内存故障隔离等内核手段，大幅度减少其硬件故障造成的宕机及影响。

总的来讲，通过上述这些工作，云平台厂商可以让服务器硬件故障率逐步降低。其实，可以做的更多，篇幅原因就不讲了。而这样的工作，对于没有海量环境的公司是很难做的，效果也不佳。

另外，云平台厂商可以替用户修复云主机内核的BUG和安全漏洞，降低内核故障率。

我们在这方面做了一些工作，内核版本会及时更新，关键漏洞会提供免重启热补丁修复包。

观点总结

简要总结一下本文的主要观点：

云主机相比物理机，虚拟化层和宿主机内核的额外复杂性及故障率可以被优化至接近0即可以忽略。
服务器硬件故障，云平台可以不断降低其故障率，主要手段通过内核隔离硬件故障、热迁移规避故障隐患，以及监控故障率并主动下架不良厂商机型等。

为什么说云主机比物理机故障率更低?

上述这些工作都需要非常专业的运维团队和内核团队才能实施，如果没有足够大的服务器数量是很难开展的。

而大型云厂商往往管理几万、几十万服务器，因此具备这样的条件。也因此，云主机故障率能低于物理机(当然，如果什么都不做，云主机故障率一定是高于物理机的)。

如何一起愉快地发展

“高效运维”公众号(如下二维码)值得您的关注，作为高效运维系列微信群的唯一官方公众号，每周发表多篇干货满满的原创好文：来自于系列群的讨论精华、运维讲坛线上精彩分享及群友原创。“高效运维”也是互联网专栏《高效运维最佳实践》及运维2.0官方公众号。

提示：目前高效运维两个微信主群仅有少量珍贵席位，如您愿意，可添加萧田国个人微信号 xiaotianguo 为好友，进行申请;或申请加入技术交流群(技术讨论为主，没主群那么多规矩，更热闹)。

重要提示：除非事先获得授权，请在本公众号发布2天后，才能转载本文。尊重知识，请必须全文转载，并包括本行及如下二维码。

物理云主机云计算

flowwing

0 关注 0 粉丝 0 动态

相关推荐

观点 | 为什么说云主机比物理机故障率更低？

本文根据高效运维系列微信群的嘉宾分享整理并发布。「高效运维」公众号作为本系列群的官方唯一公众号，原创并独家首发。引言很多朋友对云平台可用性有所担心，认为用物理机更加放心。

yunna0 2019-06-20

DeepMind发了篇物理论文，用神经网络求解薛定谔方程

只要解出薛定谔方程，你就能预测分子的化学性质。但现实很骨感，迄今为止，科学家只能精确求解一个电子的氢原子，即使是只有两个电子的氦原子都无能为力。原因是有两个以上电子组成的薛定谔方程实在太复杂，根本无法精确求解。近日，DeepMind开源了一个“费米网络”，

georgesale 2020-10-21

精确人工智能——核物理与粒子物理领域的新生力量

粒子物理学中的标准模型，已经成功描述了所有已知基本粒子以及控制整个宇宙的全部四大基本力中的三种。而这三种基本力——电磁力、强相互作用力与弱相互作用力——不仅控制着粒子的形成，也决定了粒子之间如何相互作用以及如何逐渐衰减。为了突破这些限制，Shanahan领

randy0 2020-10-06

Linux平台达梦数据库V7之物理架构

DM 数据库使用了磁盘上大量的物理存储结构来保存和管理用户数据。典型的物理存储结构包括：用于进行功能设置的配置文件；用于记录文件分布的控制文件；用于保存用户实际数据的数据文件、重做日志文件、归档日志文件、备份文件；用来进行问题跟踪的跟踪日志文件等。启用/禁

helencoder 2020-05-27

容错量子计算新突破！困扰物理学界 80 余年的马约拉纳费米子首次在金属中捕获到

本文转自雷锋网，如需转载请至雷锋网官网申请授权。这个问题在提出 80 余年后，终于得到了肯定的回答。2016 年，中美科学家首次联合捕获到了这种粒子——「马约拉纳费米子」。鉴于其独特的属性，马约拉纳费米子是制造量子计算机的完美选择之一。

量子计算机网络 2020-04-16

Refined Architecture阶段读后感

Refined Architecture属于架构设计，不能与Detailed Design相混淆。架构领域最喜欢将建筑设计的多视图方法与软件架构设计的多视图方法做类比。实践要领5视图方法总图：每个视图，一个思维角度5视图方法包括下面几个视图：逻辑视图。5个

JavaWDB 2020-04-10

量子力学为什么没考好

数学有类似题，能够熟能生巧，数学有熟的基础。但物理也有一些套路题，比如自旋和磁场耦合，因为题目多，所以熟。一旦物理题有创新，可能就很难，能隙很高。综上，一共就这三道小题，最多30分，其他题都会。估计有哪里算错，所以还多扣了十几分，或者把我第二题第三和第四问

算法与数学之美 2020-02-24

从物理、技术和管理三个方面初探混合云安全

混合云提供了减少数据潜在暴露的机会。您可以将敏感或关键的数据保留在公有云之外的某处。也就是说，它既消减了数据泄露的风险，又充分利用了云技术的优势。这种独立的但仍然相互连接的架构，使得企业能够同时在私有云中运行各项关键的工作负载;而在公有云中运行那些并不太敏

czsong 2020-02-21

我支持语文物理，反对数学物理

我支持语文物理，反对数学物理。

starletkiss 2020-02-19

云计算新星—云服务器中最重要的技术是什么？

使用云计算来管理和部署公司应用是一个不错的选择，它的好处有很多。对于开始使用该技术的人员来说，不需要大量投资，并且从理论上讲，一个较小的IT团队来管理服务器，这适合中小型企业的需求和可用性。该公司也不会担心服务器硬件更新与淘汰的成本。云服务选择也是有技巧的

常言道 2019-12-26

固定宽度布局开发WebApp如何实现多终端下自适应？

在默认情况下，一般来讲，移动设备上的viewport都是要大于浏览器可视区域的，这是因为考虑到移动设备的分辨率相对于桌面电脑来说都比较小，所以为了能在移动设备上正常显示那些传统的为桌面浏览器设计的网站。在css中我们一般使用px作为单位，在桌面浏览器中cs

wangjie 2019-12-01

数据分页（物理分页和逻辑分页）

> 总页数 = 总数据条数 / 每页展示条数>> countPage = count / pageSize. 所谓的物理分页其实就是直接通过数据库来实现返回一部分数据。与之相对应的还有逻辑分页。```sql SELECT * FRO

nimeijian 2019-10-31

RedHat Linux通过LVM动态扩展系统分区

　　LVM是逻辑盘卷管理的简称，它是Linux环境下对磁盘分区进行管理的一种机制，LVM是建立在硬盘和分区之上的一个逻辑层，来提高磁盘分区管理的灵活性。管理员可以在卷组上随意创建逻辑卷组，并进一步在逻辑卷组上创建文件系统。而且当系统添加了新的磁盘，通过LV

goawalk 2010-09-07

磁盘管理：LVM逻辑卷

LVM，是Linux操作系统的逻辑卷管理器。??LVM将一个或多个硬盘的分区在逻辑上集合，相当于一个大硬盘来使用，当硬盘的空间不够使用的时候，可以继续将其它的硬盘的分区加入其中，这样可以实现磁盘空间的动态管理，相对于普通的磁盘分区有很大的灵活性。??与传统

jackalwb 2019-10-22

Android开发之3D物理引擎

Android下有很多优秀的3D物理引擎，如alien3d，gamine，jpct等，今天，我们介绍如何使用jpct. 下面我们要正式开始了，我们今天要做三个实验，第一个是掌握如何编译jpct的Demo，第二个是如何使用jpct写一个HelloWorld，

xz0mzq 2012-06-04

云托管，边缘物理计算&托管物理计算，你所需要了解的……

业务快速发展，设备采购周期冗长，大量采购造成CAPEX过重，是否让你的资产成本？以上这些问题，均引出一个近期很热的话题“CAPEX转OPEX”……众所周知CAPEX支出会形成资产入账，折旧部分增加企业成本，同时影响企业的产生效率。CAPEX过重，对投资者来

光谷通讯 2019-09-06

什么是数据库以及数据库的概念

本节介绍数据库的基本概念，包括数据库存储方式、数据库技术的发展历史、数据库的存储结构以及数据库在开发中的作用。对于数据的处理，一般会采用数据库相关的技术进行处理，从而保证数据处理的高效性。位：二进制的一个单位称为位，位只能取 1 或 0。这些逻辑数据最终要

云计算大数据 2019-08-08

Linux中利用LVM实现分区动态扩容

LVM的全称为Logical Volume Manager，它是Linux环境下对磁盘分区进行管理的一种机制，LVM是建立在硬盘和分区之上的一个逻辑层，来提高磁盘分区管理的灵活性。通过LVM系统管理员可以轻松管理磁盘分区，如：将若干个磁盘分区连接为一个整块

yangliuhepanpan 2014-10-08

win7系统电脑怎么修改物理地址?

现在很多地方网络连接都和物理地址绑定了，这样有账号和密码都不能连接上网，在这里告诉大家一种修改网络地址的方法，这样可以绕过物理地址绑定的限制，不会的朋友可以参考本文，来看看吧！切换到“高级”选项卡，在属性列表中找到并点击“网络地址”，在右侧输入修改后的网络

空旷在远方 2016-07-11

Linux逻辑盘卷管理LVM详解

而遇到出现某个分区空间耗尽时，解决的方法通常是使用符号链接，或者使用调整分区大小的工具，但这都只是暂时解决办法，没有根本解决问题。随着Linux的逻辑盘卷管理功能的出现，这些问题都迎刃而解，本文就深入讨论LVM技术，使得用户在无需停机的情况下方便地调整各个

riruojigu 2011-06-24

flowwing

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号