虚拟机可靠性 – HA介绍

举报
ECS-FC 发表于 2017/09/14 09:16:15 2017/09/14
【摘要】 HA是High Availability缩略词,高可用性,即系统能健壮地运行,当系统出现异常,需要非常小的时间进行恢复。

HA原理

HA原理主要分为两部分,检测虚拟机故障 -> 将虚拟机重新拉起。

虚拟机故障检测:

当前云平台检测如下两种故障场景后对虚拟机执行HA

虚拟机所在服务器异常了,导致虚拟机突然消失;

windows虚拟机蓝屏,系统异常。

虚拟机重新拉起(重启)

目前Xen Pod通过VRM(虚拟资源管理)节点管理所有虚拟机,当检测到虚拟机异常后出发虚拟机HA,拉起虚拟机。

拉起虚拟机过程中最棘手的问题就是脑裂,脑裂是指虚拟机在两个计算节点上同时运行,但是底层却指向相同的共享存储,此时由于两个虚拟机实例在同时运行,如果对模块涉及到操作系统的存储空间同时写入,就可能会将存储写坏从而导致虚拟机故障

因此,VRM在拉起虚拟机过程中启动放脑裂机制,简而言之,就是真对虚拟机存储设置挑战锁,虚拟机正常运行过程中获取挑战锁,拉起过程中对存储上的挑战锁进行判断,如果存储挑战锁有写入,表明虚拟机正常运行,挑战失败,不再拉起虚拟机;否则挑战成功,拉起虚拟机。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。