正文内容 评论(0

阿里云引入“混沌工程”提升稳定性 专有云遭“随机破坏”后依然正常运行
2018-09-20 17:30:53  作者:柠檬 编辑:柠檬     评论(0)点击可以复制本篇文章的标题和链接

2018杭州·云栖大会上,阿里云上演了一出好戏——12600种异常被现场观众随机挑选,化身一只“功夫猴子”在专有云数据中心里横冲直撞,进行“破坏”:模拟硬盘掉电、网络抖动、服务器宕机等,但系统和应用依然稳定运行。

“IT从业者最大的未解之谜就是,为什么一块磁盘被写满加上网络堵塞,会引起关键应用服务中断的连锁反应?”阿里云专有云兼企业应用总经理马劲打趣说,“过去我们不具备全系统演练的条件,今天我们引入‘混沌工程’理念,在准生产环境中做高频异常注入来打磨专有云的可靠性。”

自去年云栖大会上现场演示拔服务器电源后,马劲就有了个“破坏之王”的名号。但“破坏”是为了让系统更稳定,过去一年,他和工程师们开启了一项“混沌工程”计划,构造超过12600种生产环境下可能出的异常组合,每一种都能对系统造成一定程度的破坏,诸如服务器宕机、计算资源耗尽、程序异常退出、误删除及网络抖动、IO  hang等复杂问题,通过对这类问题构建“专有云免疫系统”,帮助客户提前排除80%的故障隐患。

阿里云引入“混沌工程”提升稳定性  专有云遭“随机破坏”后依然正常运行

或许是现场观众随机挑选的异常“破坏力”不足,马劲一狠心,演示了一个极端环境下的超级异常——核心ECS集群出现局部网络异常,同时另一台ECS计算资源饱和。“这类情况极易引发系统雪崩,一般情况下客户的服务就挂掉了,而且恢复时间很长,”马劲解释道,演示现场的专有云快速隔离及弹性伸缩服务发挥了作用,应用仅持续了几秒的抖动便恢复了正常。

“混沌工程”通常应用在工程领域,指在可控范围内实践一些可引发系统失效的实验。马劲表示,阿里云的“混沌工程”是在仿真的生产环境中进行可控的建设性破坏,对不符合预期的系统反馈不断优化,从而持续打磨,为客户提供稳定环境。

阿里云引入“混沌工程”提升稳定性  专有云遭“随机破坏”后依然正常运行

自2016年发布专有云解决方案以来,阿里云已助力数百家政府、金融、企业客户完成了数字化转型,包括海关总署、浙江政务服务网、中国联通、中信等大型政企客户,专有云提供超过60款云产品和服务,支持10-10000台单集群规模部署,可将计算延伸到更多边缘场景。今天的专有云正在开拓海外市场,并与英特尔成立产业联盟服务全球客户。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文章纠错

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#云栖大会

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...