立即订阅

okxapp(知名平台承认香港机房故障信息发布不及时曾致多家网站瘫痪)

2023年04月27日 04:04 来源于:赚牛网 浏览量:

12月25日,南都记者注意到,阿里云发布关于18日香港Region可用区C服务中断事件的说明。说明中披露,18日,相关机房冷却系统失效,包间温度逐渐升高,导致一机房触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏。整个处置过程超过10个小时。阿里云表示,此次事件对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。

阿里云在说明中介绍,18日9时23分,香港Region可用区C部分ECS服务器开始出现停机,触发同可用区内宕机迁移。随着温度继续升高,受影响的服务器停机数量持续增加,客户业务开始受到影响,影响面扩大到香港可用区C的EBS、OSS、RDS等更多云服务。阿里云香港可用区C的故障,没有直接影响客户在香港其他可用区运行的业务,但影响了香港Region ECS管控服务的正常使用。

对于事故原因,阿里云在说明中介绍,冷机系统故障恢复时间过长。机房冷却系统缺水进气形成气阻,影响水路循环导致4台主冷机服务异常,启动4台备冷机时因主备共用的水路循环系统气阻导致启动失败。水盘补水后,因机房冷却系统的群控逻辑,无法单台独立启动冷机,手工修改冷机配置,将冷机从群控调整为独立运行后,陆续启动冷机,影响了冷却系统的恢复时长。整个过程中,原因定位耗时3小时34分钟,补水排气耗时2小时57分钟,解锁群控逻辑启动4台冷机耗时3小时32分钟。

随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长。 与此同时,还存在客户在香港地域新购ECS等管控操作失败,以及故障信息发布不够及时透明等问题。

阿里云表示,此次事件对很多客户的业务产生重大影响,也是阿里云运营十多年来持续时间最长的一次大规模故障。“我们要向所有受到故障影响的客户公开致歉,并尽快处理赔偿事宜。”

据南都此前报道,18日,澳门特区司法警察局发布消息称,由于阿里云的香港机房节点发生故障,导致包括澳门多家网站及App自当日午时起无法访问使用。同日,阿里云就事件发布公告称,阿里云工程师已在紧急处理中。

采写:南都记者 陈燕

关键词:
友情链接