如果不是那么令人讨厌,那时候的糟糕时机会很可笑,用于Azure,Office 365和Dynamics的Microsoft的多因素身份验证(MFA)系统在本月第二次出现故障,该公司在11月19日的14个小时停机中公布了调查结果。
Azure Active Directory多因素身份验证服务仅在UTC 05:00之前脱机,直到19:00 UTC之前仍不起作用。最初受影响的服务器是为欧洲和中东地区以及亚太地区提供服务的服务器;当这些区域醒来并尝试进行身份验证时,服务器超载并关闭。微软试图将某些身份验证尝试重定向到美国服务器,但这也只是使那些服务器超载的结果。
该公司的后续分析表明,三个单独的错误共同造成了这些问题。11月19日,在过去六天中逐渐部署的代码更改引发了一系列失败。在一定的流量水平以上,新代码导致前端服务器和缓存服务器之间的延迟大大增加。这进而揭示了后端服务器中的竞争状况,导致它们一遍又一遍地重置前端服务器。然后,这揭示了第三个问题:后端服务器将创建越来越多的进程,最终使自己资源匮乏并使他们无响应。
今天的问题仍在调查中。MFA服务器自UTC 14:25开始一直超时,导致使用MFA时登录尝试失败。目前,该公司认为,更早的DNS错误的解决已导致大量的身份验证尝试,实质上使MFA系统收到了超出其处理能力的更多请求。