上周日,谷歌的云服务中断,导致停机时间长达数小时。Google云端平台,YouTube,Gmail,Google云端硬盘等服务在美国某些地区都受到了影响。不仅如此,使用Google Cloud Platform的第三方服务也受到了影响,例如Snapchat,iCloud等。从那以后,Google既详细说明了中断的原因,也提出了避免再次发生故障的计划。
该文档以Google自己的道歉开头,因为公司和用户都依赖这些服务来发挥作用。受影响地区的Google服务用户将其请求移交给了其他地区的服务器,这对于网络搜索是很好的选择,但可能会给使用大量带宽的YouTube之类的应用带来麻烦。没有适当回退的第三方应用程序在中断期间根本无法正常工作。对公司服务的影响是巨大的。
全球的YouTube观看次数下降了10%
Google云端存储的流量减少了30%
大约1%的Gmail用户遇到问题
诸如Google搜索之类的低带宽服务仅受到了轻微影响,因为请求切换到未受影响的区域而导致延迟增加
简而言之,中断的原因是“针对单个区域中的少量服务器的配置更改”被“错误地应用于跨多个相邻区域的大量服务器”。这导致这些服务器停止使用其可用网络容量的一半以上,从而导致网络拥塞。更糟的是,同一网络拥堵可能使您无法观看YouTube视频,从而使公司的工程师无法恢复正确的配置。
目前,Google正在进行全面调查,以了解最初导致容量减少和恢复时间缓慢的原因。