CenturyLink的一个BGP路由错误已引起整个互联网出现连锁反应,导致无数与互联网连接的服务瘫痪,比如Cloudflare、AWS、Garmin、Steam、Discord和Blizzard等众多服务。这些故障从美国东部标准时间上午6点左右开始,当时客户们开始报告美国发生了影响CenturyLink服务的大规模故障。在Twitter上搜索一番,可以发现突然大量用户纷纷吐槽,抱怨无数联网服务不是性能低下就是完全中断,比如Blizzard、Steam、Discord、Roblox、Cloudflare、Hulu、Slink、Reddit和Amazon AWS等众多服务。CenturyLink声称,其Level3 CA3数据中心导致了这起故障,正在调查此问题。CenturyLink的状态页面显示:“我们的技术团队正在调查影响CA3数据中心一些服务的一个问题。确保我们服务的可靠性是我们的重中之重。随着这起事件不断进展,我们会继续提供状态更新。如果您需要进一步的支持,可以通过help@ctl.io联系我们。”此后该故障已得到了解决,服务在缓慢恢复,一些地区恢复所花的时间比其他地区要久。AWS 恢复消息

BGP路由问题导致故障


据受影响客户的无数报告显示,今天的问题是CenturyLink的BGP路由问题引起的,CenturyLink的路由没有正确地传输互联网的一些部分。为了使互联网正常运行,互联网服务提供商(ISP)、数据中心和网络提供商通过BGP路由协议来通告它们路由和管理的IP地址。由于这主要是一种基于信任的系统,大型ISP开始通告它们并不管理的IP地址范围的路由时,会导致全球性故障和性能问题。CenturyLink似乎在BGP路由方面犯了一个错误,从而导致了当今的大范围故障。大概10分钟前Centurylink似乎撤回了无效的BGP路由,并修复了其网络问题。作为一项防范措施,我们暂时任由我们的AS3356会话处于宕机状态,以防Centurylink又出问题。我们会继续全天密切关注事态。

2020年8月30日10点04分GMT,CenturyLink发现一个问题影响多个市场的用户。IP网络操作中心(NOC)参与其中,初步研究发现,一个存在问题的flowspec通告阻止边界网关协议(BGP)跨整个CenturyLink网络的多个网络单元建立起来。IP NOC部署了全局配置变更,以阻止存在问题的flowspec通告,这让BGP得以开始正确建立起来。变更实施到整个网络中后,IP NOC观察到引发警报的所有相关服务解除警报、服务回到稳定状态。

CenturyLink中断导致全球Web流量下降了3.5%。

文章原文链接:https://www.anquanke.com/post/id/216098