史上最大规模IT故障!微软蓝屏事件背后:“肇事企业”服务271家世界500强,凸显全球技术基础设施的脆弱性
北京时间7月19日(周五),美国网络安全公司CrowdStrike软件bug带崩了全球范围内的微软Windows系统,外媒将此称为“史上最大规模IT故障”。
全球范围内,包括航空公司、医院、铁路网络和电视台在内的关键企业和服务都因微软系统中断而瘫痪,就连美国911电话的接线员都无法对紧急情况作出回应。此外,全球供应链也受打击,其中,高度复杂的航空系统受创最为严重,航空运输可能需要几周时间才能恢复正常。
图片来源:外媒报道截图
尽管目前IT系统故障已经得到解决,但此次事件凸显了全球技术基础设施的脆弱性,也引发了全球对单一技术“主干道”依赖性的反思,以及当这些软件公司的代码缺陷造成重大中断时,他们应该承担怎样的责任。
美国IT研究与顾问咨询公司Gartner高级研究总监高峰在接受《每日经济新闻》记者采访时表示,对于企业(和个人)来说,可以增加弹性(resilience),例如引入多个供应商,以减少依赖单一供应商的风险。同时也可以制定应急预案,例如出现宕机后直接绕过CrowdStrike。而对于网络安全企业来说,可以通过对补丁的更新控制,比如严格控制推送的补丁,经过测试后才下发到用户侧。
史上最大规模IT故障!“始作俑者”服务271家500强企业及众多政府机构
据外媒,此次史无前例的全球范围内宕机起因是CrowdStrike在当地时间周四发布了一个存在缺陷的软件更新,导致全球范围内的微软Windows系统出现“蓝屏死机”。外媒称这是“史上最大规模IT故障”。
当CrowdStrike向使用微软Windows软件的客户发送更新时,用户的电脑开始逐渐崩溃。外媒报道称,与苹果向iPhone用户发送软件更新不同,此次全球大范围的内的罕见宕机事件凸显了在后台运行的信息技术的安全性问题。CrowdStrike的问题更为复杂,因为正在更新的软件执行着关键的网络安全任务,使其能够扫描计算机以查找病毒和其他恶意攻击。
据航空分析公司Cirium称,周五全球有超过11万个预定的商业航班,其中超过5000个被取消,相比周四的取消航班数量激增了2倍以上。FlightAware航班追踪数据显示,周五全球有超过21000个航班延误,达美航空受影响最严重,20%的航班被取消。周五早上的航班延误和取消数量比过去两天同时间段高出一倍以上,FlightAware预计此事件对航空业的影响还将持续到未来几天。
目前,包括美国联合航空、美国航空、西班牙机场运营商Aena在内的许多航空公司报告服务已恢复正常。美国运输部长皮特·布蒂吉格表示,运输系统的问题似乎已经得到解决,预计到周六会恢复正常,并补充说美国联邦航空管理局似乎没有受到影响。
此次事件还影响到了金融、医疗、汽车等关键领域。在金融领域,包括摩根大通、野村控股和美国银行在内的多家金融机构不得不启用备用系统,数千台摩根大通的ATM机和柜员机也因此瘫痪。在汽车行业,雷诺被迫在其Maubeuge工厂和迪拜工厂暂停生产,因为供应商受到了技术故障的影响。特斯拉首席执行官马斯克表示,已经从所有系统中删除了CrowdStrike软件,并抱怨此次故障对汽车供应链造成了严重影响。
有网络安全人士指出,虽然CrowdStrike对软件漏洞负有责任,但微软操作系统糟糕的弹性是造成如此严重损失的原因。
美国IT研究与顾问咨询公司Gartner高级研究总监高峰在接受《每日经济新闻》记者采访时表示,“此次CrowdStrike产品缺陷造成史上最大IT系统宕机主要还是因为其用户群体庞大,当然其他头部的公司也会存在这样的风险。”
作为主要的电脑桌面操作系统之一,Windows在全球拥有10亿用户,网络安全依赖于全球少数几家网络安全公司,其中就包括CrowdStrike。网络安全工具通常在计算机的后台运行,以保护计算机免受黑客攻击。当一个有缺陷的软件在互联网上发布时,它几乎可以立即对大范围的企业和个人电脑造成破坏。
《每日经济新闻》记者注意到,除了此次前所未有的产品缺陷外,CrowdStrike的产品此前也出现过类似的问题。外媒获取的一份CrowdStrike发送给客户的内部报告显示,今年4月份,CrowdStrike向运行Linux系统的客户推送了一个软件更新,结果导致电脑崩溃。当时,CrowdStrike 花了近五天时间才修复了该漏洞。CrowdStrike当时承诺今后将改进测试流程。
实际上,CrowdStrike一直以来以解决最棘手的安全问题而闻名,曾被聘用调查2014年索尼影业(Sony Pictures)遭黑客攻击和2016年民主党全国委员会(Democratic National Committee)遭黑客攻击的事件,希拉里·克林顿的电子邮件曾在2016年的事件中曝光。
该公司成立于2011年,总部位于得克萨斯州奥斯汀,全球500强企业中有271家是其客户,另外还有许多政府机构,如美国顶级网络安全机构网络安全和基础设施安全局,都在使用CrowdStrike的软件。
专家:应减少对单一供应商的依赖,加强补丁更新控制
CrowdStrike软件更新错误导致的全球IT大范围中断,也让不法分子有了可乘之机。
在这场前所未有的宕机事件之后,一些黑客正在发起网络钓鱼活动并发布恶意软件链接。这些恶意行为者以迫切需要信息和解决方案的个人和组织为目标,以提供CrowdStrike相关问题的更新或修复为幌子,诱骗他们点击钓鱼的链接。
美国国土安全部下属的网络安全和基础设施安全局(CISA)正在追踪这类网络犯罪活动,它们现在对美国人构成了第二大威胁。CISA声明称,“当局已经观察到恶意行为者利用此次宕机进行网络钓鱼和其他的非法行动。CISA敦促组织和个人保持警惕,只相信合法来源的指示,建议企业提醒员工不要点击疑似的钓鱼邮件或可疑的链接。”
CrowdStrike创始人兼CEO George Kurtz在社交媒体X上回应称:“CrowdStrike正积极与受Windows主机单次内容更新中发现缺陷影响的客户合作。Mac和Linux主机不受影响。这不是安全事件或网络攻击。目前已确定、隔离了该问题,并部署了修复程序。”Kurtz补充称,此次宕机并不是由网络攻击造成的,其客户仍受到“充分保护”。
图片来源:X
虽然此次大范围中断是因软件更新造成的,但其影响也表明,当全球技术体系的一条主干道被中断后,其破坏性会有多大。此外,这也引发了对CrowdStrike产品测试流程的更广泛质疑,以及当这些软件公司的代码缺陷造成重大中断时,他们应该承担怎样的责任。
高峰对每经记者指出,对于企业(和个人)来说,可以增加弹性,例如引入多个供应商,以减少依赖单一供应商的风险;同时,也可以制定应急预案,例如出现宕机后直接绕过CrowdStrike。
“然而,CrowdStrike的部署模式是在终端上安装代理,因此上述这两种方案都很难实施。在这种情况下,企业可以通过对补丁的更新控制,比如严格控制推送的补丁,经过测试后才下发到用户侧。但是这样可能会延误补丁的修复。另外,还可以使用增加可用性的方式,比如‘灰度发布’、‘蓝绿发布’、‘滚动发布’等等。”