财联社7月26日讯(编辑 刘蕊)上周五(7月19日),美国网安巨头CrowdStrike的一次软件更新事故引发了“史上最大IT中断事故”:全球850万台Windows计算机崩溃。这一事件引发全球IT系统中断,大量航班停飞,企业停摆。

北京时间本周五,在事故发生一周后,此次事故的始作俑者——Crowdstrike在其官网发布了此次事故的初步调查报告,解释这一事故的发生根源,仅仅是一次“常规运营更新”的失误

CrowdStrike还通报称,截至太平洋时间7月24日下午5点(北京时间7月24日8点),与内容更新之前相比,已有超过97%的Windows传感器恢复在线。

CrowdStrike所说的Windows传感器是指其面向Windows系统的网安平台Falcon的传感器。这意味着,在上周CrowdStrike更新事故导致瘫痪的850万台Windows电脑中,绝大部分电脑的Windows系统和Falcon网安系统已经恢复正常运行。

CrowdStrike CEO在领英上表示:“我们知道我们的工作尚未完成,我们仍致力于恢复每个受影响的系统。对于仍然受到影响的客户,请知道我们不会休息,直到我们完全恢复…我对此次中断造成的破坏深感抱歉,并向所有受影响的人亲自道歉。”

“史上最大IT事故”初步调查报告:97%受影响系统已恢复 “元凶”竟只是一次常规更新?-编程日记

据保险公司Parametrix称,此次IT中断持续了数天,给全球财富500强企业造成了约54亿美元的损失。自上周五的事故以来,CrowdStrike的股价已累计下跌约25%。

为什么Falcon会触发这样严重的事故?

Falcon是Crowdstrike旗下最为王牌的网络安全平台产品。为了更好地理解此次事故,我们需要先理解Falcon的防御机制。

Falcon是一种“端点检测和响应”(EDR)软件。它的作用是利用传感器来监控安装它的计算机上发生的所有情况,寻找恶意活动的迹象,并即时、灵活地进行响应。

举个例子。如果把一台电脑系统比喻成一个小区,那么传统的防火墙就类似于守在小区大门的门卫,杀毒软件就类似于小区保安,他们会检查识别进入小区的可疑人物(尤其是已知的坏人),并将其赶出小区。但他们通常只会根据已知的攻击特征来识别威胁,面对高级威胁、未知威胁时可能存在安全漏洞。

而Falcon等EDR软件就类似于小区的智能监控系统,传感器就是安装在小区各个角落的摄像头,他们时刻监控小区的每一个角落,关注小区里每一个人的一举一动,并在发现任何可疑情况(比如看到小区中的某个人在与疑似黑客联系)时利用人工智能、大数据等技术进行分析、判断和预测威胁,并且灵活自主地进行相应措施。

因此,EDR软件对于网络威胁的防御能力要比传统网安系统更强,而且在面对威胁时所能采取的应对方式也比传统网安软件更灵活和智能。

比如传统网安软件通常在检测到病毒时,只能将受感染的文件隔离或删除;而EDR软件在检测到电脑可能正在和疑似黑客通信时,它可以自主地关闭通信系统,或是在发现某个系统出现疑似异常操作时,会提前预测威胁并提高监控等级。

相比于传统的杀毒软件,Falcon显然更加全面和智能,但同时,因为它需要对计算机进行大量的详细监控(包括监控计算机通过互联网发送的通信、正在运行的程序、正在打开的文件等等),它对于许多内部系统都拥有访问权——换句话来说,Falcon与微软Windows系统的联系更加紧密,其系统权限也比传统网安系统要高得多。

因此,一旦Falcon这类EDR软件出现故障,就更容易导致Windows系统整个瘫痪——上周五的全球Windows系统电脑大范围瘫痪事件就是实例。

CrowdStrike详细回顾事件起因

在事故发生一周后,CrowdStrike最近发布了此次事故的初步审查报告,解释了该次事故的具体经过。

CrowdStrike在报告中写道,在北京时间2024年7月19日12:09,CrowdStrike发布了一次Windows传感器的内容配置更新,以收集有关潜在新威胁技术的遥测数据。这次更新只是CrowdStrike的一次常规运营更新,按照官方的说法,类似的更新每天都会进行好几次。

但万万没想到的是,该次更新令北京时间12:09至13:27之间在线的Windows系统集体触发了崩溃(蓝屏死机)。CrowdStrike强调,Mac和Linux主机不受影响,在此期间未在线或未连接的Windows主机也不受影响。

之所以触发崩溃,是由于更新内容中存在缺陷,而在Crowdstrike验证检查期间未检测到该缺陷。当Falcon传感器加载该更新内容时,该缺陷会导致内存读取越界,从而导致Windows崩溃。

在北京时间7月19日13:27,该内容更新中的缺陷已修复。在此时间之后上线的系统或在此时间段内未连接的系统不受到上述的崩溃影响。

CrowdStrike表示,未来将会加强软件测试流程,优化错误处理机制,精细化部署策略,采用第三方验证等措施,以避免类似事件再次发生。

除了初步的事件审查报告外,CrowdStrike承诺,一旦调查完成,将公开发布完整的根本原因分析。

“史上最大IT事故”初步调查报告:97%受影响系统已恢复 “元凶”竟只是一次常规更新?-编程日记