2021年七大IT危机事件

2022-03-03 17:38吕蕴藉
计算机与网络 2022年1期
关键词:缅因州亚马逊错误

吕蕴藉

从安全漏洞到软件工程失败,这些备受瞩目的IT灾难在2021年对现实世界造成了严重破坏。对于任何规模的公司来说,IT都是业务运营的代名词。因此,当技术出现故障时,公司可能会随之倒闭。

IT故障,无论是复杂的系统还是项目,都越来越多地登上了商业新闻版块,其负面影响可能变得更加具有威胁,而且令人尴尬。这里收集了2021年的7场最大的技术危机,以突出各种近乎灾难性的IT问题,这些问题不仅会出现,而且会对业务产生巨大影响。

为什么应该设计更好的用户界面

许多公司倾向于对IT工具采取“如果它没有坏,就不要进行修复”的态度,如果你曾经参与过拙劣的升级或部署,就会知道这是为什么了。

花旗银行的一个后端系统就是这样的一个例子,也是造成5亿美元业务失误的主要原因之一。故事是这样的:花旗银行试图代表其客户之一的露华浓向露华浓的几个债权人支付780万美元的利息。在Flexcube系统中这样做是一个繁琐笨重的过程,要将大部分付款发送到花旗银行内部账户,而只有利息部分支付给债权人。尽管3个不同的人签署了露华浓的这笔交易,但是没有检查所有适当框架,并款项发出了9亿美元,其中大部分是直到2023年才要归还于债权人。

可能这种错误并非闻所未闻———而且受益方通常会将错误发送的钱退还给犯错的公司。但这一次情况有所不同,发出的一半以上的钱都流向了各种对冲基金,对露华浓有利。他们说,他们认为这笔钱是提前偿还欠下的债务,2021年法官裁定他们不必归还。

这里的重要教训是至少要使機构的UI现代化,以确保员工能够以通畅、连贯的方式履行他们的职责。

法国银行客户看到彼此的账户

法国银行LCL的客户于2021年2月23日登录了自己的银行应用程序,却发现他们正在查看别人的信息。这个消息很快在Twitter上传播开来,许多人猜测这可能是网络攻击的结果。但据银行本身称,这实际上是一天内更新软件的错误结果。

当然,这类开发失误是公司内部失败的征兆,尤其不应该发生在银行业。后果说明了此类错误的典型表现,该公司有责任将事情最小化,LCL表示没有透露任何个人信息,客户只能看到其他客户的账户而不能转账,也许只有数百名客户受到影响。业内人士指出,交易信息可以用来推测客户身份,并且当漏洞在实时代码上运行时,潜在的数万用户正在登录。最后,LCL不得不积极采取措施以避免受到欧洲隐私监管机构的巨额罚款。

当软件保持牢房门锁定时

2019年,亚利桑那州立法机关通过了一项法律,允许某些被判犯有非暴力罪行的囚犯在州监狱中完成服刑,以加快他们的释放。但2月份的告密者透露,一年多后,跟踪囚犯释放资格的软件仍未更新以适应新法律。虽然国家坚持认为符合条件的囚犯可以手动重新计算他们的刑期,但事实是许多人可能不知道他们有资格获释,或者没有外界的支持者来推动他们的案件,因此他们在监狱中苦苦挣扎,其实法律已经规定他们当有权自由。

这里有几个IT关键,一个是在任何系统中构建灵活性和可扩展性的重要性;另一个是,软件不仅仅是软件,它对人类生活有着真实而深远的影响。最后,还有一个问题是如何以代码的形式实施法律,以及执法算法是否应该在立法过程中开发,而不是在法律已经通过之后再写出来。

缅因州古老的人力资源系统

正如《波特兰新闻先驱报》所描述的那样,缅因州的人力资源和工资单由“一个40岁的系统运行,该系统用过时的语言编程,只有一名州雇员知道如何使用”。

ERP系统和类似平台的推出是出名的容易发生灾难,缅因州的工资需求非常复杂(例如,如果州警察携带武器、使用K9工作或穿着潜水装备,他们的每小时工资就会不同)。争议的核心是一个故事,任何参与过这样的大项目的人都知道,缅因州系统上线时有50 %的错误率,Workday说缅因州导入系统的数据是无可救药地充满了错误,双方争吵不休,最终Workday退出了该项目。

更根本的是,缅因州似乎正在雇佣不具备所需技能的员工来从事该项目,而该州不愿意支付足够的工资来寻找能够达到要求的工人。加上一些其他问题就会遇到真正的IT管理混乱,导致缅因州仍在使用其已有40年历史的人力资源系统。

亚马逊的休假问题

如果从前2个项目中得出的结论是当地政府没有能力进行称职的项目管理,但其实2021年在一家私营企业中爆发了一场同样的危机。

《纽约时报》的一项调查显示,亚马逊为员工提供各种休假的内部流程极其混乱。这导致了一系列影响白领和蓝领工人的恐怖故事,例如员工因在批准休假期间不上班而被解雇,休产假的新妈妈看到他们的薪水神秘减少,以及一名受伤的伤残工人被迫卖掉他的结婚戒指换取现金,因为他的支票不再出现。

事实证明,亚马逊使用来自不同供应商的多种软件产品管理休假系统,这是其最初快速增长时期的“遗产”。所以这里的教训是,在公司历史早期做出的选择可能会在数年或数十年后产生影响。就像亚利桑那州的监狱系统一样,亚马逊试图通过人工来弥补IT功能障碍———67名全职员工致力于输入员工休假数据,这项工作压力很大,而且许多人自己也还需要请假。

吃自己的狗粮

2021年10月4日,世界各地的人们都无法访问Facebook,Instagram,WhatsApp,因为该公司在Meta上运行的所有服务都与互联网断开了连接。我们不会深入了解危机的实际原因,其中涉及边界网关协议中的错误,该错误基本上将Facebook服务与互联网的DNS系统的其余部分切断了联系。相反,我们希望关注可能与IT商店相关细节。

在停电初期,有媒体报道称,Facebook员工无法进入公司总部,因为他们的身份证不再能开门。这反过来又阻止了技术人员对问题服务器的访问。不可思议的是,Facebook的电子门锁是由Facebook驱动的。Facebook似乎相当痴迷于在Facebook自己的基础设施上运行其所有内部系统,这意味着其内部通信系统也出现了故障,无法应对危机。这样做的公司的行业术语是“吃自己的狗粮”,这通常被视为对自己产品的信任投票,但Facebook的灾难表明企业需要方便的备用供应服务。

迅速取缔潜伏的错误

2021年6月8日,数百万试图访问英国政府部门网站的用户发现自己遇到了503错误代码,这表明托管该网站的服务器无法处理请求。这么多不同的网站怎么会同时下线?事实证明,答案与内容交付网络的兴起有关,这些网络在互联网上的战略是为其客户部署代理服务器,以确保超快的加载时间。如今,几乎每个大型内容站点都使用CDN,而这个领域的参与者并不多,因此当一个站点出现故障时,可能会导致大量互联网问题随之而来。

在这种情况下,单点故障是Fastly,这是一家CDN业务蓬勃发展的边缘计算提供商。2021年5月12日推出的软件更新,其中包含一个错误,该错误可能由特定客户配置在合适的条件下触发。2021年6月8日,一位客户在不知不觉中更新了他们的配置,并在软件开发和行业整合的交汇处引发了一场危机。

猜你喜欢
缅因州亚马逊错误
85亿美元,亚马逊收购米高梅划算否?
在错误中成长
“怒”与“努”
“浮”字等
缅因州:遍地免费皆为宝
可爱的错误等