然而,这些操作并不是 DevOps 团队在软件中编写的操作。相反,他们跟踪 服务器 指标,例如查询响应时间、自动化统计数据和服务故障频率。运营基础设施的任何部分都不是为跟踪第三方供应商系统内部实际发生的情况而设计的。
结果,全国系统全部瘫痪。服务监控方面的漏洞导致第三方强制验证系统失效,
审查结果显示:
一个“低于标准”(廉价)的软件承包商将所有租赁提交都与失 塞浦路斯电报数据 败的单一服务联系起来,导致全国各地都没有任何租赁通过,公司的现金流突然被切断。
监控系统并非为监控此类系统故障而设计的。该公司 确实 有一个 DevOps 团队,但该团队 并未积极监控公司业务的实际运营。
在辩护中,DevOps 团队强调,99% 的软件和应用程序问题都是编码错误,这证明了该机构将 DevOps 重点放在这些问题上是合理的。外部原因出现的频率要低得多。
DevOps 故障持续发生
最近,DevOps 的失败在应对 COVID-19 疫情时显而易见 。早期,建立和跟踪检测点的工作被视为遏制病毒的一个重要因素。然而,无论 DevOps 流程相对成熟度如何,全球各地的 DevOps 团队都花了数月时间才打造出与其站点查找应用程序设计能力相匹配的运营能力。
DevOps 失败的其他原因同样具有启发性: