万维读者网 > 信息时代 > 正文  
多大仇?程序员仅用45分钟便搞垮4亿市值上市公司
www.creaders.net | 2020-06-19 09:57:12  腾讯 | 0条评论 | 查看/发表评论
  

  如果有人告诉你,45分钟就能搞垮一家大公司,你可能会觉得有点荒谬。但工程师Doug Seven却真的亲历过这样的事情。

image.png

  8年前,因为一次失败的部署,骑士资本集团(Knight Capital Group)在仅仅45分钟内就造成了4.6亿美元的亏损。

  这是一个真实的故事。

  尽管Doug Seven并不是事件的参与者,但他在后来的会议中不断提及DevOps、代码配置和持续交付的主题,希望让开发人员意识到部署的重要性。

  究竟是怎么回事?Doug Seven在博客中分享了这个故事。

  故事背景

  这个故事的主角是一家名为骑士资本集团(Knight Capital Group)的美国全球金融服务公司,它从事做市、电子执行、机构销售和交易。

  2012年,Knight是美国最大的股票交易商,在纽约证交所和纳斯达克的市场份额约为17%。Knight电子交易集团(ETG)平均每日交易量超过33亿笔,每日交易额超过210亿美元。

  种种数据表明,当时公司的运营和财务状况非常优秀,2012年7月31日,Knight拥有约3.65亿美元的资产。

  当时,纽约证交所正计划于2012年8月1日推出一项新的零售流动性计划。

  为了准备这次活动,Knight更新了他们的路由器SMARS。这个路由器负责将订单发送到市场上执行。SMARS的核心功能之一是接收Knight交易平台其他组件的订单(父订单),然后发送一个或多个子订单执行。换言之,SMARS将从交易平台收到大量订单,并将它们分成多个较小的订单,以便找到股票数量相匹配的买家或者卖家。父订单越大,生成的子订单越多。

  在SMARS中,有一段老旧的代码,名为“Power Peg”,它已经8年没被用到过了,而此次更新的目的正是要换掉这段代码。更新的代码重新调整了用于激活Power Peg功能的旧标志的功能。

  代码经过了彻底的测试,并且还进行了一系列的验证。所有的一切都看起来很完美,找不到出错的理由。

image.png

  死灰复燃的旧代码

  2012年7月27日至2012年7月31日期间,Knight的开发人员每天手动将新的软件部署到公司的8台服务器上。

  然而,在新代码的部署过程中,Knight的一名技术人员忘记将新代码复制到所有8台SMARS计算机服务器中——他漏掉了其中一台服务器。

  没有第二个技术人员来审查这个部署。

  Knight的所有人都没有意识到,Power Peg代码并没有从第8个服务器上删除,也没有添加新的RLP代码。Knight没有书面流程要求这样的审查。

  2012年8月1日,在美国东部时间上午9:30,市场开盘。Knight开始代表客户处理订单。

  具有正确SMARS部署的7台服务器开始正确处理这些订单。然而,发送到第8台服务器的命令触发了可支持的重新利用标志,并从死地中恢复了旧的Power Peg代码。

  杀手代码如僵尸般的攻击

  Power Peg代码用于在执行子订单时,根据父订单计算购买或者出售的股份。Power Peg将指示系统在完成父订单后停止传送子订单。

  也就是说,Power Peg会跟踪子订单,并在父订单完成后停止它们。

  2005年,Knight将这种累计跟踪功能移到了代码执行的早期阶段,从而从Power Peg中删除了计数跟踪。

  当激活第8台服务器上的Power Peg标志时,Power Peg功能开始路由子订单以供执行。但由于没有根据父订单跟踪共享量,造成了一个永无止境的循环。

  仅仅构建优秀的软件并对其进行测试是不够的,你还必须确保它被正确地交付给市场,这样你的客户才能获得你所交付的价值。

image.png

  所有开发和运营团队都应该从这次事件中吸取教训

  地狱45分钟

  想像一下,如果你有一个系统,它能够向市场发送自动化的、高速的订单,且没有任何跟踪程序来检查是否执行了足够的订单,会发生什么?没有比这更糟糕的事了。

  上午9:30开市时,人们很快就知道出了问题。到上午9点31分,华尔街的许多人都清楚发生了一些严重的事情。市场上充斥着非正常交易量的股票订单。

  到上午9点32分,华尔街的人们都在想,为什么订单还没有停下来,为什么没有人按下任何系统的关闭开关?结果他们发现,并没有关闭开关。在交易的前45分钟里,Knight的交易量占了总交易量的50%以上,这使得某些股票的市值上涨了10%以上。因此,其他股票因错误的交易而贬值。

  更糟糕的是,Knight的系统在当天早些时候开始自动发送电子邮件。早在上午8:01,SMAR已经处理了符合上市前交易条件的订单。邮件消息引用SMARS,并将错误识别为“Power Peg disabled”。

  在上午8:01到9:30之间,Knight工作人员也收到了97封邮件。可惜的是,这些电子邮件不是作为系统警报设计的,因此没有人立即查看它们。

  在Knight经历的45分钟内,他们尝试了几种反制措施,试图阻止错误的交易。由于没有终止开关,所以他们只能在实时交易环境中尝试诊断问题。

  每分钟,系统上约有800万股股票被交易。他们无法确定是什么导致了错误的命令,所以他们从正确部署的服务器上卸载了新代码。

  换句话说,他们删除了工作代码,留下了损坏的代码。

  这更加放大了问题。最开始,仅在部署不正确的服务器上,额外的父命令激活了Power Peg代码。现在,问题蔓延到了所有服务器上。最后,他们终于停止了系统,但此时已经进行了45分钟的交易。

  在开盘的前45分钟,市场收到并处理了212份父订单。因此,SMARS向市场发送了数以百万计的子订单,产生了400万笔交易,而其中154只股票的交易量超过了3.97亿股。这意味着,Knight资本集团在45分钟内造成了4.6亿美元的亏损。

  然而,Knight只有3.65亿美元的资产。

  45分钟后,美国股市最大的交易商、纽约证交所和纳斯达克的主要做市商Knight破产,4个月后被Getco LLC收购。

  软件发布必须可重复、可靠

  所有开发和运营团队都应该从这次事件中吸取教训。仅仅构建优秀的软件并对其进行测试是不够的,你还必须确保它被正确地交付给市场,这样你的客户才能获得你所交付的价值。

  部署SMARS的工程师并不是此事唯一的责任人,Knight设置的流程和他们所面临的风险并不匹配。此外,他们的流程天生就容易出错。任何时候,如果你的部署过程依赖于人主动阅读和遵循说明,那么都将面临风险。人是会犯错的。错误可能出现在指令中,也可能出现在指令的解释中,或出现在指令的执行中。

  部署需要自动化,并且可重复,尽可能避免潜在的人为错误。如果Knight实现了自动化部署系统,将配置、部署和测试全部自动化,那么这次错误本可以避免。

   0


当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论  
暂无评论 上一页 下一页  
实用资讯
24小时新闻排行榜 更多>>
1 三峡上游溃坝 中国建筑专家:宜昌以下快跑
2 与杨洁篪密会后 蓬佩奥透露首个实质性信息
3 蓬杨会7小时最后摊牌 北京再搞突然袭击
4 敏感时间 网曝韩正海外藏巨款 情妇私生子也
5 中印边境械斗 印方曝光解放军的“血腥狼牙棒

48小时新闻排行榜 更多>>
1 被曝已分居 彭丽媛习近平罕见举动引猜测
2 三峡上游溃坝 中国建筑专家:宜昌以下快跑
3 王毅发出警告 莫迪终于表态 中印关系悬了
4 北京为何对解放军伤亡持续沉默 消息人士曝内
5 监控拍下:美国街头再现令人发指一幕
6 疑似中共正部级高官退休金明细表曝光
7 中印边境爆发冲突事件 俄罗斯表态
8 陈冲女儿哈佛毕业 过往黑料被扒了
9 与杨洁篪密会后 蓬佩奥透露首个实质性信息
10 蓬杨会7小时最后摊牌 北京再搞突然袭击
热门专题
一周博客排行 更多>>
1 石正丽披露:是她的实验室泄露 柏林
2 宜昌以下跑最后说一次--结构专 Pascal
3 亚裔非裔数据比较证明黑人示威 蒋大公子
4 那不勒斯之最-老饕心仪的美食之 lone-sheph
5 快别怪三文鱼了,北京这次爆发 幸福剧团
6 揭露华人圈里横行的老鼠会新骗 一草
7 中共现在认怂还来得及吗? 山蛟龙
8 运动了,政治正确运动席卷美国 思芦
9 五千万人收看的黑人政治家评弗 蒋大公子
10 有组织网络水军散播“新冠病毒 Connie
一周博文回复排行榜 更多>>
1 后现代,马克思,下跪和发美德 远方的孤独
2 三年大饥荒的照片是伪造的 新天狱博
3 言论自由的界限--与牧人和右撇 sparker
4 文城粉红,万维粉川? cunliren
5 大饥荒没留下照片恰证明中共空 武秦岭
6 博尔顿:川普求习近平助选-兼论 新天狱博
7 美国正通过群体暴乱向南非化转 老度
8 忠诚勇毅忠于初心,警队未来充 Connie
9 “伯克利教授”的匿名信涉嫌欺 渔阳山人
10 短评:美国黑人示威暴力化最终 摩诃笨蛋
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2020. CyberMedia Network/Creaders.NET. All Rights Reserved.