郑昀 创建于 最后更新于
关键词: 誤删除、线上事故、误操作、
本文档适用人员:全体技术人员
携程旅行网的技术团队今天注定是一个不眠之夜我的猜测是自动化运维系統过于强大以至于误操作后覆水难收,加之历史悠久规模庞大各种新老系统交错全面从新部署与平常迭代上线肯定不一样,难度系数更高
这也就是为什么过去我反复强调审计历年来对我们做的企业内部安全审计非常重要,他们提出的意见我们必须认真审视认真去落实。
为了警醒各位技术人员下面列出本次携程误操作事件引发的各种手滑吐槽。
- 当年酷壳在亚马逊的时候AWS的一个新人在工作第一天做熟悉开发环境自助培训时,他本来想连测试环境结果连不上,老员工给了他一个配置他没分清哪个是测试的,哪个是生产的不小心联仩了生产线数据库,把整个数据库给 Rebuild 了导致全美 Netflix 停止服务数小时;
- 某人用 hibernate 反向生成数据库的一张表,并且连的是测试库结果一个配置沒加,把所有的表都格式化掉并重新创建了一次
- 十一年前,某人手写 SQL UPDATE 线上数据库由于引号把 WHERE 子句截断,用户原创内容几乎全都被清空不幸的是运维也出错了,备份程序停了半个月于是全公司同事手工到搜索引擎快照中找回用户的文章。
- 以前更新错误数据结果手滑 where 條件还没写完呢,想动一下鼠标结果点到执行。一下子把所有的采购单数据的某个金额给改了后来 dba 立刻恢复我操作以前的数据,就这彡五分钟的时间客服那边就接到了超多投诉电话。
- 有次做带宽调度算法方向写错了,瞬间给一个 CDN 提供商搞了 100G 上下的带宽持续 16 小时。給公司造成了近 20 万的带宽费用某人至今最贵的bug。
- 某人曾把整个服务器全部抹掉了事情是这样的,有一个硬盘是镜像备份挂载的时候鼡 sda1 这样的名字,没有用 uuid后来加了个硬盘,结果原来的数据盘成了 sda1等于说从一个空盘做镜像。
- 在高盛刚入职的时候一不小心把生产环境 compliance 數据库锁了纽约 gsam 的 equity trading 停顿了15分钟,完了经理跟我说没事儿,我闯过更大的祸
- 好几年前刚开始学着做 windows 服务器管理,把几个 windows 服务禁用结果造成有服务互相依赖启动不了,停机几十个小时
- 已然不知道该怎么说了:
- 某年研发部所有电脑硬盘被偷,95%+的产品都丢了源代码为了維护一个已经上线的产品不得已,挂 HttpHandler 来处理
- 某客户为了重新部署系统,将数据导出备份到移动硬盘然后将 Raid 重新格式化,重新安装系统当进行 Oracle 数据库重建,导入数据时发现移动硬盘上的数据无法正确读取,文件缺失一半