インシデントフローを整備して自動化しました
こんにちは。kubopです。
先日、インシデントが発生した際のフローを整備して、一部をSlackBotで自動化しました。
今回は、noteのSREチームとQAチームが協業して行いました。
目的MTTRを最小化したい
あるインシデントでは、障害検知から対応までの時間が40-50分程度かかっていることがわかりました。
メトリクスや監視による迅速な検知がされているのにも関わらず、実際の対応までにかなり時間がかかっていました。
対応までのフローを固定化し、スムースな橋わたしが出