概要
アラートに対する知識が不足しているので設計・運用って難しい。
SentryとCloudWatch Alarm
- エラーレートはSentryでもCloudWatch Alarmでも取得できる
- Sentryはアプリケーション層で採取している
- CloudWatch AlarmはELBのHTTP StatusをCloudWatch Logsで解析する感じになる
- なんならレイテンシーもSentryで取れる
- Sentry入れれば監視は大丈夫そう
ではSentryだけで良いのか?
- コンピュータリソースはCloudWatch Alarmでしか取れない
- 当たり前体操
- けどそこまでリクエスト数に増減のないWebサービスでCPU/メモリ使用率のようなUtilizationを監視する意味はあるのか?
- ECS/Aurora Serverlessのスケーリングで間に合っているケースなど
- そもそもCPU使用率が100%でもリクエストを捌けていれば問題なし
- って
入門 監視
に書いてあった気がする
- って
リクエストを捌けているとは?
- 全部200で返せてるけどレイテンシー10秒です!はよろしくない
- となると言語化はできていないがなんとなくレイテンシーの制約はあるらしい
- なのでリクエストを捌けているの定義をしよう
- 「SLO/SLIを策定しよう」ってこと?
結論
SLO/SLIを策定した上で必要なモニタリングおよびアラートを運用しよう