告警中心

監控所有應用程式的告警狀態

離線
2 個進行中告警

嚴重告警

1

警告

1

已解決 (24h)

2

總告警數

4

智能告警處理流程

自動化響應引擎

偵測

Prometheus 監控

CPU > 80%

分析

閾值比對

持續 5 分鐘

決策

規則匹配

scale_up

修復

自動執行

擴容至 4 副本

驗證

健康檢查

CPU 降至 45%
範例:StockPlatform 記憶體使用率過高
偵測時間: 10:25修復完成: 10:32MTTR: 7 分鐘
嚴重進行中StockPlatform

記憶體使用率過高

記憶體使用率已達 82%,超過 80% 閾值,可能影響系統效能

開始時間: 1 天前自動修復: 擴容
警告進行中StockPlatform

CPU 使用率警告

CPU 使用率達 78%,接近 80% 閾值

開始時間: 1 天前自動修復: 擴容
警告已解決MOMO PRO

回應時間增加

P95 回應時間達 380ms,接近 500ms 閾值

開始時間: 1 天前解決時間: 1 天前
警告已解決Bitan 藥局

API 錯誤率上升

5xx 錯誤率達 0.8%,接近 1% 閾值

開始時間: 1 天前解決時間: 1 天前自動修復: 重啟