告警中心
監控所有應用程式的告警狀態
離線
2 個進行中告警
嚴重告警
1
警告
1
已解決 (24h)
2
總告警數
4
智能告警處理流程
偵測
Prometheus 監控
CPU > 80%分析
閾值比對
持續 5 分鐘決策
規則匹配
scale_up修復
自動執行
擴容至 4 副本驗證
健康檢查
CPU 降至 45%範例:StockPlatform 記憶體使用率過高
偵測時間: 10:25修復完成: 10:32MTTR: 7 分鐘
嚴重進行中StockPlatform
記憶體使用率過高
記憶體使用率已達 82%,超過 80% 閾值,可能影響系統效能
開始時間: 1 天前自動修復: 擴容
警告進行中StockPlatform
CPU 使用率警告
CPU 使用率達 78%,接近 80% 閾值
開始時間: 1 天前自動修復: 擴容
警告已解決MOMO PRO
回應時間增加
P95 回應時間達 380ms,接近 500ms 閾值
開始時間: 1 天前解決時間: 1 天前
警告已解決Bitan 藥局
API 錯誤率上升
5xx 錯誤率達 0.8%,接近 1% 閾值
開始時間: 1 天前解決時間: 1 天前自動修復: 重啟