Stage · 06Operate11 個交付物

運維

讓系統在凌晨三點還活著

Operate

這個階段要回答什麼

「上線之後呢？」 多數團隊以為 ship 就結束——但軟體真正的成本，70% 在 operate。

核心循環：observe → learn → re-prioritize。production signal 必須能回寫 backlog，否則下個 release 還是踩同一個坑。

必要產出

SLO / SLI / Error Budget（SRE） — 服務目標與餘額
Alerts & Dashboards（SRE/DevOps） — 看得到、看得懂
Postmortem（SRE/Dev Lead） — timeline、root cause、action
Capacity Plan（SRE） — 未來 1-2 季的成長預估
On-call Rotation（DevOps/SRE） — 誰扛、何時扛、怎麼交接

典型卡關

Alert 設滿沒人看：alert fatigue，重要的 alert 被淹沒
Postmortem 變甩鍋大會：要 blameless、focus on system
Issue 不回寫 backlog：同個 bug 修 3 次因為沒進 backlog
Error budget 不用：永遠在燒、沒人覺得要還

AI 加速哪些事

Log 摘要、incident timeline 整理、postmortem draft、alert rule 建議。 Incident 當下 AI 能輔助看 dashboard，但決定先救誰、先告知誰要人扛。

加速範例：從這份 incident timeline 生 postmortem draft、按 5-why 列 root cause 與 action item。

+ Operate · 階段內交付物

本階段要產出 11 個交付物。

#44 · OPERATE

SLO · 服務等級目標

把『可用性』從感覺變成可量化的合約

運維DevOps/SRE

→#45 · OPERATE

Error Budget · 誤差預算

把『要不要繼續發新功能』變成可計算的決策

運維DevOps/SRE

→#46 · OPERATE

Runbook · 維運手冊

凌晨三點被 page 的人能照做不用思考

運維DevOps/SRE

→#47 · OPERATE

Incident Report · 事故報告

事故當下的事實流水帳，不是檢討會

運維DevOps/SRE

→#48 · OPERATE

Postmortem · 事後回顧

把『誰的錯』改寫成『系統的哪個缺口』

運維DevOps/SRE

→#49 · OPERATE

Observability Spec · 可觀測規格

上線前先決定『出事時要看什麼』

運維DevOps/SRE架構師

→#50 · OPERATE

On-Call Rotation · 值班輪值

讓『誰接電話』有制度，不靠英雄主義

運維DevOps/SRE

→#51 · OPERATE

Capacity Planning · 容量規劃

在洪峰來臨前先把『撐不撐得住』算清楚

運維DevOps/SRE架構師

→#52 · OPERATE

Cost Monitor · 成本監控

讓雲端帳單變成可歸因、可預警的指標

運維DevOps/SRE

→#53 · OPERATE

Deprecation Plan · 廢棄計畫

把『下架』從口頭承諾變成可追蹤遷移

運維架構師產品負責人

→#54 · OPERATE

Retrospective · 回顧會議

讓團隊每個 sprint 留下一個小改善

運維產品經理產品負責人

→