From argos
Blameless postmortem + RCA disiplini — timeline, 5-why kök neden, contributing factor, action item (sahip+tarih), follow-through tracking. Incident sonrası **kişisel suçlama yok**, **sistemik sebep**.
npx claudepluginhub resultakak/argos --plugin argosThis skill uses the workspace's default tool permissions.
`agents/shared/severity-rubric.md` ve `agents/shared/escalation-matrix.md` default-load
Mandates invoking relevant skills via tools before any response in coding sessions. Covers access, priorities, and adaptations for Claude Code, Copilot CLI, Gemini CLI.
Share bugs, ideas, or general feedback.
agents/shared/severity-rubric.md ve agents/shared/escalation-matrix.md default-load
sayılır (agents/coordination.md §11). Bu skill'in çıktısı Critical / High / Medium /
Low + kanıt formatında olmak zorunda — spekülatif Critical yasak. Sahiplik dışı bulgu
ilgili agent'a delege; karar yetkisi eşiği aşılırsa kullanıcı onayı zorunlu.
Mutlak zaman (UTC), kim/ne, kanıt link.
| Zaman (UTC) | Kim | Aksiyon | Kanıt |
|---|---|---|---|
| 14:02 | Deploy bot | api-svc v1.4.2 canary 5% | gha run #1234 |
| 14:05 | Prom alert | error_rate{service="api"} > 0.05 | dashboard link |
| 14:06 | On-call ack | PD ack, Slack thread başladı | slack ts:... |
| 14:09 | On-call | rollback başlatıldı (helm rollback 0) | helm log |
| 14:14 | Recovery | error_rate normal'e döndü | dashboard |
| 14:18 | Incident closed | PagerDuty resolved | PD link |
Kurallar:
[unknown] yaz.Kural: Her cevap Why zincirine "people" değil "system" sokmaz. "Ali unutmuş"
ilk cevap olabilir ama Why? "sistem hatırlatmadı" diye derinleşir.
Belirti: api-svc 5xx oranı %5 → %50, 4 dk
Why? -> v1.4.2 deploy yeni endpoint'te 500 fırlatıyor
Why? -> Yeni endpoint ENV var bekliyor, prod'da set değil
Why? -> ConfigMap güncellemesi staging'de yapıldı, prod'da unutuldu
Why? -> Deploy pipeline ConfigMap diff'i otomatik apply etmiyor
Why? -> ArgoCD app-of-apps ConfigMap'i git'ten almıyor
(sealed-secrets workflow'u eksik)
Genellikle 5-why 3-7 katman. 5 mutlak değil; sistemik kök bulunca dur. Birden fazla "why" zinciri olabilir (multiple contributing factors).
Tek "kök" yetersiz — incident'e katkıda bulunan diğer faktörler:
| Kategori | Örnek |
|---|---|
| Process | Deploy onayı eksikti, change advisory bypass |
| Tooling | Alert eşik yüksek, monitoring blind spot |
| Architecture | Tek nokta failure, retry logic yok |
| Knowledge | Yeni feature dokümantasyon eksik |
| Resourcing | On-call tek kişiydi, escalation gecikti |
| Communication | Slack channel karışık, status page güncel değil |
| Time pressure | Release deadline gece, dikkat dağıldı |
| Metric | Değer |
|---|---|
| Etkilenen kullanıcı sayısı | 12,450 |
| Etkilenen istek sayısı | 89,300 (toplam isteklerin %3.2'si) |
| Süre | 14 dakika |
| SLA breach | Evet (99.9% aylık → 99.85%) |
| Veri kaybı | Yok / Var (detay) |
| Customer support ticket | 47 |
| Public communication | Status page + 2 tweet |
Format:
| Öncelik | Aksiyon | Sahip | Bitiş tarihi | Issue |
|---|---|---|---|---|
| P0 | ConfigMap diff'i ArgoCD'ye eklensin | @platform-team | 2026-05-14 | #1234 |
| P1 | Pre-deploy ENV var validation | @api-team | 2026-05-21 | #1235 |
| P2 | Deploy runbook'a ConfigMap check | @runbook-author | 2026-05-28 | #1236 |
| P2 | Alert eşik %3'e çekilsin | @observability | 2026-05-21 | #1237 |
Kurallar:
User: /postmortem incident-2026-05-09
Agent (incident-commander):
1. PagerDuty + Slack thread + Prom dashboard'tan timeline çıkar.
2. Trigger: prom alert error_rate{service="api"} > 0.05; severity P1.
3. MTTD 3 dk (alert), MTTR 12 dk (rollback).
4. Customer impact: 12,450 user × 14 dk; SLA breach (99.9 → 99.85).
5. 5-why:
- 5xx → yeni endpoint ENV var miss
- ENV var miss → ConfigMap prod update unutuldu
- Unutuldu → pipeline ConfigMap'i otomatik apply etmiyor
- Etmiyor → ArgoCD app-of-apps eksik (sealed-secrets workflow yok)
6. Contributing factors: process (deploy onayı zayıf), tooling (alert eşik %5,
2 dk geç tetiklendi), architecture (tek nokta).
7. Action items: 4 madde, sahip + tarih + issue.
8. Follow-through: 90 gün sonra "tekrar oldu mu?" kontrol; haftalık review.
9. Output: `templates/postmortem/postmortem.md` doldurulmuş hâli +
`runbooks/postmortem-2026-05-09.md` yayın.
10. `runbook-author` delege: postmortem'in `runbooks/` altına yazımı.
11. Action item issue'ları açıldı (`gh issue create`).
# Postmortem: <incident-id>
## Özet (TL;DR — 3 cümle)
## Severity + Timeline
- Severity: P0/P1/P2
- MTTD / MTTR / MTBF
- Timeline tablosu
## 5-Why (Kök Neden)
## Contributing Factors
## Customer Impact
## Action Items
| Öncelik | Aksiyon | Sahip | Tarih | Issue |
## What Went Well
- (incident yönetimi pozitifleri — moral + öğrenme)
## What Could Have Gone Better
- (gelecekte nasıl daha iyi)
## Follow-Through
- 90 gün sonra kontrol tarihi