Az on-call ügyelet éjszaka akkor működik jól, ha nem hősies tűzoltás, hanem vezetett rendszer. A legtöbb cég ott csúszik el, hogy van ugyan ügyelet, de nincs:
- egységes eseménynapló (incident log),
- döntési rend (ki mit dönthet),
- visszacsatolás (posztmortem),
- és “tanuló rendszer”, ami ettől hétről hétre jobb lesz.
Eredmény: ugyanazok a hibák újra és újra visszajönnek, az on-call csapat kiég, a frontvonal bizonytalan lesz, a CSAT esik.
1) Mit jelent az “on-call vezetői rutin”?
A vezetői rutin nem azt jelenti, hogy a vezető éjjel fent ül.
Azt jelenti, hogy van rendszer, ami:
- gyorsan reagál (containment),
- csökkenti a kárt,
- egységesen kommunikál,
- és másnap javítja a gyökérokot.
Vagyis a rutin célja: kevesebb ismétlődés, kevesebb stressz, jobb minőség.
2) On-call szerepkörök (hogy ne legyen káosz)
A minimum on-call modell:
2.1 L1 (frontline) – “triázs és csomagolás”
- P0/P1 besorolás
- alap workaround
- eseménynapló indítása
- eszkaláció csomaggal
2.2 L2 on-call (specialist) – “megoldás”
- technikai / szakmai lépések
- hozzáférések
- workaround implementálás
2.3 Supervisor on-call (vezető) – “döntés és kommunikáció”
- prioritás és erőforrás döntés
- kompenzációs keret jóváhagyás
- kríziskommunikáció jóváhagyás
- posztmortem levezetés másnap
Fontos: legyen 1 fő “Incident Commander” szerep P0-ra (akár L2 vagy supervisor).
3) Eseménynapló (Incident log): miért ennyire fontos?
Mert ha nincs log, másnap:
- nem lehet visszafejteni, mi történt,
- nem lehet tanulni,
- és a felelősség elfolyik.
Éjszaka az eseménynapló a “vezetői memóriád”.
4) Eseménynapló sablon (kötelező mezők)
Ezt a sablont érdemes űrlapként vagy ticket formként bevezetni.
4.1 Alapadatok
- Incident ID (automatikus)
- Dátum / idő
- Érintett szolgáltatás / csatorna
- P-szint (P0/P1/P2)
- Owner (ki viszi)
4.2 Impact
- hány ügyfél érintett (becslés)
- bevétel kockázat (alacsony/közepes/magas)
- reputáció kockázat (public social? sajtó?)
- adatvédelmi kockázat (PII érintett?)
4.3 Tünet és kiváltó ok (ahogy épp látjuk)
- mi a tünet 2 mondatban
- mi az első feltételezés (nem végleges)
4.4 Mit tettünk eddig (időrendi)
- 00:12 L1 észlelte
- 00:14 L2 riasztva
- 00:20 workaround 1
- 00:35 status update ügyfélnek
Időbélyeggel, bulletben.
4.5 Ügyfélkommunikáció
- mit ígértünk (ETA!)
- hol kommunikáltunk (chat/email/social/status page)
4.6 Következő lépés (handover)
- kinek a feladata reggel
- mi a “definition of done”
- határidő
Ez a rész menti meg a reggelt.
5) On-call riasztás: timebox és csatorna (hogy működjön)
5.1 Timebox szabályok (irányadó)
- P0: 10–15 perc alatt L2 ack, 30–60 perc containment
- P1: 15–30 perc reakció, 60–120 perc workaround/ETA
- P2: ticket + reggeli handover
5.2 Csatorna szabály
- P0: telefon/SMS/pager + chat log
- P1: chat + fallback telefon 10–15 perc után
- P2: ticket, nem ébreszt
6) Posztmortem: “blameless”, de kőkemény
A jó posztmortem nem bűnbakkeresés.
A jó posztmortem a rendszer javítása.
6.1 Mikor kell posztmortem?
- minden P0-ra kötelező
- P1-re, ha:
- ügyfélimpact nagy,
- vagy ismétlődő,
- vagy reputációs.
6.2 Mikor tartsd?
- ideális: 24–72 órán belül
- rövid: 30–45 perc (nem meeting-maraton)
A lényeg: friss legyen az emlékezet.
7) Posztmortem sablon (copy-paste struktúra)
7.1 Tények (nem vélemény)
- Mi történt? (timeline)
- Mikor észleltük? (MTTA)
- Mikor stabilizáltuk? (MTTR vagy “time to contain”)
7.2 Impact
- hány ügyfél
- mekkora bevétel/kár becslés
- CSAT/kommentek
7.3 Gyökérok (root cause)
- technikai/folyamat/emberi tényező
- “miért” kérdés 3–5 lépésben (5 Whys egyszerűen)
7.4 Mi működött jól?
- gyors riasztás?
- jó workaround?
- jó kommunikáció?
7.5 Mi nem működött?
- hiányzó runbook?
- túl késői eszkaláció?
- rossz jogosultság?
- rossz monitoring?
7.6 Action item lista (a posztmortem lényege)
Minden action item így nézzen ki:
- Mit csinálunk
- Ki a felelős
- Határidő
- Hogyan mérjük a kész állapotot
Példa:
“Checkout hiba runbook frissítése workaround lépésekkel – Feri – 2026.02.05 – QA checklistben ellenőrizve.”
8) Action item rendszer: így lesz belőle javulás, nem csak jegyzőkönyv
A posztmortem 80%-a az action item követés.
8.1 3 szabály
- max 3–5 action item / posztmortem (különben elhal)
- legyen owner + dátum
- legyen “definition of done”
8.2 Heti 15 perces “follow-up”
Hetente egyszer:
- melyik action item kész?
- melyik csúszik?
- mi a blokk?
Ennyi. Ettől él a rendszer.
9) KPI-k vezetőknek (hogy lásd, javul-e az on-call)
9.1 Sebesség
- MTTA (észlelés/ack)
- MTTR (megoldás vagy containment)
9.2 Minőség
- ismétlődés (recurrence rate)
- reopened incidentek aránya
- csatornákon CSAT
9.3 Zaj
- alert noise (mennyi fals riasztás)
- P0 arány (ha túl magas, definíció rossz)
9.4 Tudás
- runbook coverage (top 20 ügyre van-e runbook?)
- tréning completion (mikrotananyagok)
10) 30 napos bevezetési roadmap: on-call rutinok élesítése
1. hét: alapok
- P0/P1 definíció
- riasztási csatorna + fallback
- incident log sablon bevezetése
2. hét: runbook és eszkaláció
- top 10 P0/P1 runbook (1 oldalas)
- escalation message template
3. hét: posztmortem rendszer
- posztmortem sablon
- action item tracker (táblázat / ticketing)
4. hét: mérés és finomhangolás
- MTTA/MTTR baseline
- zaj csökkentés (false P0)
- tréning hiányok pótlása
A Telex Center Kft. segít ezt “kulcsrakészen” felépíteni: folyamat, sablonok, tréning, QA és riport.
11) Zárás: a jó on-call nem éjszakai hősködés, hanem tanuló rendszer
Eseménynapló nélkül nincs tanulás.
Posztmortem nélkül nincs javítás.
Action item követés nélkül nincs változás.
Ha szeretnél stabil, fenntartható on-call vezetői rendszert (incident log + posztmortem + action tracking + KPI-k), ebben a Telex Center Kft. partner.
Ajánlatért keressen minket: https://telexcenter.hu/kapcsolat/
