On-call vezetői rutinok: eseménynapló, posztmortem

Az on-call ügyelet éjszaka akkor működik jól, ha nem hősies tűzoltás, hanem vezetett rendszer. A legtöbb cég ott csúszik el, hogy van ugyan ügyelet, de nincs:

egységes eseménynapló (incident log),
döntési rend (ki mit dönthet),
visszacsatolás (posztmortem),
és “tanuló rendszer”, ami ettől hétről hétre jobb lesz.

Eredmény: ugyanazok a hibák újra és újra visszajönnek, az on-call csapat kiég, a frontvonal bizonytalan lesz, a CSAT esik.

1) Mit jelent az “on-call vezetői rutin”?

A vezetői rutin nem azt jelenti, hogy a vezető éjjel fent ül.
Azt jelenti, hogy van rendszer, ami:

gyorsan reagál (containment),
csökkenti a kárt,
egységesen kommunikál,
és másnap javítja a gyökérokot.

Vagyis a rutin célja: kevesebb ismétlődés, kevesebb stressz, jobb minőség.

2) On-call szerepkörök (hogy ne legyen káosz)

A minimum on-call modell:

2.1 L1 (frontline) – “triázs és csomagolás”

P0/P1 besorolás
alap workaround
eseménynapló indítása
eszkaláció csomaggal

2.2 L2 on-call (specialist) – “megoldás”

technikai / szakmai lépések
hozzáférések
workaround implementálás

2.3 Supervisor on-call (vezető) – “döntés és kommunikáció”

prioritás és erőforrás döntés
kompenzációs keret jóváhagyás
kríziskommunikáció jóváhagyás
posztmortem levezetés másnap

Fontos: legyen 1 fő “Incident Commander” szerep P0-ra (akár L2 vagy supervisor).

3) Eseménynapló (Incident log): miért ennyire fontos?

Mert ha nincs log, másnap:

nem lehet visszafejteni, mi történt,
nem lehet tanulni,
és a felelősség elfolyik.

Éjszaka az eseménynapló a “vezetői memóriád”.

4) Eseménynapló sablon (kötelező mezők)

Ezt a sablont érdemes űrlapként vagy ticket formként bevezetni.

4.1 Alapadatok

Incident ID (automatikus)
Dátum / idő
Érintett szolgáltatás / csatorna
P-szint (P0/P1/P2)
Owner (ki viszi)

4.2 Impact

hány ügyfél érintett (becslés)
bevétel kockázat (alacsony/közepes/magas)
reputáció kockázat (public social? sajtó?)
adatvédelmi kockázat (PII érintett?)

4.3 Tünet és kiváltó ok (ahogy épp látjuk)

mi a tünet 2 mondatban
mi az első feltételezés (nem végleges)

4.4 Mit tettünk eddig (időrendi)

00:12 L1 észlelte
00:14 L2 riasztva
00:20 workaround 1
00:35 status update ügyfélnek
Időbélyeggel, bulletben.

4.5 Ügyfélkommunikáció

mit ígértünk (ETA!)
hol kommunikáltunk (chat/email/social/status page)

4.6 Következő lépés (handover)

kinek a feladata reggel
mi a “definition of done”
határidő

Ez a rész menti meg a reggelt.

5) On-call riasztás: timebox és csatorna (hogy működjön)

5.1 Timebox szabályok (irányadó)

P0: 10–15 perc alatt L2 ack, 30–60 perc containment
P1: 15–30 perc reakció, 60–120 perc workaround/ETA
P2: ticket + reggeli handover

5.2 Csatorna szabály

P0: telefon/SMS/pager + chat log
P1: chat + fallback telefon 10–15 perc után
P2: ticket, nem ébreszt

6) Posztmortem: “blameless”, de kőkemény

A jó posztmortem nem bűnbakkeresés.
A jó posztmortem a rendszer javítása.

6.1 Mikor kell posztmortem?

minden P0-ra kötelező
P1-re, ha:
- ügyfélimpact nagy,
- vagy ismétlődő,
- vagy reputációs.

6.2 Mikor tartsd?

ideális: 24–72 órán belül
rövid: 30–45 perc (nem meeting-maraton)

A lényeg: friss legyen az emlékezet.

7) Posztmortem sablon (copy-paste struktúra)

7.1 Tények (nem vélemény)

Mi történt? (timeline)
Mikor észleltük? (MTTA)
Mikor stabilizáltuk? (MTTR vagy “time to contain”)

7.2 Impact

hány ügyfél
mekkora bevétel/kár becslés
CSAT/kommentek

7.3 Gyökérok (root cause)

technikai/folyamat/emberi tényező
“miért” kérdés 3–5 lépésben (5 Whys egyszerűen)

7.4 Mi működött jól?

gyors riasztás?
jó workaround?
jó kommunikáció?

7.5 Mi nem működött?

hiányzó runbook?
túl késői eszkaláció?
rossz jogosultság?
rossz monitoring?

7.6 Action item lista (a posztmortem lényege)

Minden action item így nézzen ki:

Mit csinálunk
Ki a felelős
Határidő
Hogyan mérjük a kész állapotot

Példa:
“Checkout hiba runbook frissítése workaround lépésekkel – Feri – 2026.02.05 – QA checklistben ellenőrizve.”

8) Action item rendszer: így lesz belőle javulás, nem csak jegyzőkönyv

A posztmortem 80%-a az action item követés.

8.1 3 szabály

max 3–5 action item / posztmortem (különben elhal)
legyen owner + dátum
legyen “definition of done”

8.2 Heti 15 perces “follow-up”

Hetente egyszer:

melyik action item kész?
melyik csúszik?
mi a blokk?

Ennyi. Ettől él a rendszer.

9) KPI-k vezetőknek (hogy lásd, javul-e az on-call)

9.1 Sebesség

MTTA (észlelés/ack)
MTTR (megoldás vagy containment)

9.2 Minőség

ismétlődés (recurrence rate)
reopened incidentek aránya
csatornákon CSAT

9.3 Zaj

alert noise (mennyi fals riasztás)
P0 arány (ha túl magas, definíció rossz)

9.4 Tudás

runbook coverage (top 20 ügyre van-e runbook?)
tréning completion (mikrotananyagok)

10) 30 napos bevezetési roadmap: on-call rutinok élesítése

1. hét: alapok

P0/P1 definíció
riasztási csatorna + fallback
incident log sablon bevezetése

2. hét: runbook és eszkaláció

top 10 P0/P1 runbook (1 oldalas)
escalation message template

3. hét: posztmortem rendszer

posztmortem sablon
action item tracker (táblázat / ticketing)

4. hét: mérés és finomhangolás

MTTA/MTTR baseline
zaj csökkentés (false P0)
tréning hiányok pótlása

A Telex Center Kft. segít ezt “kulcsrakészen” felépíteni: folyamat, sablonok, tréning, QA és riport.

11) Zárás: a jó on-call nem éjszakai hősködés, hanem tanuló rendszer

Eseménynapló nélkül nincs tanulás.
Posztmortem nélkül nincs javítás.
Action item követés nélkül nincs változás.

Ha szeretnél stabil, fenntartható on-call vezetői rendszert (incident log + posztmortem + action tracking + KPI-k), ebben a Telex Center Kft. partner.

Ajánlatért keressen minket: https://telexcenter.hu/kapcsolat/