On-call utáni debrief: posztmortem sablon

Az on-call (ügyelet) igazi értéke nem csak az, hogy “éjjel megfogtuk a bajt”, hanem az, hogy másnap ne ugyanaz történjen meg újra. Ha nincs debrief és posztmortem, az ügyelet csak tűzoltás: megoldotok valamit, továbbmentek, majd ugyanaz visszajön – csak nagyobban, rosszabb időpontban, több kár mellett. A posztmortem pont ezért kell: nem hibást keres, hanem rendszert javít.

A jó posztmortem rövid, tényszerű, és akciókat eredményez. Nem történetmesélés, nem kifogáslista, nem egymásra mutogatás. Cél: egyértelműen rögzíteni mi történt, miért történt, mit csinálunk, hogy ne történjen újra, és ki felel érte, mikorra.

A Telex Center Kft. üzemekben a posztmortem azért működik, mert egyszerű: fix sablon, fix időkeret, fix felelősségek. Így az on-call nem “viszi” az energiát, hanem visszaadja: kevesebb zaj, stabilabb SLA, jobb CSAT, kevesebb eszkaláció.

1) Debrief vs posztmortem: mi a különbség?

Debrief (gyors, 10–15 perc, másnap reggel)

Cél: azonnali tisztázás, hogy:

mi maradt nyitva,
mit kell reggel átadni,
van-e azonnali kockázat,
kell-e ügyfélkommunikáció.

Posztmortem (strukturált, 30–60 perc, 24–72 órán belül)

Cél: rendszerjavítás.

gyökérok (root cause)
folyamat hibák
monitoring/riasztás hibák
tudásbázis/script hiány
akcióterv tulajdonossal

A kettő együtt ad stabil működést.

2) Mikor kötelező posztmortem?

KKV-knál is érdemes küszöböt rögzíteni. Példa:

Kötelező posztmortem, ha:

P0 volt
adatvédelmi vagy security gyanú felmerült
tömeges ügyfélimpact volt
a containment 60 percnél tovább tartott
social/public panasz hullám lett
kompenzációt kellett adni
ugyanaz a hiba 30 napon belül ismétlődött

Ha mindent posztmortemezel, elinflálódik. Ha semmit, nem tanultok.

3) A posztmortem 7 szabálya (hogy ne legyen cirkusz)

Blameless: nem hibást keresünk, rendszert javítunk.
Tények: időbélyeges timeline, nem vélemény.
Egy owner: valaki felel a dokumentumért és a follow-upért.
Action item csak ownerrel és határidővel.
Kevesebb, de biztos akció: 3–7 jó akció jobb, mint 30 “majd”.
Monitoring és tudásbázis mindig vizsgálat tárgya.
Visszamérés: következő review időpont rögzítve.

4) Debrief sablon (10–15 perc, reggeli átadásra)

Debrief – rövid összefoglaló

Mi történt (1 mondat):
Prior (P0/P1):
Jelenlegi állapot:
Mi van még nyitva:
Következő lépés:
Owner reggelre:
Ügyfélkommunikáció kell? (igen/nem)
- Ha igen: mit és mikor?

Ezt küldöd reggel a felelősnek / csapatnak, ticket linkekkel.

5) Posztmortem sablon (CTRL+C / CTRL+V használatra)

POSZTMORTEM – [INCIDENT NEVE]

1. Meta

Dátum:
Incident ID / Ticket ID:
Prior: P0 / P1
Incident Commander:
Résztvevők:
Érintett rendszerek / csatornák:

2. Rövid összefoglaló (max 5 sor)

Mi történt?
Kit érintett?
Mekkora volt az impact?
Mikor lett stabilizálva?

3. Impact (konkrét számok)

Érintett ügyfelek száma (becslés):
Érintett rendelések / tranzakciók:
Bevételkiesés (becslés):
Reputációs hatás (social, PR):
Support terhelés (kontaktok száma, queue time):

4. Timeline (időbélyeges, tények)

HH:MM – Jelzés beérkezett (honnan? monitoring/ügyfél/social)
HH:MM – Acknowledge (ki?)
HH:MM – Első intézkedés (mi?)
HH:MM – Eskaláció (kinek? miért?)
HH:MM – Workaround / containment lépés
HH:MM – Status kommunikáció (mit mondtunk?)
HH:MM – Stabil állapot elérve
HH:MM – Végleges megoldás (ha volt)
HH:MM – Lezárás

5. Root cause (gyökérok)

Mi volt a közvetlen ok?
Mi volt a mögöttes ok?
Miért nem fogtuk meg hamarabb? (1–3 mondat)

6. Detection és monitoring

Mi jelezte először az incidenst? (monitoring/ügyfél/social)
A riasztás megfelelő priorral jött? (igen/nem)
Volt zaj/duplikáció/flapping? (igen/nem)
Mit kell változtatni a riasztásokon?

7. Response és folyamat

A triázs jó volt? (igen/nem) – Miért?
Az eszkaláció jó volt? (igen/nem) – Miért?
A timebox szabályt betartottuk? (igen/nem)
Volt-e kommunikációs hiba? (igen/nem) – Mi?
Volt-e adatvédelmi kockázat? (igen/nem) – Mi?

8. Tudásbázis és script

Volt megfelelő runbook / döntési fa? (igen/nem)
Ha nem: melyik hiányzott?
Melyik script/makró kellett volna?
Mit kell frissíteni a tudásbázisban?

9. Mi ment jól (max 5 pont)

10. Mi ment rosszul / mi volt a szűk keresztmetszet (max 5 pont)

11. Action items (KÖTELEZŐ owner + határidő)

Teendő:
Owner:
Határidő:
Mérhető eredmény:
Teendő:
Owner:
Határidő:
Mérhető eredmény:
Teendő:
Owner:
Határidő:
Mérhető eredmény:

(ideális: 3–7 akció)

12. Kompenzáció / ügyfélkezelés (ha volt)

Mit adtunk?
Kinek?
Mi volt a döntési alap?
Kell-e utókövetés?

13. Visszamérés (következő kontroll)

Review időpont:
Ki ellenőrzi?
Milyen KPI-t nézünk? (MTTA, containment idő, false P0, repeat incident, CSAT)

14. Lezárás

Posztmortem készítő:
Jóváhagyó:
Dátum:

6) Tipikus “posztmortem hibák” (amit kerülj)

túl hosszú narratíva, kevés tény
nincs szám (impact becslés nélkül üres)
nincs owner és határidő
túl sok akció, senki nem csinálja meg
nincs monitoring javítás (pedig majdnem mindig kell)
nincs tudásbázis frissítés (pedig a frontline ebből tanul)

7) Hogyan legyen ebből rendszer?

Heti 1 fix időpont 30 perc:

nyitott action itemek státusza
repeat incidentek
riasztási zaj alakulása
tudásbázis frissítések

Így a posztmortem nem “papír”, hanem javulás.