A riasztási zaj nem „kényelmetlenség”, hanem üzleti kockázat. Amikor túl sok értesítés jön, az emberek elkezdik ignorálni őket – és a valóban kritikus jelzés is ugyanabba a „zajba” süllyed. Ezt hívják alert fatigue-nak: riasztási fáradtságnak. A vége mindig ugyanaz: romló reakcióidő, növekvő hibaszám, szétcsúszó ügyelet, és egy ponton egy nagyobb incidens, amit „meg lehetett volna fogni”, de nem fogtatok meg.
KKV-ként ez még fájóbb. Kisebb csapat, kevesebb tartalék, gyakran ugyanazok az emberek vannak nappal és on-call éjjel. Ezért a riasztási rendszernek nem „több riasztást” kell adnia, hanem jobb riasztásokat: kevesebb, tisztább, akcióképes jelzést. Az alert-higiénia (riasztások tisztán tartása) és a priorok (P0/P1/P2…) rendbetétele pontosan ezt adja meg.
A Telex Center Kft. ügyeleti rendszerek kialakításánál mindig itt kezd: először közös nyelv (priorok), utána csatornafegyelem, majd a zajcsökkentés adat alapján. A cél: ha megszólal egy P0, annak súlya legyen, és mindenki tudja, mi a dolga.
1) Mi a riasztási zaj, és honnan jön?
Riasztási zaj minden olyan jelzés, ami:
- nem igényel azonnali beavatkozást,
- nem egyértelmű, mit kell csinálni vele,
- túl gyakran ismétlődik ugyanarra a jelenségre,
- vagy rossz csatornán érkezik (pl. P2 éjszaka telefonon).
A leggyakoribb zajforrások:
1.1 Duplikáció
Ugyanarról a problémáról három helyről jön jelzés: cloud monitoring, alkalmazás log, és még a fizetési szolgáltató is küld emailt. Mindenki kap mindent, így senki nem látja a lényeget.
1.2 Flapping
Egy riasztás ki-be kapcsol: „down-up-down-up”. Nem valódi incidens, inkább instabil mérés vagy rossz küszöb.
1.3 Rossz küszöbök
Fix határértékek, amik nem veszik figyelembe a szezonalitást (kampány, peak, hétvége, éjszaka). Ez különösen e-kerben tipikus.
1.4 Információs jelzésből ébresztés
Van olyan jelzés, ami nappal hasznos trend (P3), de éjjel felesleges ébresztésként (P2/P3) rombol.
1.5 Nincs runbook
Ha nincs leírva a teendő, mindenki bizonytalan – és a bizonytalanság miatt mindent kritikusnak gondol.
2) Alert-higiénia: a 8 alapszabály
Az alert-higiénia azt jelenti, hogy a riasztások listája és működése folyamatosan „karbantartott”. Nem egyszer kell rendet tenni, hanem rendben is kell tartani.
2.1 Egy riasztásnak legyen gazdája
Owner nélkül nincs karbantartás. Minden alertnek legyen felelőse, aki:
- nézi a darabszámot,
- figyeli a fals riasztásokat,
- módosítja a küszöböket,
- és frissíti a runbookot.
2.2 Egy riasztás = egy tünet
Ne legyen „minden baj van” riasztás. Legyen konkrét: fizetés hibaarány nőtt, queue idő meghaladta, 5xx arány elszállt.
2.3 Minden riasztásnak legyen teendője
Ha nem tudod megmondani, mit kell csinálni, akkor az nem alert. Az maximum dashboard jelzés vagy riport.
2.4 Prior és csatorna együtt jár
A prior dönti el, hogy:
- ébresztünk-e,
- kinek szólunk,
- és milyen csatornán.
2.5 “Noise budget”
Legyen egy kimondott cél: hány riasztás fér bele egy éjszakába úgy, hogy az on-call még ép marad. Példa: max 3 ébresztés / éj, és ebből max 1 P0.
2.6 Dedupe és grouping
Ha 10 riasztás ugyanannak a gyökérokának a tünete, akkor csoportosítsd. Ne 10 külön csipogás legyen, hanem 1 „incident bundle”.
2.7 Stabil jelzés elv (for X minutes)
P0 ne szóljon be egy 15 másodperces spike miatt. Álljon fenn 3–5 percig, vagy legyen 3 egymást követő mérés hibás.
2.8 “Sunset” szabály
Minden alertnek legyen felülvizsgálati dátuma. Ami két hétig csak zaj: lejjebb prior, átalakítás, vagy törlés.
3) Priorok: P0/P1/P2/P3 – a jó riasztási rendszer alapja
A priorok nélkül nincs zajcsökkentés, mert minden ugyanolyan hangos.
P0 – azonnali ébresztés
Olyan esemény, ami:
- bevételt állít meg (checkout/payment down),
- tömegesen érint ügyfeleket,
- vagy adatvédelmi/biztonsági kockázat.
P1 – gyors reakció, de kontrollált ébresztés
- nagy üzleti kár, de van workaround,
- vagy egyedi, de nagy értékű ügy (pl. VIP, nagy kosár),
- reputációs kockázat, de nem „szalad ki a házból”.
P2 – ticket, reggelre
- nem kritikus, kivizsgálható,
- backoffice jellegű.
P3 – csak trend/riport
- optimalizálás,
- megfigyelés.
KKV-szabály: éjjel P2 és P3 nem ébreszt. Ha mégis ébreszt, ott a rendszer hibás.
4) Riasztási csatorna-fegyelem (mert nem mindegy, hol jön)
A csatorna is fegyelem.
- P0: telefon/SMS + egy chat csatorna logolásra
- P1: chat + fallback telefon (ha nincs reakció X percen belül)
- P2: ticket/email
- P3: napi/heti digest
A “minden mindenkinek mindenhol” a biztos út a zajhoz.
5) Flapping, duplikáció, rossz küszöb: konkrét javítások
5.1 Flapping fix
- “for 5 minutes” feltétel
- hiszterézis: más küszöb fel, más küszöb vissza
- 15–30 perces dedupe ablak
5.2 Duplikáció fix
- jelöld ki a “source of truth”-ot (pl. egy monitoring rendszer)
- a többi csak logoljon, ne riasztson
5.3 Küszöb fix
- baseline alapú küszöbök (pl. az elmúlt 7 nap átlagához képest)
- idősávos küszöb (nappal más, éjjel más)
- kampány/peak mód (ideiglenes profil)
6) Runbook: a riasztásból így lesz akció, nem pánik
A top 10 riasztáshoz legyen 1 oldalas runbook. Formátum:
- Mit jelent ez a riasztás?
- Mi a legvalószínűbb ok?
- Az első 3 lépés (konkrét)
- Mikor eszkalálunk és kinek?
- Mit kommunikálunk az ügyfél felé? (1–2 makró)
Ha ez nincs, a riasztás csak szorongást okoz.
7) Eskaláció és prior: ne legyen minden P0
A zajcsökkentés része, hogy az eszkaláció se legyen automatikus “mindenkinek”.
- P0: azonnali specialist + supervisor értesítés
- P1: L1 timebox után specialist, supervisor csak döntéshez
- P2: nincs éjjeli eszkaláció
Ha P1-ből P0-t csinálsz, a P0 értéktelen lesz.
8) KPI-k: mérd a zajt, különben visszanő
Zaj KPI-k
- riasztások száma / éj
- false positive arány P0-nál
- flapping arány
- duplikált riasztások aránya
On-call egészség KPI-k
- MTTA (ack idő)
- missed alert (nem reagált rá senki)
- ébresztések száma / ügyeletes / hét
Üzleti KPI-k
- MTTR / containment idő
- CSAT éjszaka
- ismétlődő incidentek aránya
9) 14 napos alert-higiénia program KKV-knak
Nap 1–2: priorok + csatornák rögzítése
- P0/P1/P2/P3 definíció
- csatorna-mátrix
Nap 3–5: audit (top 20 riasztás)
- duplikáció kiszedése
- flapping szabályok beállítása
Nap 6–9: runbook top 10 riasztásra
- 1 oldal / riasztás
- teendők + eszkaláció + makró
Nap 10–14: küszöbök finomhangolása
- baseline/idősáv alapú küszöbök
- P2/P3 digestbe terelés
- KPI panel beállítása
10) Zárás
A riasztási zajt nem “tűrni” kell, hanem meg kell szüntetni. Alert-higiénia nélkül az on-call kiég, és a valódi vészjelzés is elveszik. A megoldás: priorok rendbetétele, csatorna-fegyelem, duplikáció és flapping kezelése, runbookok, és rendszeres audit.
Aki ezt jól csinálja, nem csak nyugodtabban alszik, hanem gyorsabban reagál, kevesebb hibát csinál, és stabilabb ügyfélélményt ad.
