Agentic operations: van 4 uur MTTR naar 18 minuten bij een technologiebedrijf
Een SaaS-bedrijf met een Azure-omgeving van 30 subscriptions kampte met een hoge operationele last door configuratiedrift en handmatige incidentrespons. RLCM implementeerde een agentic operations workflow die laag-risico remediatie automatiseert en hoog-risico acties via een human-in-the-loop approval gate laat lopen.
Resultaten
Context
Klant: Technologiebedrijf (geanonimiseerd) — Technologie & SaaS
De klant is een SaaS-bedrijf dat meerdere B2B-applicaties op Azure host voor enterprise klanten in de financiële sector. De Azure-omgeving omvat 30 subscriptions, beheerd door een platform team van vier engineers. Het team werd overspoeld door Azure Monitor-alerts: gemiddeld 120 alerts per dag, waarvan het merendeel configuratiedrift betrof die handmatig gecorrigeerd moest worden. De gemiddelde tijd om een incident op te lossen (MTTR) was 4,2 uur, deels door de handmatige diagnose- en correctiestappen, deels door de beperkte beschikbaarheid buiten kantoortijden.
Uitdaging
De voornaamste uitdaging was het onderscheid tussen laag-risico en hoog-risico remediatie. Niet alle configuratiedrift is gelijk: een storage account dat per ongeluk publiek toegankelijk is geworden, vereist onmiddellijke automatische correctie. Een wijziging in een firewall-regel of een identity-toewijzing vereist menselijke beoordeling, ongeacht hoe zeker een geautomatiseerd systeem is van de juiste actie. Een tweede uitdaging was auditability: het bestaande systeem had geen volledige audit trail van wie welke actie had ondernomen en waarom. Bij een klantaudit kon het team niet aantonen dat alle security-incidenten tijdig en correct waren afgehandeld.
Aanpak
RLCM ontwierp een agentic operations workflow op basis van het maker-checker patroon. Een triage-agent ontvangt Azure Monitor-alerts, haalt context op via Azure Resource Graph (resource type, omgevingsklasse, recente changes, policy-staat) en berekent een risicoscore op basis van een classificatiemodel. Acties met een lage risicoscore — configuratiedrift op non-productie resources, ontbrekende diagnostische instellingen, afwijkende tagging — worden automatisch gecorrigeerd via de Azure Resource Manager API. Acties met een hoge risicoscore genereren een goedkeuringsverzoek via Microsoft Teams, inclusief de redenering van de agent en een voorgestelde actie. Na menselijke goedkeuring voert de agent de actie uit. Elke stap — signaaldetectie, contextophaling, risicoclassificatie, actie of goedkeuringsverzoek, uitvoering en verificatie — wordt vastgelegd in een gestructureerd log in Log Analytics. Een Azure Workbook toont de agent-activiteit, de risicoverdeling van alerts en de MTTR per categorie.
Lessons learned
- Begin met een laag-risico subset van alerts: bewijs de waarde van automatisering voordat je het risicoprofiel uitbreidt.
- De risicoclassificatie is het meest kritische onderdeel — investeer tijd in het definiëren van de criteria met het team.
- Stel een iteratie-cap in per agent run: een agent die blijft proberen een probleem op te lossen dat niet oplosbaar is, veroorzaakt meer schade dan het probleem zelf.
- Het Teams-goedkeuringskanaal moet altijd beschikbaar zijn: zorg voor een fallback naar e-mail als Teams niet bereikbaar is.
- Communiceer transparant naar klanten over het gebruik van agentic AI — dit versterkt het vertrouwen in plaats van te ondermijnen.