AI agents zijn pas interessant als je objectief kunt laten zien wat ze opleveren. Voor veel organisaties is de eerste vraag daarom niet meer “werkt AI?”, maar “hoe meet ik of mijn AI agent goed presteert en waar ik moet bijsturen?”.
Dit artikel geeft een gestructureerd overzicht van de belangrijkste KPI’s voor AI agents in sales en service, en hoe je die gebruikt om te meten én te verbeteren.
KPI’s voor AI agents zijn meetbare prestatie-indicatoren die laten zien in hoeverre een AI agent zijn taak binnen klantcontact, leadgeneratie of service haalt. Ze maken duidelijk hoeveel gesprekken de agent afhandelt, wat de kwaliteit is van de uitkomst en welke impact dit heeft op tijd, kosten en klantbeleving.
Bij AI agents gaat het niet alleen om aantallen gesprekken, maar vooral om:
Voor B2B-beslissers zijn KPI’s voor AI agents vooral een middel om drie vragen te beantwoorden:

Voordat je individuele KPI’s kiest, helpt het om de doelen scherp te hebben. In de praktijk vallen KPI’s voor AI agents grofweg in vier categorieën:
Elke KPI die je meet, moet aantoonbaar bijdragen aan één van deze categorieën. Als je een metric niet kunt koppelen aan een doel, voegt hij meestal weinig toe.
Afhandelingsgraad is één van de kern-KPI’s voor AI agents. Het geeft aan welk deel van de inkomende vragen of gesprekken volledig door de AI wordt afgehandeld, zonder dat een menselijke medewerker hoeft over te nemen.
Afhandelingsgraad meet je bijvoorbeeld als:
Een hogere afhandelingsgraad betekent:
Belangrijk is dat afhandelingsgraad nooit los staat van kwaliteit. Een AI agent die “alles” afhandelt maar vaak verkeerd antwoord geeft, scoort op papier goed, maar creëert problemen in de praktijk.
Voorbeeld (automotive):
Een dealer zet een AI Service Agent in voor vragen over openingstijden, onderhoud en APK. Als 60% van alle binnenkomende chatvragen hierdoor volledig door de agent wordt afgehandeld, is dat direct merkbaar in minder telefoontjes en e-mails naar de werkplaatsreceptie.

Escalaties zijn momenten waarop een AI agent het gesprek overdraagt aan een mens. De KPI rond escalaties laat zien hoe goed de AI weet:
Relevante metrics rond escalaties:
Een gezonde AI-implementatie heeft:
Met escalatiedata zie je ook waar je de agent kunt verbeteren. Als veel gesprekken escaleren op dezelfde vraag, ontbreken er waarschijnlijk kennis, logica of duidelijke antwoorden.
Voorbeeld (kliniek):
Een AI Service Agent mag geen medische diagnose geven, maar wel uitleg over behandelingen en wachttijden. Zodra een bezoeker klachten beschrijft of twijfelt over urgentie, is een automatische escalatie naar een medewerker een bewuste strategie, geen fout. De KPI is dan: herkent de agent die grens consequent?
Voor AI Sales Agents is leadkwaliteit de belangrijkste KPI naast het aantal leads. Leadkwaliteit geeft aan in hoeverre een lead voldoet aan de criteria van jouw salesproces, bijvoorbeeld:
Leadkwaliteit kun je op verschillende manieren beoordelen:
Een AI Sales Agent is pas effectief als hij:
Voorbeeld (makelaardij):
Een AI Sales Agent op een woningdetailpagina vraagt bezoekers of ze een bezichtiging willen plannen of meer informatie zoeken. De makelaar beoordeelt AI-leads achteraf op bruikbaarheid. Als een groot deel van de AI-leads binnen enkele dagen tot geplande bezichtigingen leidt, is de leadkwaliteit hoog, zelfs als het absolute aantal leads niet extreem is.

Klanttevredenheid (CSAT of NPS-achtig) laat zien hoe bezoekers het gesprek met de AI agent ervaren. Dit is cruciaal, omdat een slechte ervaring direct ten koste gaat van je merk en toekomstige conversie.
Je kunt klanttevredenheid meten via:
Belangrijk is dat je klanttevredenheid per type gesprek bekijkt:
In een hybride model, zoals Bconnect dat gebruikt, kun je klanttevredenheid ook vergelijken tussen AI- en livechat-gesprekken. Zo zie je waar AI goed genoeg is, en waar menselijke operators meer waarde toevoegen.
Voorbeeld (home & living / maatwerk):
Een maatwerkkeukenbedrijf gebruikt een AI agent voor eerste vragen over stijlen, mogelijkheden en richtprijzen. Als de CSAT-score op deze oriëntatievragen vergelijkbaar is met die van menselijke chatoperators, is dat een sterk signaal dat de AI agent geschikt is voor de vroege fase van het klantproces.
Foutpercentages meten hoe vaak een AI agent een onjuist, onvolledig of misleidend antwoord geeft. Dit is een kritieke KPI, omdat fouten direct impact hebben op vertrouwen, merkbeleving en soms juridische risico’s.
Foutpercentages kun je onder andere afleiden uit:
Fouten zijn niet altijd zwart-wit. Maak daarom onderscheid tussen:
Het doel is niet om iedere fout uit te bannen, maar om foutpatronen te herkennen en gericht bij te sturen in:
Voorbeeld (vastgoed):
Een AI agent bij een vastgoedkantoor geeft standaardinformatie over huurvoorwaarden. Als blijkt dat hij bij complexe situaties (bijvoorbeeld combinatie van bedrijfsmatig gebruik en wonen) structureel onvolledig antwoord geeft, is dat een signaal om die categorie altijd te escaleren of de kennisbasis te verrijken.
Taakvoltooiing gaat een stap verder dan afhandelingsgraad. Waar afhandelingsgraad meet of een gesprek zonder menselijk ingrijpen eindigt, kijkt taakvoltooiing naar de inhoudelijke uitkomst: is de beoogde taak daadwerkelijk afgerond?
Voor AI agents zijn typische taken:
Taakvoltooiing meet je door te kijken naar:
Taakvoltooiing is vooral belangrijk bij conversiegerichte inzet van AI, zoals bij AI Sales Agents. Een gesprek dat “aardig” verloopt maar geen concrete vervolgstap oplevert, draagt minder bij aan je resultaten.
Voorbeeld (automotive):
Een AI agent bij een dealer begeleidt bezoekers naar het inplannen van een proefrit. Als veel bezoekers wel interesse tonen, maar het invullen van gegevens halverwege afbreken, is de afhandelingsgraad misschien hoog, maar de taakvoltooiing laag. Dan ligt er een optimalisatiekans in het verkorten of verduidelijken van de vragenlijst.
Een belangrijk deel van de businesscase voor AI agents zit in efficiëntie: minder repetitief werk voor mensen, meer tijd voor complexe of waardevolle gesprekken.
Relevante KPI’s rond efficiëntie zijn onder andere:
Deze KPI’s laten zien:
Efficiëntie mag echter nooit los worden beoordeeld van kwaliteit en klanttevredenheid. Een AI agent die veel tijd bespaart, maar negatieve ervaringen oplevert, is geen duurzame oplossing.
Voorbeeld (kliniek):
Een kliniek zet een AI agent in om intakevragen te stellen voordat een medewerker een chat of telefoongesprek oppakt. Als medewerkers hierdoor direct met gerichte vragen kunnen starten, dalen gesprekstijden, terwijl de kwaliteit van het consult gelijk blijft of verbetert.

Meten is pas zinvol als je er gericht op stuurt. KPI’s voor AI agents vormen samen een stuurcockpit waarin je kunt zien:
Praktische aandachtspunten bij het gebruiken van KPI’s:
KPI’s voor AI agents maken het verschil tussen experimenteren en volwassen inzet. Door afhandelingsgraad, escalaties, leadkwaliteit, klanttevredenheid, foutpercentages, taakvoltooiing en tijdswinst gestructureerd te meten, krijg je grip op:
Organisaties die AI agents op deze manier meten, zien AI niet als zwarte doos, maar als stuurbaar onderdeel van hun klantproces. In het hybride model van Bconnect – waarin AI en menselijke chatoperators elkaar aanvullen – vormen deze KPI’s de basis om taken logisch te verdelen en continu te optimaliseren.
Meer weten over hoe je KPI’s inricht voor hybride klantcontact met AI en menselijke operators? Bekijk ook onze kennisartikelen over AI Sales Agents en AI Service Agents binnen conversiegericht klantcontact.
De hoofdcategorieën (afhandeling, kwaliteit, commerciële waarde, efficiëntie) zijn universeel. De invulling verschilt per sector: in automotive draait het meer om proefritten en showroomafspraken, in makelaardij om bezichtigingen en informatieaanvragen, in klinieken om intake en duidelijke informatie.
Combineer expliciete feedback (korte rating of smiley) met impliciete signalen, zoals herhaalvragen, voortijdig beëindigde chats en escalaties. Analyse van conversaties helpt om patronen te herkennen, ook als niet elke bezoeker actief een beoordeling invult.
Foutpercentage is kritischer dan afhandelingsgraad. Een lagere afhandelingsgraad met weinig fouten is meestal beter dan een hoge afhandelingsgraad met veel onjuiste antwoorden. Afhandeling kun je veilig opbouwen; fouten tasten vertrouwen direct aan.
Aantal leads zonder kwaliteit zegt weinig. Het is beter om minder, maar duidelijke en bruikbare leads te genereren dan een grote hoeveelheid ongerichte contacten. Laat sales structureel terugkoppelen over de bruikbaarheid van AI-leads om deze KPI scherp te houden.