De valkuilen van machine learning

Zorg jij dat je er niet in trapt?

24 januari 2019 - 5 minuten

-Dit artikel is geschreven door Peter van der Schaar voor tijdschrift Twinkle.-

Machine learning betekent dat de computer de mogelijkheid heeft om zaken te leren die niet direct geprogrammeerd zijn. In een vorig artikel schreef ik over het gebruik van machine learning bij e-mailmarketing. Nu ga ik in op vier problemen die je daarbij kunt tegenkomen.

Met Basedriver werken we aan een aantal verschillende use cases, zoals beste verzendmoment, aankoopintentie en content-interesse. Inmiddels is daar ook opzegintentie (churn) bijgekomen. In onze tests lopen we natuurlijk tegen allerlei zaken aan. De kans is groot dat, als jij machine learning toe gaat passen in jouw campagnes, je dezelfde problemen tegenkomt. Als digital marketingprofessional is het belangrijk dat je je heel goed bewust bent van deze valkuilen, want je loopt het gevaar de verkeerde conclusies te trekken en daarmee kun je de doelstelling, relevantere campagnes die meer waarde genereren, negatief beïnvloeden.

Onvolledige data

Zelfs in een omgeving als Basedriver, waar we alle data bij de hand hebben in onze eigen systemen, zijn we meer tijd kwijt aan het structureren en ordenen van data dan aan het daadwerkelijk trainen en optimaliseren van de algoritmen. Tijdens het trainen en interpreteren van de resultaten blijkt vaak dat je nog meer data nodig hebt. Het is essentieel dat je voldoende tijd en middelen vrijmaakt om data te vergaren en te structureren, anders is jouw machine learning project gedoemd te mislukken.

Voor de hand liggende conclusies

Eén van de algoritmes die we gemaakt hebben blijkt met 98 procent zekerheid een specifieke handeling van de klant te kunnen voorspellen. Bij dat soort resultaten moet je goed kijken naar wat de waarde is van die voorspelling. In veel gevallen betekent het namelijk dat het antwoord op de vraag direct beschikbaar is in de data, of dat we de conclusie zelf ook al hadden kunnen trekken.

Een machine learning algoritme is bijvoorbeeld heel goed in ontdekken dat abonnementen vooral stoppen nadat de einddatum is verstreken. Of dat er niemand opzegt gedurende de eerste twaalf maanden van een jaarcontract. Op zich is het knap dat een algoritme dit zonder menselijke hand ontdekt, maar het zijn geen waardevolle conclusies waar je als marketeer wat mee kunt.

Conclusies waar geen actie op ondernomen kan worden

Eén van de vragen die wij in een algoritme verwerken is: Wat is de kans op opzeggen? Stel dat je zeker weet dat iemand opzegt, wat moet je dan doen? Ga je die klant mailen met een aanbod? Ga je hem bellen? Ga je hem overhalen om toch te blijven? Als het algoritme gelijk heeft hoef je eigenlijk niets te doen, want de klant heeft al besloten op te zeggen.

Hetzelfde geldt voor klanten waarvan je zeker weet dat ze blijven. Als je toch weet dat ze blijven, waarom zou je ze dan een aanbod sturen? Ze weten je dan vast wel te vinden.

Hier zit een behoorlijke paradox. Hoe voorspelbaarder het klantgedrag, hoe minder campagnes ertoe doen die dat gedrag mogelijk beïnvloeden.

Een veel relevantere vraag dan die naar mogelijke opzeggingen is de volgende: bij welke klanten, met een intentie om op te zeggen, kan die intentie beïnvloed worden door een campagne? Dat zijn namelijk de mensen waar het om gaat. Een ingewikkelde vraag waarbij, je raadt het al, meer data nodig zijn om een antwoord te vinden.

Campagnes die bevestigen wat het algoritme denkt (confirmation bias)

Als marketeers willen we natuurlijk campagnes met een hoge conversie. Daarvoor is machine learning een uitstekend middel. We laten het algoritme bepalen wie een hoge aankoopintentie of hoge verlengkans hebben en benaderen die mensen. De mensen met een lage conversiekans sluiten we uit om te voorkomen dat we ze onnodig benaderen. Ligt voor de hand, toch?

Toch is deze aanpak zeer gevaarlijk. Het systeem heeft bepaald welke mensen waarschijnlijk zullen converteren. Vervolgens krijgen zij een goede aanbieding en het systeem zal concluderen dat er in deze groep veel mensen een aankoop gedaan hebben. We bevestigen daarmee het beeld van de machine. Er zijn een paar problemen met deze aanpak:

Het eerste is dat je het risico loopt dat hele groepen klanten buiten beschouwing gelaten worden, en dat kost omzet. Het is geen exacte wetenschap en ook in de andere groepen zitten klanten die best interesse hebben in een aanbod. Je mist omzet als je puur afgaat op het resultaat van het algoritme.

Ten tweede stopt het algoritme eigenlijk met leren als het alleen maar dezelfde resultaten krijgt. Natuurlijk wordt het nog wel gefinetuned, maar als de groep te uniform wordt dan valt er weinig nieuws te leren. Ook dit is een risico, want het maakt de werkwijze minder toekomstvast. Het systeem blijft naar links kijken, terwijl er rechts misschien van alles gebeurt.

Het laatste probleem stipte ik hierboven al aan: als je alleen mensen benadert die een aankoopintentie hebben, dan voeg je eigenlijk geen waarde toe. Dat gebeurt pas als je mensen zonder die aankoopintentie alsnog kunt overhalen iets aan te schaffen.

Conclusie

Het starten met campagnes op basis van machine learning is niet eenvoudig. Het blijkt goed mogelijk klantgedrag te voorspellen op basis van data. Maar hoe dat klantgedrag beïnvloed kan worden zodat er iets anders gebeurt dan het algoritme voorspelt, is een kunst waar de komende jaren nog heel hard aan gewerkt moet worden.

Over Basedriver

Basedriver is een digitaal marketing platform waarin content, data en campagnes bij elkaar komen. We zorgen ervoor dat B2B en B2C bedrijven hun content aan de juiste klant aanbieden door middel van persoonlijke nieuwsbrieven en e-mail marketing campagnes.

Basedriver staat voor:

Een eenvoudige user interface met geautomatiseerde business ruling die zorgt dat marketeers zelfstandig kunnen werken met content, campagnes en data;
Kwalitatieve marketing data door automatisch bounce management, actieve checks op datakwaliteit en koppelingen met meer dan 2.000 apps en sites;
Een persoonlijke contact- en content planning die het mogelijk maakt om automatisch de juiste content aan de juiste ontvanger aan te bieden.

Met Basedriver vergroot je je marketing database, verstuur je relevantere campagnes, haal je meer rendement uit content én genereer je meer klanten.