Blog

Zonder goede data geen AI

Een doel van AI is voorspellingen te doen en daar actionable insights uit te destilleren. Zoals bijvoorbeeld het voorspellen van preventief onderhoud van machines waarbij onderhoudsschema’s aangepast worden, of het identificeren van toekomstig fysiek onderpresteren van voetballers zodat deze tijdig gewisseld kunnen worden, of de omzet voorspellen op basis van de inzet van verschillende soorten reclame.

Voor het doen van voorspellingen is het noodzakelijk dat de data ook de mogelijkheid biedt om voorspellingen te doen. Een belangrijk risico is de kwaliteit van de data, de informatiedichtheid van de data en de beschikbaarheid van de data waardoor er geen voorspellingen of actionable insights gerealiseerd kunnen worden. Dat de data niet altijd geschikt is voor het doen van voorspellingen is vaak het gevolg dat data in eerste instantie is vast gelegd voor het ondersteunen van de operationele processen en niet voor AI. Om te kunnen vaststellen of de data bruikbaar is voor de gewenste voorspellingen en actionable insights is een eerste stap in een AI project het achterhalen van de gewenste voorspellingen, het vaststellen van de prioriteiten van deze voorspellingen en een analyse van de data. Wij focussen ons nu op de data. Hoofdvragen rondom de data zijn: is de data beschikbaar, is de data betrouwbaar en is de data bruikbaar?

Is de data beschikbaar?

In 2016 werden de ‘FAIR Guiding Principles for scientific data management and stewardship’ (https://www.nature.com/articles/sdata201618 ) gepubliceerd in Scientific Data. De auteurs wilden richtlijnen geven om de vindbaarheid (Findable), toegangkelijkheid (Accessible), interoperabiliteit (Interoperable) en herbruikbaarheid (Reusable) van data te verbeteren. Dit is ook de basis om geschikte data beschikbaar te krijgen voor het toepassen van AI en in het bijzonder machine learning algoritmes om voorspellingen te kunnen doen.

Vindbaar

De eerste stap in het (her)gebruiken van data is het vinden ervan. Metadata (c.q. definities) en gegevens moeten gemakkelijk te vinden zijn voor zowel mensen als computers.

Toegankelijk

Zodra de gebruiker de vereiste gegevens heeft gevonden, moet hij/zij weten hoe ze toegankelijk zijn, mogelijk inclusief authenticatie en autorisatie.

Interoperabel

De data moet meestal worden geïntegreerd met andere data. Bovendien moet de data samenwerken met toepassingen of workflows voor analyse, opslag en verwerking.

Herbruikbaar

Het uiteindelijke doel van FAIR is het optimaliseren van het hergebruik van data. Om dit te bereiken, moeten metagegevens en gegevens goed worden beschreven, zodat kunnen worden gerepliceerd en/of gecombineerd. De gegevenseigenaren moeten bekend zijn. En ook welk proces de gegevens registreert, actualiseert, controleert en verwijdert.

Is de data betrouwbaar?

Actueel

Hoe actueel is de beschikbare data, zegt de data nog steeds iets over het heden en kan het gebruikt worden om voorspellingen in de toekomst te kunnen doen.

Correct

Niet alleen moet de data actueel zijn ook moet ze de correcte gegevens bevatten om bruikbaar te kunnen zijn. Voorspellingen doen met incorrecte gegevens is niet wenselijk. Zie de website: https://www.tylervigen.com/spurious-correlations voor voorbeelden van verbanden die er waarschijnlijk helemaal niet zijn. Overigens bestaan er voorbeelden van data die een verband in zich lijken te hebben maar dat toch niet zo is, het blijft zaak om kritisch te blijven nadenken.

Compleet

Als de data compleet is betekent dat alle relevante gegevens beschikbaar zijn. Als er gegevens ontbreken dan bestaat er een kans dat onjuiste verbanden gelegd worden of dat de data onbruikbaar is om voorspellingen te kunnen doen.

Uniek

Staan gegevens niet dubbel in de data. Bijvoorbeeld klanten die bij meerdere vestigingen geregistreert staan dit kan dit ervoor zorgen dat er dubbelingen in de database staan.

Is de data bruikbaar?

Als op één van de bovenstaande vragen een negatief antwoord is gekomen, zal de eerste stap in een AI project het op orde brengen van de datahuishouding zijn. Dit is niet alleen van belang voor het AI project. Het biedt ook een beter uitgangspunt voor andere ICT projecten, de implementatie van een nieuw pakket zal eenvoudiger zijn als de datahuishouding op orde is.

Is de data wel op orde dan volgt de belangrijkste vraag: bevat de beschikbare data de informatie die nodig is om de gewenste voorspellingen en actionable insights te kunnen realiseren? Hiervoor moeten machine learning modellen gegenereerd en beoordeeld worden. Deze stap is een wereld op zich en valt buiten deze blog. Mocht blijken dat de data niet de benodigde informatie bevat moet er teruggegaan worden naar de tekentafel om te kijken welke mogelijkheden er wel zijn.

George Eliot
21 december 2021

Delen

Share on linkedin
Share on twitter