Blog

Zonder goede data geen AI

Een doel van AI is om actionable insights te destilleren vanuit voorspellingen. Bijvoorbeeld het doen van preventief onderhoud bij machines om vervolgens de onderhoudsschema’s aan te kunnen passen, of het herkennen van toekomstig fysiek onderpresteren van voetballers om zo deze tijdig te wisselen. Een ander voorbeeld is het voorspellen van omzet aan de hand van verschillende soorten reclame.

Voor het doen van voorspellingen is het noodzakelijk dat de data hier ook de mogelijkheid tot biedt. Belangrijke risico’s zijn de kwaliteit, de informatiedichtheid en de beschikbaarheid van de data. Wanneer één of meerdere van deze factoren niet goed zijn, kunnen er geen voorspellingen of actionable insights gerealiseerd worden. Dat de data niet altijd geschikt is voor het doen van voorspellingen is vaak het gevolg van dat dit in eerste instantie wordt vastgelegd voor het ondersteunen van de operationele processen en niet voor AI.

Om de bruikbaarheid van de data vast te stellen voor de gewenste voorspellingen en actionable insights, is een eerste stap in een AI-project het achterhalen van deze voorspellingen. Vervolgens is dit het vaststellen van de prioriteiten van deze voorspellingen en het analyseren van de data.

Wij focussen ons nu op de data. De hoofdvragen rondom de data zijn: is de data beschikbaar, is de data betrouwbaar en is de data bruikbaar?

Is de data beschikbaar?

In 2016 werden de ‘FAIR Guiding Principles for scientific datamanagement and stewardship’ (https://www.nature.com/articles/sdata201618) gepubliceerd in Scientific Data. De auteurs wilden richtlijnen geven om de vindbaarheid (Findable), toegangkelijkheid (Accessible), interoperabiliteit (Interoperable) en herbruikbaarheid (Reusable) van data te verbeteren. Dit is ook de basis om geschikte data beschikbaar te krijgen voor het toepassen van AI. Hierbij gaat het in het bijzonder om machine learning algoritmes om voorspellingen te kunnen doen.

Vindbaar

De eerste stap in het (her)gebruiken van data is het vinden ervan. Metadata en gegevens moeten gemakkelijk te vinden zijn voor zowel mensen als computers.

Toegankelijk

Zodra de gebruiker de vereiste gegevens heeft gevonden, moet hij/zij weten hoe ze toegankelijk zijn, mogelijk inclusief authenticatie en autorisatie.

Interoperabel

De data moeten meestal worden geïntegreerd met andere data. Bovendien moet de data samenwerken met toepassingen of workflows voor analyse, opslag en verwerking.

Herbruikbaar

Het uiteindelijke doel van FAIR is het optimaliseren van het hergebruik van data. Om dit te bereiken moeten (meta)gegevens goed worden beschreven zodat deze kunnen worden gerepliceerd en/of gecombineerd. De gegevenseigenaren moeten bekend zijn en ook welk proces de gegevens registreert, actualiseert, controleert en verwijdert.

Is de data betrouwbaar?

Actueel

Hoe actueel is de beschikbare data? Zegt de data nog steeds iets over het heden en kan het gebruikt worden om voorspellingen in de toekomst te kunnen doen?

Correct

Niet alleen moet de data actueel zijn ook moet ze de correcte gegevens bevatten om bruikbaar te kunnen zijn. Voorspellingen doen met incorrecte gegevens is niet wenselijk. Zie de website: https://www.tylervigen.com/spurious-correlations voor voorbeelden van

verbanden die er waarschijnlijk helemaal niet zijn. Overigens bestaan er voorbeelden van data die een verband in zich lijken te hebben maar wat toch niet zo is. Het blijft dus zaak om kritisch te blijven nadenken.

Compleet

Als de data compleet is betekent dat alle relevante gegevens beschikbaar zijn. Als er gegevens ontbreken dan bestaat er een kans dat onjuiste verbanden gelegd worden of dat de data onbruikbaar is om voorspellingen te kunnen doen.

Uniek

Staan gegevens niet dubbel in de data door bijvoorbeeld klanten die bij meerdere vestigingen geregistreerd staan. Dit kan ervoor zorgen dat er herhalingen in de database staan.

Is de data bruikbaar?

Als één van de bovenstaande vragen met nee wordt beantwoord, zal de eerste stap in een AI-project het op orde brengen van de datahuishouding zijn. Dit is niet alleen van belang voor het AI-project, het biedt ook een beter uitgangspunt voor andere ICT-projecten. De implementatie van een nieuw pakket zal eenvoudiger zijn wanneer de datahuishouding op orde is.

Wanneer de data wél op orde is, volgt de belangrijkste vraag: bevat de beschikbare data de informatie die nodig is om de gewenste voorspellingen en actionable insights te kunnen realiseren? Hiervoor moeten machine learning modellen gegenereerd en beoordeeld worden. Deze stap is een wereld op zich en valt buiten deze blog. Mocht blijken dat de data niet de benodigde informatie bevat, dan moet er teruggegaan worden naar de tekentafel om te kijken welke mogelijkheden er eventueel wel zijn.

Auteur: Talko Dijkhuis