
Ein Ziel von Künstlicher Intelligenz (KI) ist es, Vorhersagen zu treffen und daraus verwertbare Erkenntnisse zu gewinnen. Zum Beispiel die Vorhersage der präventiven Wartung (Predictive Maintenance) von Maschinen durch die Anpassung von Wartungsplänen, die Identifizierung künftiger körperlicher Leistungsschwächen von Fußballspieler*innen, damit sie rechtzeitig ausgewechselt werden können oder die Vorhersage des Umsatzes auf der Grundlage der Nutzung verschiedener Arten von Werbung.
Um Vorhersagen treffen zu können, müssen die Daten auch die Möglichkeit bieten, solche zu tätigen. Erhebliche Risiken stellen die Qualität, die Informationsdichte und die Verfügbarkeit der Daten dar, denn keine Vorhersagen oder verwertbare Erkenntnisse ist ohne Daten möglich. Dass sich die Daten nicht immer für Vorhersagen eignen, liegt oft daran, dass die Daten ursprünglich zur Unterstützung operativer Prozesse und nicht für die KI erfasst wurden. Um festzustellen, ob die Daten für die gewünschten Vorhersagen und verwertbaren Erkenntnisse geeignet sind, besteht der erste Schritt eines KI-Projekts darin, die gewünschten Vorhersagen zu ermitteln, die Prioritäten dieser Vorhersagen festzulegen und die Daten zu analysieren.
Wir konzentrieren uns nun auf die Daten. Die wichtigsten Fragen im Zusammenhang mit den Daten sind: Sind die Daten verfügbar, sind die Daten zuverlässig und sind die Daten nutzbar?
Sind die Daten verfügbar?
Im Jahr 2016 wurden in der Zeitschrift Scientific Data die „FAIR Guiding Principles for scientific data management and stewardship“ (https://www.nature.com/articles/sdata201618) veröffentlicht. Ziel der Autor*innen war es, Leitlinien zur Verbesserung der Auffindbarkeit (Findable), Zugänglichkeit (Accessible), Interoperabilität (Interoperable) und Wiederverwendbarkeit (Reusable) von Daten zu erstellen. Dies ist auch die Grundlage für die Bereitstellung geeigneter Daten für die Anwendung von KI und insbesondere von Algorithmen des maschinellen Lernens zur Erstellung von Prognosen.
Auffindbarkeit
Der erste Schritt bei der (Wieder-)Verwendung von Daten besteht darin, sie zu finden. Metadaten (oder Definitionen) und Daten müssen sowohl für Menschen als auch für Computer leicht zu finden sein.
Zugänglichkeit
Sobald der*die Nutzende die gewünschten Daten gefunden hat, muss die Person wissen, wie sie auf diese zugreifen kann; möglicherweise einschließlich Authentifizierung und Autorisierung.
Kompabilität
Die Daten müssen in der Regel mit anderen Daten integriert werden. Darüber hinaus müssen die Daten mit Anwendungen oder Arbeitsabläufen zur Analyse, Speicherung und Verarbeitung interagieren.
Wiederverwendbarkeit
Das Ziel von FAIR ist es, die Wiederverwendung von Daten zu optimieren. Um dies zu erreichen, müssen Metadaten und Daten gut beschrieben sein, damit sie repliziert und/oder kombiniert werden können. Die Eigentümer*innen der Daten müssen bekannt sein. Und auch, welcher Prozess die Daten erfasst, aktualisiert, kontrolliert und löscht.
Aktualität
Wie aktuell sind die verfügbaren Daten, sagen sie noch etwas über die Gegenwart aus und können sie für Vorhersagen über die Zukunft genutzt werden?
Richtigkeit
Die Daten müssen nicht nur aktuell sein, sondern auch die richtigen Daten enthalten, damit sie verwendet werden können. Es ist nicht wünschenswert, Vorhersagen mit falschen Daten zu treffen. Auf der Website https://www.tylervigen.com/spurious-correlations finden Sie Beispiele für Verbindungen, die es wahrscheinlich gar nicht gibt. Im Übrigen gibt es Beispiele für Daten, die einen Zusammenhang zu enthalten scheinen, es aber nicht tun, so dass es wichtig ist, weiterhin kritisch zu denken.
Vollständigkeit
Wenn die Daten vollständig sind, bedeutet dies, dass alle relevanten Daten verfügbar sind. Wenn Daten fehlen, besteht die Gefahr, dass falsche Zusammenhänge hergestellt werden oder dass die Daten für Vorhersagen unbrauchbar sind.
Einzigartigkeit
Gibt es keine doppelten Daten? Wenn beispielsweise Kunden in mehreren Filialen registriert sind, kann dies zu Duplikaten in der Datenbank führen.
Sind die Daten verwertbar?
Wenn die Antwort auf eine der oben genannten Fragen negativ ausfällt, besteht der erste Schritt eines KI-Projekts darin, die Daten zu ordnen. Dies ist nicht nur für das KI-Projekt wichtig. Die Einführung eines neuen Pakets wird einfacher sein, wenn die Datenverwaltung in Ordnung ist.
Wenn die Daten in Ordnung sind, folgt die wichtigste Frage: Enthalten die verfügbaren Daten die Informationen, die erforderlich sind, um die gewünschten Vorhersagen und verwertbaren Erkenntnisse zu erzielen? Zu diesem Zweck müssen Modelle des maschinellen Lernens erstellt und bewertet werden. Dieser Schritt ist eine Welt für sich und fällt nicht in den Rahmen dieses Blogbeitrags. Wenn sich herausstellt, dass die Daten nicht die erforderlichen Informationen enthalten, müssen wir zurück zum Ausgangspunkt gehen und sehen, welche Möglichkeiten es gibt.
