Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

Das Spannungsfeld von Machine Learning über AI bis hin zur Automated AI

Artificial Intelligence ist eng mit maschinellem Lernen verbunden. Maschinelles Lernen stellt Algorithmusbibliotheken bereit, die im Rahmen von AI, Anwendung finden können. Dabei nutzt die AI zusätzlich Wissenskomponenten, um auf deren Basis Entscheidungsunterstützung geben zu können. Dieses Wissen wird durch Lernen im Zeitverlauf entsprechend weiterentwickelt.

Author Image
Carsten Felden

Geschäftsführer


  • 12.09.2024
  • Lesezeit: 23 Minuten
  • 94 Views

1. Der Prozess des Machine Learning

Der Prozess der Artificial Intelligence orientiert sich zunächst am Ablauf des Cross-Industry-Standard-Process-for-Data-Mining (CRISP-DM), der sich im Kontext des maschinellen Lernens etabliert hat [hierzu und zum Folgenden: Felden 2019].

Abb. 1: Prozessschritte analytischer Ansätze

Das fachliche Verständnis bestimmt die Auswahl der Daten, wobei oftmals Rückfragen beziehungsweise Nachbesserungen erforderlich sind, so dass fachliches Verständnis und Datenverständnis interdependent sind. Die vorliegenden Daten werden passend aufbereitet in ein Modell überführt. Die Modellbildung bringt es gegebenenfalls mit sich, dass die Aufbereitung erneut durchgeführt werden muss, da beispielsweise ein anderer Algorithmus genutzt wird als ursprünglich geplant. Die erzeugten Modelle sind zu evaluieren und ihre Ergebnisse zur Nutzung an die jeweiligen Anwender weiterzuleiten. Die Erkenntnisse aus der Nutzung der Modelle fließen als fachliches Verständnis in einen neuen Durchlauf ein.

Bereits seit Ende der 1990er-Jahre ist der KDD-Prozess (KDD = Knowledge Discovery in Databases) mit seinen Schritten Datenauswahl, Vorverarbeitung, Transformation, Data Mining und Ergebnisinterpretation theoretische Grundlage marktgängiger Software. Letztlich basieren auch Business Analytics und damit Artificial Intelligence auf diesen Vorgehensschritten und erweitern den KDD-Prozess um Quellenbewirtschaftung zu Beginn und fachliche Handlung im Sinne einer zu treffenden Entscheidung und deren Durchsetzung am Ende des Prozesses.

Automated AI ist die Weiterentwicklung von Automated ML [hierzu und zum Folgenden Nicholson 2022]. Sie wird als automatische Datenaufbereitung, Feature Engineering, Auswahl von Algorithmen für maschinelles Lernen und Hyperparameter-Optimierung beschrieben, um das bestmögliche Modell für maschinelles Lernen zu finden. Der in Automated AI verwendete Hyperparameter-Optimierungsalgorithmus unterscheidet sich von der Hyperparameter-Optimierung von Automated ML. Er wurde für Kostenfunktionsbewertungen wie Modelltraining und Scoring optimiert, die für maschinelles Lernen typisch sind, und ermöglicht eine schnelle Konvergenz zu einer guten Lösung trotz langer Auswertungszeiten pro Iteration.

Forscher von IBM Research haben ein Papier mit dem Titel: „Towards Automating the AI Operations Lifecycle“ veröffentlicht, in dem die Vorteile und verfügbaren Technologien für die Automatisierung eines größeren Prozesses beschrieben werden. Ziel ist es, die menschliche Beteiligung zu begrenzen, die zum Erstellen, Testen und Verwalten einer Anwendung für maschinelles Lernen erforderlich ist. Wie weit diese Automatisierung tatsächlich gehen wird, ist noch Gegenstand aktueller Diskussionen. Im Bereich der Human Computer Interaction (HCI) wird beispielsweise darauf verwiesen, dass die Empfehlungen maschineller Lernanwendungen unweigerlich von menschlichen Entscheidungsträgern übernommen werden, so dass es unmöglich ist, die menschliche Beteiligung am Prozess auszuschließen. Je größer der Black-Box-Ansatz ist, desto unwahrscheinlicher ist die vollständige Automatisierung, da der Mensch derzeit noch die Kontrolle behalten möchte. Um dieser Tatsache zu begegnen, ist ein transparenteres und interpretierbareres Automated-AI-Design der Schlüssel, dem menschliche Benutzer Vertrauen schenken. Ein solches Design stellt jedoch eine große Herausforderung dar.

2. Automatisierungspotenziale

Grundsätzlich wird im Rahmen des Prozesses viel Zeit darauf verwendet, eingesetzte Algorithmen zu optimieren [hierzu und zum Folgenden Nicholson 2022]. Solche Optimierungen können die Datenbereitstellung oder aber die Stellschrauben des jeweiligen Algorithmus selbst betreffen. Mit gewissem fachlichem Know-how und Erfahrung lassen sich Einzelheiten von Anfang an besser einstellen, aber es gibt für die jeweiligen Aktivitäten kein festes Regelwerk. Die Kombination aus Daten und angewendeten Algorithmen ist immer einzigartig, so dass immer Arbeit an den Daten und den Algorithmen notwendig ist, um letztlich effizient aus den Daten zu lernen, mit denen der Algorithmus das Training ausführt.

2.1 Hyperparameter-Optimierung

In der Data Science werden die Einstellungsmöglichkeiten eines Algorithmus als Hyperparameter bezeichnet [hierzu und zum Folgenden Nicholson 2022]. Der Vorgang der Suche nach der bestmöglichen Konstellation dieser Parameter wird Hyperparametersuche genannt. Dabei werden verschiedene Kombinationen von Hyperparametern getestet, um das bestmögliche Mischungsverhältnis aller Einstellungen zu erzielen.

Eine solche Hyperparametersuche lässt sich automatisieren. Eclipse Arbiter ist ein Beispiel für eine Hyperparameter-Optimierungsbibliothek, die entwickelt wurde, um das Hyperparameter-Tuning für das Training tiefer neuronaler Netze zu automatisieren. Es ist das Äquivalent zu Googles TensorFlow und Vizier oder der Open-Source-Python-Bibliothek Spearmint. Arbiter ist Teil des Deeplearning4j-Frameworks. Unabhängig von der konkreten Bibliothek lässt sich mit verschiedenen Arten von Suchalgorithmen nach der besten Kombination von Hyperparametern suchen. Zu nennen sind Gittersuche, Zufallssuche oder auch Bayes’sche Methoden.

2.2 Model Selection

Jede der oben thematisierten Parameteranpassungen erzeugt eine Vielzahl von Modellen (Summe der Algorithmen multipliziert mit der Summe der Parametervariationsrunden) [hierzu und zum Folgenden Nicholson 2022]. Analog zum genetischen Algorithmus lassen sich die jeweils besten Konstellationen pro Runde (auch visuell) bestimmen, auf denen weitergearbeitet werden kann. Da jedoch das Risiko besteht, dass der faktisch beste Algorithmus gar nicht erst mit in die Betrachtung einbezogen wurde oder aber nicht alle Parameterkonstellationen wirtschaftlich vertretbar zu testen sind, sind die erzielten Lösungen gegebenenfalls nicht die Bestmöglichen.

2.3 Feature Selection

Mit zunehmender Menge verfügbarer Daten gewinnt die Feature Selection stark an Bedeutung [hierzu und zum Folgenden: Huber 2021]. Ein Feature ist eine messbare Eigenschaft von Objekten in den Daten. Die Feature Selection ermöglicht es, aus einer Vielzahl von Features die wichtigsten für eine vorliegende Fragestellung auszuwählen und unnütze Features zu entfernen. Dadurch nimmt die Komplexität eines Modells bei gleichbleibender oder oft höherer Vorhersagequalität ab. Grundsätzlich wird dabei in Eingabefeature und Ausgabefeature unterschieden. Erst ein bestimmter Anwendungsfall legt Eingabe und Ausgabe fest. Eingabefeatures sind die Variablen, die als Modellinput dienen und die durch die Feature Selection zu reduzieren sind. Dies sind die sogenannten unabhängigen Variablen.

Während Feature Construction die Rohdaten mit der Intention, nützlichere Features zu erstellen, in neue umwandelt, wird die Feature-Anzahl meist sogar erhöht. Feature Selection hingegen reduziert die Feature-Anzahl, indem sie die nützlichsten aus einer vorgebebenen Feature-Menge auswählt. Unter anderem lassen sich logische und arithmetische Operationen zur Konstruktion von Features einsetzen, beispielsweise durch die Multiplikation von Länge und Breite zur Berechnung einer Grundstücksfläche. Beide Aufgaben erfolgen unabhängig voneinander. Häufig geht einer Feature Selection eine Feature Construction voraus.

Sowohl Feature Selection als auch Feature Extraction gehören zu den Methoden der Dimensionsreduktion. Sie unterscheiden sich jedoch darin, wie sie eine Reduktion der Feature-Anzahl erzielen. Ein Beispiel ist die Hauptkomponentenanalyse. Sie reduziert zwar auch die Feature-Anzahl, indem sie neue Kombinationen aus den originalen Features bildet, dies geschieht jedoch zu Lasten der Erklärbarkeit und ohne Berücksichtigung der Zielvariablen. Eine Feature Selection hingegen verringert die Feature-Anzahl durch Ausschluss einzelner Features. Die Feature Extraction reduziert die Dimension also durch Kombination, während die Selektion dasselbe durch Entfernung erreicht.

Mögliche Ansätze sind in diesem Kontext der Filter-Ansatz, der Wrapper-Ansatz oder der Embedded-Ansatz.

  • Filter-Ansatz: Der Korrelationskoeffizient dient häufig als statistisches Maß, um die wichtigsten Features auszuwählen und unwichtige zu entfernen. Die Korrelation lässt sich auf verschiedene Weisen berechnen. Häufig werden hierfür die Methoden nach Pearson eingesetzt. Die Pearson-Korrelation eignet sich zur Ermittlung des Zusammenhangs zwischen einem numerischen Feature und einer numerischen Zielvariablen. Sie geht von einem direkten, linearen Zusammenhang zwischen Eingabe und Ausgabe aus. Dafür wird die Korrelation zwischen dem Eingabefeature X und der Zielvariable Y berechnet. Ist die Korrelation hoch, lässt sich daraus schließen, dass die Variablen redundant sind, also dieselbe Information liefern. Für nichtlineare Korrelationen sind Methoden einsetzbar, die auf Rängen basieren. Für kategoriale Features und eine kategoriale Zielvariable ist der Pearson-Chi-Quadrat-Test ein weitverbreitetes statistisches Maß. Für die Auswahl der wichtigsten Features kommen diejenigen auf den ersten n Rängen in Betracht oder alle, die einen gewissen Schwellenwert überschreiten. Dieses Vorgehen zählt zu den absoluten Auswahlmethoden. Als relative Strategie ist ein bestimmtes oberes Perzentil nutzbar. Darüber hinaus können weitere statistische Tests eingesetzt werden, die eine bestimmte Hypothese prüfen. Dazu gehört der Hypothesentest der Signifikanz des Korrelationskoeffizienten. Hierbei wird getestet, ob sich ein Korrelationskoeffizient signifikant von Null unterscheidet. Nur dann ist ein wahrnehmbarer Zusammenhang zwischen Feature und Zielvariable gegeben. Bei diesem Vorgehen werden alle Features ausgewählt, die diesen Test bestehen.
  • Wrapper-Ansatz: Im Gegensatz zum Filter-Ansatz, für den ein statistisches Maß die Evaluierungsfunktion darstellt, werden im Wrapper-Ansatz ein Lernalgorithmus und dessen Vorhersagegüte verwendet, um eine ausgewählte Feature-Teilmenge zu bewerten. Wie beim Filter-Ansatz sind auch für den Wrapper-Ansatz zwei Schritte notwendig. Auch hier wird eine Evaluierungsfunktion eingesetzt, nämlich die ermittelte Vorhersagegüte. Ergänzend hilft eine zweite Komponente bei der Entscheidungsfindung, in diesem Fall für die Erstellung und Auswahl weiterer Feature-Teilmengen. Die Feature Selection im Sinne des Wrapper-Ansatzes ist als Suchproblem zu verstehen, bei dem ein Lernalgorithmus die Suche leitet. Zuerst werden verschiedene Feature-Teilmengen erzeugt und anhand der Vorhersagegüte bewertet sowie verglichen. Im Anschluss erfolgt ein externes, iteratives Suchverfahren, das angibt, in welche Richtung die Suche fortzusetzen ist. Dafür stehen verschiedene Suchalgorithmen zur Verfügung. Eine weitverbreitete Wrapper-Methode ist die rekursive Feature-Eliminierung. Das Grundprinzip besteht darin, mit jeder Iteration kleiner werdende Feature-Teilmengen zu wählen. Initial wird ein Lernalgorithmus auf der vollständigen Feature-Menge trainiert. Dabei gilt es eine Methode einzusetzen, die für jedes Feature einen Koeffizienten und den daraus resultierenden Wichtigkeitsrang liefert. Zu dieser Gruppe von Lernalgorithmen gehören unter anderem logistische Regressionen, lineare Support Vector Machines und Random Forests.
  • Beide zuvor vorgestellten Methoden benötigen irgendeine Form von externer Komponente, die wichtige Features identifiziert. Dies ist für Methoden nach dem Embedded-Ansatz nicht notwendig, da bei diesen eine Feature Selection aus eigenem Antrieb erfolgt. Sie erlernen geeignete Features während der Modellerzeugung selbst. Dabei wird betrachtet, welche am besten zur Modellgenauigkeit beitragen. Die Feature Selection erfolgt immer innerhalb des Trainings eines Lernalgorithmus. Zum Embedded-Ansatz gehören Methoden, die dem Prinzip der Regularisierung folgen. Anhand einer Regularisierung werden die Koeffizienten irrelevanter Features zu einem Wert von Null geschrumpft. In diesem Zusammenhang ist der Koeffizient ein Vorfaktor in einem Modell, mit dem der Wert eines Features gewichtet wird. Zu diesen Methoden der Regularisierung gehören zum Beispiel Lasso- und Ridge-Regression sowie das Elastic Net. Des Weiteren zählen Methoden mit einer Baumstruktur wie der Entscheidungsbaum zu den Methoden des Embedded-Ansatzes. Ein Baum hat einen Wurzelknoten und verzweigt sich bis hin zu seinen Blattknoten. Die Pfade jeder Verzweigung, sogenannte Splits, stehen für je eine Ausprägung des anliegenden Features. Den Blattknoten ist eine Klasse der Zielvariablen zugeordnet. Anhand dieser Baumstruktur werden neue Objekte eingeordnet, basierend auf der Klasse im entsprechenden Blattknoten werden Vorhersagen getroffen. Diese Methoden nehmen von Natur aus eine Feature Selection vor, indem sie an jedem Split das nützlichste Feature auswählen.

Die Feature Selection ist ein Kernstück im Data-Science-Prozess und damit nicht weniger entscheidend als die Modellwahl. Die Feature Selection wählt die für ein vorliegendes Problem nützlichsten Features aus und entfernt dabei unwichtige, die keinen Mehrwert für ein Vorhersagemodell versprechen. Die zu Grunde liegende Philosophie lautet schlicht: Weniger ist mehr. Dadurch erleichtert die Feature Selection es einem Data-Science-Modell, den Anforderungen gerecht zu werden, die sich aus den Faktoren Genauigkeit, Sparsamkeit, Interpretierbarkeit, Generalisierbarkeit und Kosteneffizienz ergeben. Durch die Anwendung von Feature Selection lassen sich bessere Modelle erstellen und die Herausforderung der heutzutage stetig wachsenden Datenmengen meistern.

2.4 Komplexität als Limitierung

Analysten können im Sinne einer Automatisierung die von ihnen ausgewählten Algorithmen nur dann im Voraus intelligent gestalten, wenn sie Kenntnisse über das zu lösende Problem und die Daten haben, die zum Trainieren des Algorithmus verwendet werden [hierzu und zum Folgenden Nicholson 2022]. Da diese Voraussetzungen jedoch in der Realität in der Regel nicht erfüllt sind, sind langwierige Datenexplorationen und domänenspezifische Kenntnisse erforderlich, um sowohl die richtigen Algorithmen als auch deren richtige Einstellungen auszuwählen.

In der Welt des automatisierten maschinellen Lernens wird davon ausgegangen, dass Datenexploration und Domänenwissen untergeordnete Rollen spielen. Dieser seltene Fall wird als Happy Path bezeichnet und findet sich beispielsweise in Softwarelösungen, die sich auf die Auswertung eigener Daten konzentrieren. Zum Beispiel lässt sich maschinelles Lernen für einen einfachen Anwendungsfall automatisieren, wie das Bewerten der Leads in Salesforce, um die Wahrscheinlichkeit vorherzusagen, dass es zum Verkaufsabschluss kommt. Grund dafür ist, dass das Schema der Daten, also dessen, was man über die Kunden weiß, sich auf die Daten der Salesforce-Software beschränkt und von allen Vertriebsteams standardisiert gepflegt wird. Eine automatisierte maschinelle Lernlösung, die sich auf Lead-Scoring konzentriert, kann belastbare Annahmen über die Art der zu verwendenden Daten treffen.

Die Welt ist jedoch komplex, und es ist immer sinnvoller, mehr Daten und damit Perspektiven auf Entscheidungssituationen zusammenzubringen. Darüber hinaus existiert in Unternehmen eine Vielzahl von Anwendungsfällen, die sich in ihrem Charakter und den zu verwendenden Daten unterscheiden. In diesen Fällen kann es schwierig sein, vordefinierte Lösungen anzubieten. Deswegen zeigt sich auch hier, dass schon die Datenpipelines, auch bekannt als ETL, die meiste manuelle Aufmerksamkeit erfordern. Die reale Welt ist nicht geordnet, weshalb die Daten, die diese Welt repräsentieren, normalerweise auch nicht geordnet sind. Die meisten Datensätze müssen untersucht, bereinigt und anderweitig vorverarbeitet werden, bevor sie erfolgreich zum Trainieren maschineller Lernalgorithmen verwendbar sind. Diese Reinigung und Erkundung erfordert Erfahrung, die nur schwer in Algorithmen zu gießen ist.

3. Artificial Intelligence und Cognitive Computing

Automated AI wird in manchen Diskussionen mit vollständig selbstlernenden Systemen gleichgesetzt und bisweilen sogar zur Kopie menschlichen Verhaltens erklärt. Das ist jedoch nicht das Ziel von Automated AI, sondern es geht um die Übernahme einiger Aufgaben im Rahmen des Prozesses.

Artificial Intelligence beschreibt also Informatikanwendungen, deren Ziel es ist, intelligentes Verhalten zu zeigen. Dazu sind bestimmte Kernfähigkeiten in unterschiedlichen Anteilen notwendig: Wahrnehmen, Verstehen, Handeln und Lernen. Diese vier Fähigkeiten stellen die größtmögliche Vereinfachung eines Modells für moderne Artificial Intelligence dar: Wahrnehmen – Verstehen – Handeln entsprechen in etwa dem Grundprinzip aller EDV-Systeme: Eingabe – Verarbeitung – Ausgabe. Neu sind Lernen und Verstehen. Heutigen Artificial-Intelligence-Systemen ist gemein, dass sie in der Verarbeitungskomponente trainiert werden, damit lernen können und so bessere Ergebnisse erzielen als mit herkömmlichen Verfahren, die auf klar definierten und fest programmierten Regelwerken basieren.

Heute spricht man von schwacher Artificial Intelligence, die dazu dient, Menschen intelligent beim Erreichen ihrer Ziele zu unterstützen, also um smarte Mensch-Maschine-Interaktion und Zusammenarbeit zwischen Menschen und Maschinen. Starke Artificial Intelligence ist eher philosophisch relevant. Ihr Zweck ist eine Imitation des Menschen. Die vier Entwicklungsphasen der Artificial-Intelligence-Forschung spiegeln sich auch im Einsatz von Artificial Intelligence in industriellen und privaten Anwendungsfeldern wider. Letztlich ist der Zweck von Artificial-Intelligence-Systemen die intelligente Unterstützung des Menschen bei der Zielerreichung und die deutliche Verminderung von menschenunwürdiger oder unangenehmer Arbeit, ohne den Menschen überflüssig zu machen. [generell hierzu und im Folgenden: Cavanillas et al. 2016]

Abb. 2: Entwicklungsphasen von Artificial Intelligence [entnommen und modifiziert aus Cavanillas et al. 2016]

In den Entwicklungsphasen 1 und 2 von Artificial Intelligence (siehe Abbildung 2) wurde viel Wissen manuell in die Maschine einprogrammiert. Als Beispiel hierfür dient der Taschenrechner. Dieser zeigt zwar intelligentes Verhalten, indem er rechnet, aber seine Funktionsweise ist nicht intelligent. Mit den Ansätzen der zweiten Phase besaß man zwar große Kontrolle über das Verhalten der Maschinen, aber deren Handlungsumfang war begrenzt. Beispielhaft seien hier Empfehlungssysteme aus dem Buchhandel genannt, die auf früheren Einkäufen basieren.

In der dritten Phase von AI kam über das maschinelle Lernen aus Massendaten der Durchbruch. Um beim Beispiel Buchhandel zu bleiben, ist es heute so, dass Kunden und Waren automatisch in Gruppen (Cluster) sortiert werden und das System die Empfehlungen selbst lernt und ständig verbessert. Ein Nachteil dieses Ansatzes des vollautomatischen maschinellen Lernens wurde bereits angedeutet: Es ist nur schwer nachvollziehbar, warum ein System einen bestimmten Vorschlag macht, und noch schwieriger ist es, diesen zu korrigieren bzw. zukünftig zu unterbinden.

In der vierten Phase von AI-Systemen wurde versucht, Lernverfahren mit Expertenwissen zu verbinden, um das Beste aus beiden Welten zu nutzen: Kontrolle und explizites Wissen mit der Kraft von Lernalgorithmen, die auch bei unsicherer Faktenlage ähnlich gut handeln können wie ein Mensch. In der Geschichte der AI-Forschung und -Entwicklung gab es immer wieder disruptive Ereignisse. In letzter Zeit wurden IBM Watson, Alpha Go und die autonomen Fahrzeuge von Google durch die Medien bekannt.

Abb. 3: Komponenten einer Artificial Intelligence [Purdy/Daugherty 2016]

Betrachtet man die vier Kernkomponenten einer AI (Wahrnehmen, Verstehen, Handeln und Lernen – Sense, Comprehend, Act, Learn; vgl. Abbildung 3) im Detail, so wird deutlich, welch enormes Potenzial in AI-Anwendungen liegt. Der Grund dafür ist die Vielfalt der verarbeiteten Datenarten und Datenmengen (1 – Sense), die kaum noch Limitationen unterliegen. Die verarbeitende Komponente (2 – Comprehend) wird um Artificial-Intelligence-Methoden erweitert, meist Sprachverstehen und Deep bzw. Machine Learning. Das heißt, dass Expertensoftware um eine trainierbare, lernende Komponente erweitert wird, aber auch, dass weiterhin eindeutige Systemsteuerung zum Einsatz kommt, wenn Fallentscheidungen eindeutig definiert werden können. Wenn zum Beispiel ein Dokument als vollständiges Formular erkannt wird, dann wird der entsprechende Weiterverarbeitungsprozess angestoßen. Anders ist es bei einer unstrukturierten Kunden-E-Mail, bei der eine AI erst verstehen muss, was der Kunde will – was trainierte Systeme mittlerweile leisten können.

Die Ausgabekomponente (3 – Act) beinhaltet ihrerseits alle Steuerungsmöglichkeiten moderner IT-Systeme. In den Medien erscheinen immer wieder beachtenswerte Ergebnisse der Artificial-Intelligence-Forschung, etwa Systeme, die Bilder malen wie van Gogh oder Musikstücke komponieren wie Bach, und Lastenroboter, die auf vier Beinen wie ein Tier durch unwegsames Gelände laufen. In der Praxis sind aber eher Dinge wie intelligente Prozess- oder Gerätesteuerung relevant.

Das Besondere an aktuellen Artificial-Intelligence-Systemen ist, dass sie während der Trainingsphase (4), aber auch im laufenden Betrieb aus ihren Fehlern beziehungsweise anhand eines Feedbacks lernen können.

Cognitive Computing stellt einen weit gefassten Begriff dar, der die Simulation menschlicher Denkprozesse in einem computerisierten Modell mit maschinell selbstlernenden Systemen beschreibt, die Data Mining, Mustererkennung und Verarbeitung natürlicher Sprache nutzen. Ziel ist die Schaffung automatisierter IT-Systeme, die ohne menschlichen Eingriff Probleme lösen. Solche Systeme erwerben kontinuierlich Wissen aus Daten, die ihnen durch Data Mining zugeführt werden. Cognitive Computing wird in Artificial Intelligence, in Expertensystemen, im Natural Language Processing (NLP), in neuronalen Netzen, in der Robotik und in Virtual Reality eingesetzt. [Kelly/Hamm 2013]

Der Zweck des Einsatzes von AI in kognitiven Systemen besteht darin, die menschliche Intelligenz zu verbessern. Technologien, Produkte, Dienstleistungen und Richtlinien werden immer stärker darauf ausgelegt sein, die Fähigkeiten, das Fachwissen und das Potenzial der Menschen zu erweitern. Kognitive Systeme werden jedoch kein eigenes Bewusstsein oder unabhängige Handlungsfähigkeit erlangen. Vielmehr werden sie zunehmend in die Prozesse, Systeme, Produkte und Dienstleistungen eingebettet sein, welche die Menschen im täglichen Leben begleiten –unter der Maßgabe, dass die Ausführung letztlich unter menschlicher Kontrolle bleibt. Damit kognitive Systeme ihr Potenzial ausschöpfen können, ist es wichtig, dass die Anwender den generierten Empfehlungen, Urteilen und Anwendungen vertrauen. Dies wird durch die Einhaltung folgender Prinzipien unterstützt:

  • Es sollte klar sein, wann und zu welchen Zwecken AI in kognitiven Lösungen eingesetzt wird.
  • Informationen über die genutzten Datenquellen und eingesetzten Fachkenntnisse sollten erhältlich sein.
  • Es sollte beachtet werden, dass Unternehmen ihr Geschäftsmodell als Basis setzen, welches nicht veröffentlicht werden darf; darüber hinaus ist geistiges Eigentum generell zu schützen.
  • Erzeugte Daten und Erkenntnisse müssen geschützt werden.
  • Unter Beachtung der Freiheit der Informationsbeschaffung sollten eingesetzte Daten frei von Diskriminierung aufgrund von ethnischer Herkunft, religiöser Zugehörigkeit, Geschlecht, sexueller Orientierung oder politischen Überzeugungen sein.
  • Wenn Daten oder Erkenntnisse aus diesem Prozess bereitgestellt werden, so sollte freier Zugang zu Informationen, Chancengleichheit beim Zugang, Schutz vor Falschmeldungen und Manipulation, Verfassungs- und Gesetzeskonformität gelten.

4. Automated AI und ihre organisatorische Einbindung

Im August 2017 begann die Erforschung des Einsatzes automatisierter Feature-Engineering-Ansätze, um damit den Musterkennungsprozess transparenter und nachvollziehbarer zu machen [hierzu und zum Folgenden Wikipedia 2022].

Initial wurde eine Methode unter der Bezeichnung Learning-based Feature Engineering vorgestellt, welche die Korrelationen zwischen Feature-Verteilungen, Zielverteilungen und Transformationen ermittelte. Zu diesem Zwecke erfolgte die Erstellung von sogenannten Metamodellen basierend auf vergangenen Beobachtungen, um nützliche Transformationen vorherzusagen. Dies wurde im weiteren Verlauf auf Deep-Learning-Bibliotheken wie Caffe, Torch und TensorFlow bis hin zur Synthese neuronaler Netzmodelle im Rahmen der automatisierten Entwicklung und Bereitstellung von AI-Modellen erweitert. Liu et al. schlugen 2019 einen Ansatz für eine Methode von Automated ML vor, welche die alternierende Richtungsmethode der Multiplikatoren (ADMM) verwendet, um mehrere Phasen einer ML-Pipeline zu konfigurieren, zum Beispiel Transformationen, Feature Engineering und -Auswahl sowie Vorhersagemodellierung. Im Kern gestaltet sich der Prozessablauf dann wie folgt (vgl. Abbildung 4):

Abb. 4: Automated-AI-Prozess 1

Der Benutzer initiiert den Prozess, indem er einen Satz von Trainingsdaten bereitstellt und die Vorhersagespalte identifiziert, die das zu lösende Problem einrichtet. Beispielsweise kann die Vorhersagespalte mögliche Werte von ja oder nein als Reaktion auf einen angebotenen Anreiz enthalten. In der Datenvorverarbeitung wendet Automated AI zahlreiche Algorithmen oder Schätzer an, um zu analysieren, zu bereinigen (beispielsweise redundante Informationen zu entfernen oder fehlende Daten zu imputieren) und strukturierte Rohdaten für maschinelles Lernen (ML) vorzubereiten.

Im nächsten Schritt erfolgt die automatisierte Modellauswahl, welche die Daten mit einem Modelltyp abgleicht, zum Beispiel Klassifizierung oder Regression. Wenn beispielsweise nur zwei Arten von Daten in einer Vorhersagespalte vorhanden sind, bereitet Automated AI die Erstellung eines binären Klassifizierungsmodells vor. Wenn es einen nicht erkennbaren Satz möglicher Antworten gibt, erstellt Automated AI ein Regressionsmodell, das einen anderen Satz von Algorithmen oder Problemlösungstransformationen verwendet. Automated AI rangiert nach dem Testen von Kandidatenalgorithmen gegen kleine Teilmengen der Informationen und erhöht die Größe der Teilmengen schrittweise für die Algorithmen, die sich am vielversprechendsten erweisen, um die beste Übereinstimmung zu erreichen. Dieser Prozess des iterativen und inkrementellen maschinellen Lernens unterscheidet Automated AI von früheren Versionen von Automated ML.

Feature Engineering wandelt die Rohdaten in eine Kombination um, die das Problem darstellt, um möglichst die genauste Vorhersage zu erhalten. Ein Teil dieses Prozesses besteht darin, zu bewerten, wie Daten der Trainingsdatenquelle am besten eine genaue Vorhersage unterstützen können. Mithilfe von Algorithmen werden einige Daten als höher als andere gewichtet, um das gewünschte Ergebnis zu erzielen. Automated AI automatisiert die Berücksichtigung zahlreicher Feature-Konstruktionsoptionen auf nicht erschöpfende, strukturierte Weise und maximiert gleichzeitig schrittweise mithilfe von Reinforcement Learning die Genauigkeit des Modells. Dies resultiert aus einer optimierten Abfolge von Informations- und Datentransformationen, die den besten Algorithmen des Schritts der Modellauswahl entspricht.

Schließlich wendet Automated AI eine Hyperparameter-Optimierung an, um die leistungsfähigsten Modellpipelines zu verfeinern und weiterzuentwickeln. Diese Pipelines sind Modellkandidaten, die nach Metriken wie Genauigkeit und Präzision bewertet und eingestuft werden. Am Ende des Prozesses kann der Benutzer die Pipelines überprüfen und die in Produktion zu bringende(n) Pipeline(s) auswählen, um Vorhersagen für neue Daten zu liefern.

Im Kontext einer Zeitreihenanalyse finden beim Aufbau von Pipelines für verschiedene Modellierungsansätze drei Komponenten Beachtung [hierzu und zum Folgenden o. V. 2022].

Abb. 5: Automated-AI-Prozess 2 [modifiziert nach o. V. 2022]

Die erste ist die Generierung sogenannter Lookback-Fenster. Viele Zeitreihenprognosetechniken basieren darauf, ein Segment der historischen Daten – das sogenannte Lookback-Fenster – zu extrahieren und es oder seine abgeleiteten Merkmale als Eingaben für ein Modell zu verwenden. Dieser Ansatz lässt sich mittels Signalverarbeitungstechniken realisieren, um ein geeignetes Lookback-Fenster zu schätzen.

Die nächste Komponente ist die Pipeline-Generierung, bei der das System Kandidatenpipelines produziert, um ein Modellierungsproblem zu lösen. Eine Pipeline besteht aus einer Reihe von Schritten, die den Prozess der Transformation von Daten und der Erstellung eines AI-Modells definieren. Die Nutzung vorgefertigter Kandidatenpipelines, die an Datenmerkmale angepasst sind, kann an dieser Stelle unterstützen. Im AI-Ansatz Automated Time Series von IBM enthalten die Pipelines Transformatoren für unäre Transformation, Abflachung und Normalisierung der Daten. Zu den Modellen gehören unter anderen Holt-Winters Seasonal Additive and Multiplicative, ARIMA, BATS, Random Forest Regression, Support Vector Regression, Linear Regression, Trend to Residual Regressor und Ensemble Methods.

Die dritte und abschließende Komponente ist die Pipeline-Auswahl und damit die Verwendung einer umgekehrten progressiven Datenzuweisungstechnik, um effizient zu trainieren und nur die vielversprechendsten Pipelines auszuwählen. Pipelines werden kontinuierlich basierend auf der erwarteten Leistung eingestuft, wodurch die Gesamttrainingszeit minimiert wird.

Nach Abschluss der Modellierung kann das System auch Backtest-Ergebnisse für ein ausgewähltes Modell generieren. Benutzer können flexibel mehrere Backtest-Zeiträume konfigurieren, um Einblick in das zeitliche Verhalten der Modellleistung zu erhalten.

Die Verwaltung eines Automated-AI-Modells erfordert regelmäßige prozessorientierte Überwachung und Aktualisierung, die als ModelOps bezeichnet wird. ModelOps wird zum Herzstück einer Automated-AI-Umgebung, um Orchestrierung und Qualitätssicherung wirtschaftlich und sinnhaft auszuführen. Die Automated AI hat nun also den Zweck, den Prozess zur Anwendung des maschinellen Lernens gemeinsam mit Aufbau und Nutzung einer Wissensbasis im Sinne der Artificial Intelligence zu automatisieren. ModelOps ist ein Baustein, der diesen Prozess hilfreich begleitet.

Die oftmals proklamierte Automatisierung bringt in der Regel weitere Aufwände mit sich. Das geht schon mit der Datenauswahl und -aufbereitung los, da Automatisierung die Fähigkeit voraussetzt, Input von Sensoren zu nutzen, um Aspekte der Welt zu erfassen und um aus gelösten Problemen und anderen Daten zu lernen. So können neu- beziehungsweise andersartige Probleme erkannt und gelöst werden und die Wissensbasis als Konsequenz der vorherigen Aktivitäten erweitert werden. Nach solchen DataOps kommt MLOps ins Spiel, und zwar zum Aufbau von später nutzbaren Modellen, die wiederum in ModelOps operativen Einsatz finden.

Quellen

Cavanillas, J. M.; Curry, E.; Wahlster, W. (Eds.): New Horizons for a Data-Driven Economy. A Roadmap for Usage and Exploitation of Big Data in Europe. Springer 2016.

Felden, C.: Artificial Intelligence, TDWI E-Book. SIGS DATACOM GmbH 2019.

Huber, B.: Feature Selection. In: Haneke, U.; Trahasch, S.; Zimmer, M.; Felden, C.: Data Science: Grundlagen, Architekturen und Anwendungen. 2. Auflage 2021, S. 101-118.

Nicholson, C.: A Beginner's Guide to Automated Machine Learning & AI. https://wiki.pathmind.com/automl-automated-machine-learning-ai. Letzter Abruf: 12.09.2024.

o. V.: Automated AI. https://research.ibm.com/topics/automated-ai. Letzter Abruf: 12.09.2024 .

Purdy, M.; Daugherty, P.: Why Artificial Intelligence is the Future of Growth. https://www.accenture.com/lv-en. Letzter Abruf: 12.09.2024.

Bildquelle Aufmacher: https://www.canva.com/

. . .

Author Image

Carsten Felden

Geschäftsführer
Zu Inhalten

Prof. Dr. Carsten Felden ist Vorstandsvorsitzender des TDWI e.V. In Forschung und Lehre vertritt er als Direktor des Instituts für Wirtschaftsinformatik an der Technischen Universität Bergakademie Freiberg Themen wie Business Analytics, Data Warehousing, XBRL und BI-Reifegradmodelle im Kontext von Digitalisierungsansätzen in Unternehmen.


Artikel teilen