Tools für maschinelles Lernen
So nutzt die Talend-Plattform ML, um die Datenintegration zu verbessern
Um mit Big Data-Anwendungen und Business Intelligence wettbewerbsfähig zu bleiben, brauchen Organisationen – egal in welcher Branche – Big Data-Pipelines, die massive Datenmengen in Echtzeit verarbeiten und analysieren können. ML-Lösungen, die mit Microsoft Azure und Apache Spark integriert sind, beschleunigen die Entwicklung und erleichtern die Wartung dieser Systeme, doch viele ML-Lösungen sind für sich selbst betrachtet extrem kompliziert.
Mit seinem umfassenden Ökosystem an benutzerfreundlichen Selfservice-Tools und -Technologien, die ML-Konzepte nahtlos in Big Data-Plattformen integrieren, hilft Talend Unternehmen dabei, die Komplexität beim maschinellen Lernen (ML) zu reduzieren. Dank niedrigerer Kompetenzbarrieren (Programmierer müssen keine komplexen Programmiersprachen wie R, Python oder Java beherrschen) können Organisationen schneller wertvolle Erkenntnisse aus ihren Daten erhalten und von geringeren Kosten profitieren.
Mit den benutzerfreundlichen ML-Standardkomponenten können sich Data Engineers auf Big Data und den Aufbau des verteilten Systems konzentrieren, statt sich mit der Entwicklung von Modellen vertraut machen zu müssen. Data Scientists können das tun, was sie am besten können, nämlich Modelle und Algorithmen erstellen. Auf diese Weise können Mitarbeiter je nach Bedarf unterschiedliche Aufgaben erledigen, was zu mehr Effizienz und einer kürzeren Entwicklungszeit führt.
Talend ML-Use Cases
Big Data-Technologien von Talend in Kombination mit Komponenten des maschinellen Lernens erlauben Unternehmen, Ergebnisse des ML-Prozesses schnell zu implementieren, um dringende Geschäftsprobleme zu lösen. Banken, Versicherungsgesellschaften, Airlines, Hotels und viele weitere Organisationen nutzen maschinelles Lernen. So gibt es nahezu für jede Branche und Geschäftsanforderung einen Use Case.
Mit fünf Millionen Kunden weltweit ist Paddy Power Betfair (PPB) der weltweit größte börsennotierte Sportwetten- und Glücksspielanbieter. Das Unternehmen nutzte Talend Real-Time Big Data, um 70 TB an Daten aus mehreren Quellen in eine integrierte Cloud-Plattform zu integrieren. Auf diese Weise konnte der Wettspezialist nicht nur die Entwicklungszeit halbieren, sondern auch die Datenagilität und Reaktionszeiten erheblich steigern.
Out-of-the-Box-Komponenten des maschinellen Lernens
Mit den Tools von Talend sind ML-Komponenten sofort einsatzbereit. Die gebrauchsfertige ML-Software erlaubt Datennutzern unabhängig von ihrem Kenntnisstand, mit Algorithmen zu arbeiten – ohne dass sie wissen müssen, wie ein Algorithmus funktioniert oder wie er konstruiert ist. Gleichzeitig können Experten diese Algorithmen je nach Bedarf anpassen.
In die Real-Time Big Data Platform sind ML-Komponenten integriert, sodass die Benutzer Analysen durchführen können, ohne Code manuell programmieren zu müssen. Die ML-Algorithmen von Talend sind entsprechend ihrer Funktionsweise in vier Bereiche unterteilt, von denen jeder verschiedene gebrauchsfertige ML-Komponenten enthält:
1. Klassifizierungsalgorithmen
Im Bereich des maschinellen Lernens versteht man unter Klassifizierung eine Data Mining-Technik, um Muster in großen Datensätzen zu erkennen. Dabei werden Trainingsdaten mit Observationen (Instanzen) verwendet, deren Kategoriezuordnung bekannt ist, um zu identifizieren, zu welchem Kategoriesatz (Teilpopulationen) eine Observation gehört.
Es gibt zwei Arten von Klassifizierungsalgorithmen:
- Binäre Klassifizierung – Hier gibt es zwei mögliche Ergebnisse.
- Multilabel-Klassifizierung – Hier gibt es mehrere mögliche Ergebnisse.
Use Cases für Klassifizierungsalgorithmen umfassen Spamerkennung, Bildkategorisierung und Textmining für Sentimentanalysen. Das Ziel ist die Vorhersage einer Klassen-Teilpopulation oder Kennzeichnung anhand eines bekannten Beispiels.
Zu den Talend ML-Klassifizierungskomponenten zählen tClassify, tClassifySVM, tDecisionTreeModel, tGradientBoostedTreeModel, tLogicRegressionModel, tNaiveBayesModel, tPredict, tRandomForestModel und tSVMModel.
2. Clusteringalgorithmen
Clusteranalyse (Clustering) ist eine vorrangige Aufgabe des explorativen Data Mining und eine Technik, die häufig bei statistischen Datenanalysen zum Einsatz kommt.
Bei K-Means Clustering zum Beispiel handelt es sich um eine unbeaufsichtigte Art des Lernens. Es ist einer der einfachsten unbeaufsichtigten Lernalgorithmen, der das Problem der Klassifizierung eines vorgegebenen Datensatzes über eine bestimmte Anzahl von Clustern löst. Zu den Use Cases für K-Means zählen Preissegmentierung, die Bestimmung der Kundenloyalität und Betrugserkennung.
Zu den Talend ML-Clusteringkomponenten zählen tKMeansModel, tPredict und tPredictCluster.
3. Empfehlungsalgorithmen
Bei diesen auch als Empfehlungssystem bekannten Algorithmen handelt es sich um eine Unterklasse der Informationsfilterung, um vorherzusagen, welche Bewertung oder Präferenz ein Benutzer einem Artikel geben würde.
Kollaboratives Filtern ist eine Art des Empfehlungsalgorithmus, der entweder Benutzer- oder Artikel-basiert sein kann. Das Ziel beider Ansätze ist es, eine automatische Vorhersage für Benutzer oder Artikel (Filter) auf der Grundlage von Präferenzen von vielen Benutzern oder Artikeln (Kollaboration) zu treffen.
Es gibt zwei Arten von Talend ML-Empfehlungskomponenten:
- tALSModel – Diese Komponente verarbeitet eine große Menge an Informationen von seinen vorangegangenen Spark-Komponenten über die Benutzer-Präferenzen für bestimmte Produkte. tALSModel führt Alternating Least Squares (ALS)-Berechnungen an diesen Datensätzen durch, um ein feinabgestimmtes Produktempfehlungsmodell (Parquet-Format) zu generieren und zu schreiben.
- tRecommend – Diese Komponente analysiert Daten von ihren vorangegangenen Spark-Komponenten mit einem Empfehlungsmodell, um die Benutzerpräferenzen einzuschätzen. Sie basiert auf dem vom tALSModel generierten Produktempfehlungsmodell und empfiehlt Benutzern dem Modell bekannte Produkte.
Algorithmen für Empfehlungssysteme können mit Deep Learning-Techniken kombiniert werden, um Vorhersagen anhand massiver Mengen an Big Data zu treffen, ähnlich wie bei der von Google entwickelten YouTube-Empfehlungsengine, die auf tiefgehende neuronale Netze basiert.
Zu den Talend ML-Empfehlungskomponenten zählen tALSModel und tRecommend.
4. Regressionsalgorithmen
Bei Regressionstests handelt es sich um ein statistisches Verfahren zur Einschätzung der Beziehung zwischen Variablen. Der Fokus liegt dabei auf der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen oder „Prädiktoren“.
Zur Erläuterung: Die tModelEncoder-Komponente erhält Daten von ihren vorangegangenen Komponenten und nutzt dann unterschiedliche Algorithmen zur Funktionsverarbeitung, um Spalten dieser Daten zu transformieren: Wort zu Vektor, Hashing, Bucketisierung, etc. Anschließend sendet sie das Ergebnis an die nachfolgende Modelltrainingskomponente – tLogisticRegressionModel oder tKMeansModel – um ein prädiktives Modell zu trainieren und zu erstellen.]
Zu den Talend ML-Regressionskomponenten zählen tModelEncoder, tLinearRegressionModel und tPredict.
Erste Schritte mit Talend Machine Learning
Talend Machine Learning nutzt Apache Spark auf Hadoop und Microsoft Azure, um die Skalierbarkeit und Performance zu verbessern. Mit Spark können Sie die Talend ML-Komponenten nutzen, um große Datensätze in Echtzeit zu verarbeiten und zu analysieren. Auf diese Weise können Sie innerhalb kürzester Zeit ein Modell aufbauen und sich anschließend auf Ihre Geschäftsergebnisse konzentrieren, statt auf den Entwicklungsprozess.