[TOS tutorial 05] Daten mit der tMap-Komponente filtern
In diesem Tutorial wird die tMap-Komponente und ihre Schnittstelle vorgestellt und Sie lernen, wie man damit Spalten in einem Schema filtert.
Für diese Anleitung benötigen Sie Talend Open Studio for Data Integration Version 6.
1. Einen neuen Job erstellen, die „movies“-Metadaten als Inputquelle hinzufügen und eine tMap-Komponente hinzufügen
- Erstellen Sie einen neuen „Standard Job“ namens tMapFilter.
- Fügen Sie die movies-Metadatendatei als InputDelimited-Komponente hinzu.
- Fügen Sie eine tMap-Komponente hinzu, die die Schema- und Filterspalten bearbeiten kann.
- Verbinden Sie die beiden Komponenten, indem Sie einen Datenfluss von der „movies“-Komponente zur „tMap_1“-Komponente ziehen.
2. Die Komponente „tMap_1“ für das Filtern von Spalten konfigurieren
- Doppelklicken Sie auf die tMap_1-Komponente. Der tMap_1-Assistent ist in vier Sektionen unterteilt: - Links sehen Sie die eingehenden Datenflüsse. Die tMap-Komponente kann mehrere Inputs haben. - In der Mitte werden die Verbindungen zwischen den Input- und Outputdatenflüssen dargestellt. Hier können Sie auch Variablen erstellen, die Inputwerte verwenden und selbst wiederum verwendet werden, um Output zu generieren. - Rechts sehen Sie die Outputdatenflüsse. - Der untere Bereich enthält unter anderem den Schema-Editor, mit dem Sie das Schema eines Input- oder Outputflusses bearbeiten können. Zum Bearbeiten eines Schemas wählen Sie den Input-/Outputfluss aus, dessen Schema Sie ändern möchten (der ausgewählte Fluss wird gelb hervorgehoben). Anschließend bearbeiten Sie das Schema im Schema-Editor.
- Um eine neue Outputkomponente zu erstellen, klicken Sie im Outputbereich des „tMap_1“-Assistenten auf die [+]-Schaltfläche. Nennen Sie die Komponente filteredOutput und klicken Sie auf OK. Ein leerer Output wird erstellt.
- Jetzt fügen Sie Spalten hinzu. Klicken Sie im Schema-Editor für den Output auf das [+]-Symbol.
- Erstellen Sie eine Spalte für „movie ID“ (Spalte: movieID, Typ: Integer, Länge: 4). Hinweis: Die Outputspalte darf nicht den gleichen Namen haben wie die Inputspalte. Sie können den Spaltennamen ändern, indem Sie den Eintrag im Schema-Editor bearbeiten.
- Um die Daten aus der „movieID“-Spalte der Inputdatei in die Outputspalte zu übertragen, klicken Sie auf movieID und ziehen Sie die Spalte in die Expression-Spalte von „filteredOutput“. Ein gelber Pfeil zeigt den neu erstellten Datenfluss an.
- Ziehen Sie anschließend die Spalten „title“ und „releaseYear“ von der Input- in die Outputkomponente. Die Spalten in den beiden Komponenten werden verbunden.
- Mit den Symbolen [↑] und [↓] können Sie die Reihenfolge der Spalten in der Outputkomponente ändern. Die Spaltenreihenfolge und die zugehörigen Verbindungen werden entsprechend angepasst.
3. Die konfigurierte „tMap_1“-Komponente verwenden
- Um den von der „tMap_1“-Komponente generierten Output anzuzeigen, fügen Sie in Job Designer eine „tLogRow“-Komponente hinzu und verbinden den filteredOutput-Output der „tMap_1“-Komponente mit der tLogRow_1-Komponente.
- Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.
Wie Sie sehen, werden nur die gefilterten Filmdaten (movieID, releaseYear und title) angezeigt.
← PREVIOUS TUTORIAL | NEXT TUTORIAL →
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Erste Schritte mit Talend Open Studio for Data Integration
- [TOS tutorial 02] Eine Datei lesen
- [TOS tutorial 01] Erste Schritte in Talend Studio
- [TOS tutorial 03] Eine Datei sortieren
- [TOS tutorial 07] Joins in tMap konfigurieren
- [TOS tutorial 08] Konditionale Filter mithilfe der tMap-Komponente hinzufügen
- [TOS tutorial 09] Kontextvariablen verwenden
- [TOS tutorial 06] Zwei Datenquellen mit der tMap-Komponente verknüpfen
- [TOS tutorial 04] Metadaten erstellen und verwenden
- [TOS tutorial 13] Ausführen eines Jobs in Spark
- [TOS tutorial 12] Daten in HDFS schreiben und lesen
- [TOS tutorial 11] Erstellung von Metadaten für die Verknüpfung von Clustern aus Konfigurationsdateien
- [TOS tutorial 10] Erstellung von Metadaten für die Verknüpfung von Clustern
- [TOS tutorial 14] Running a Job on YARN