[TOS tutorial 03] Eine Datei sortieren
In diesem Tutorial werden Sie mit einer Verarbeitungskomponente arbeiten und lernen, wie man die Daten einer Datei sortiert.
Für diese Anleitung benötigen Sie Talend Open Studio Data Integration Version 6.
1. Einen neuen Job erstellen
- Wählen Sie die Ansicht Integration aus.
- Erstellen Sie einen neuen Job und nennen Sie ihn SortCSVFile.
Im Job Designer wird ein leerer Job geöffnet.
2. Eine „tFileInputDelimited“-Komponente hinzufügen und konfigurieren
- Fügen Sie dem Job eine „tFileInputDelimited“-Komponente hinzu.
- Sie konfigurieren die „tFileInputDelimited_1“-Komponente in der Component-Ansicht. Klicken Sie neben dem Feld FileName auf [...], wählen Sie die Datei auf der Festplatte aus, und klicken Sie auf Open.
- Jetzt muss noch die Dateistruktur festgelegt werden. Öffnen Sie den Schema-Assistenten für „tFileInputDelimited_1“ und klicken Sie neben dem Feld „Edit schema“ auf [...].
- Klicken Sie auf das [+]-Symbol, um die erste Spalte einzufügen, und geben Sie die Daten für die Spalte ein.
- Wiederholen Sie Schritt d für alle anderen Spalten in der CSV-Datei und schließen Sie den Schema-Assistenten
3. Die Daten im Job sortieren
- Fügen Sie eine „tSortRow“-Komponente ein und verbinden Sie die beiden Komponenten. Hinweis: Die verbundene „tSortRow“-Komponente übernimmt das Schema der „tFileInputDelimited_1“-Komponente, sodass Sie nichts weiter konfigurieren müssen.
- Um das Schema zu sehen, das vererbt wurde, klicken Sie in der Component-Ansicht der „tSortRow“-Komponente neben „Edit schema“ auf […].
- Um eine neue Sortierregel basierend auf dem Erscheinungsjahr eines Films zu erstellen, klicken Sie in der Spalte „Schema“ auf [+], dann auf releaseYear und geben Sie dann durch Auswahl von desc die Sortierreihenfolge an (absteigend).
- Damit Sie die Ergebnisse der Sortierregel sehen können, fügen Sie in Job Designer eine „tLogRow“-Komponente ein und verbinden dann die „tSortRow_1“- mit der „tLogRow_1“-Komponente.
- Klicken Sie in der Run-Ansicht des sortCSVFile-Jobs auf Run, um den Job auszuführen.
Die Filme in der Quelldatei werden jetzt nach Erscheinungsjahr des Films sortiert.
4. Eine zweite Sortierregel hinzufügen
- Im nächsten Schritt erstellen Sie eine zweite Sortierregel. Klicken Sie in der Component-Ansicht der „tSortRow_1“-Komponente auf (+) und wählen Sie in der Schema-Spalte „title“ aus. In der Sortierspalte wählen Sie alpha.
- Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.
Die Filme werden jetzt nach Erscheinungsjahr und innerhalb eines Jahres alphabetisch nach Filmtitel sortiert.
5. Das Ergebnis des Jobs in einer Datei speichern
- Fügen Sie eine „tfileOutputExcel“-Komponente in Job Designer ein und ziehen Sie eine Verbindung zu „tLogRow_1“.
- Zum Konfigurieren der Komponente geben Sie in der „Component“-Ansicht den Pfad und Namen der Outputdatei ein.
- Wählen Sie Include Header aus, um eine Header-Zeile in die Outputdatei zu übernehmen.
- Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.
- Prüfen Sie die resultierende „moviesSorted.xls“-Datei. Öffnen Sie den Ordner, in dem die Datei erstellt wurde. Die Datei enthält die sortierten Daten.
- Wenn Sie nicht möchten, dass die sortierten Daten in der Run-Ansicht angezeigt werden, klicken Sie mit der rechten Maustaste auf tLogRow_1 und wählen Sie Deactivate tLogRow aus.
- Klicken Sie in der Run-Ansicht auf Run, um den Job auszuführen.
Der Job wird erneut ausgeführt. Diesmal jedoch sind in der Run-Ansicht keine Daten zu sehen.
← PREVIOUS TUTORIAL | NEXT TUTORIAL →
Sind Sie bereit, mit Talend durchzustarten?
Weitere Artikel zu diesem Thema
- Erste Schritte mit Talend Open Studio for Data Integration
- [TOS tutorial 02] Eine Datei lesen
- [TOS tutorial 01] Erste Schritte in Talend Studio
- [TOS tutorial 07] Joins in tMap konfigurieren
- [TOS tutorial 08] Konditionale Filter mithilfe der tMap-Komponente hinzufügen
- [TOS tutorial 09] Kontextvariablen verwenden
- [TOS tutorial 06] Zwei Datenquellen mit der tMap-Komponente verknüpfen
- [TOS tutorial 05] Daten mit der tMap-Komponente filtern
- [TOS tutorial 04] Metadaten erstellen und verwenden
- [TOS tutorial 13] Ausführen eines Jobs in Spark
- [TOS tutorial 12] Daten in HDFS schreiben und lesen
- [TOS tutorial 11] Erstellung von Metadaten für die Verknüpfung von Clustern aus Konfigurationsdateien
- [TOS tutorial 10] Erstellung von Metadaten für die Verknüpfung von Clustern
- [TOS tutorial 14] Running a Job on YARN