[TOS tutorial 05] Procedura in tre passaggi per filtrare i dati utilizzando il componente tMap
Questo tutorial presenta il componente tMap e la sua interfaccia e spiega come utilizzarlo per filtrare le colonne di uno schema.
In questo tutorial viene impiegato Talend Open Studio Data Integration versione 6.
1. Creazione di un nuovo job, aggiunta dei metadati dei film come sorgente di input e aggiunta di un componente tMap
- Crea un nuovo job standard denominato tMapFilter.
- Aggiungi il file dei metadati "movies" come componente delimitato da input.
- Aggiungi un componente tMap in grado di modificare lo schema e filtrare le colonne.
- Crea un flusso di dati dal componente "movies" al componente tMap_1 collegando i due componenti.
2. Configurazione del componente tMap_1 per il filtraggio delle colonne
- Fai doppio clic sul componente tMap_1. La finestra della procedura guidata tMap_1 presenta quattro sezioni principali: - Nella sezione di sinistra sono visualizzati i flussi di dati in ingresso. Tieni presente che il componente tMap può avere più sorgenti di input. - Nella sezione centrale sono visualizzati i collegamenti di mappatura tra i flussi di dati di input e di output. In questa sezione, puoi anche creare variabili che impiegano valori di input e vengono successivamente utilizzate per produrre output. - Nella sezione di destra sono visualizzati i flussi di dati in uscita. - La sezione inferiore contiene l'editor dello schema, da utilizzare per modificare lo schema di un flusso di input o di output. Per modificare uno schema, seleziona il flusso di input/output di cui vuoi modificare lo schema (il flusso selezionato viene visualizzato in giallo), quindi modifica lo schema nell'editor.
- Per creare un nuovo componente di output, nella sezione output della procedura guidata tMap_1, fai clic sul pulsante [+], digita il nome filteredOutput, quindi fai clic su OK. Viene creato un output vuoto.
- Per aggiungere colonne all'output, fai clic sull'icona [+] nell'editor dello schema dell'output.
- Definisci una colonna per l'ID film (Column (Colonna): movieID, Type (Tipo): Integer (Intero) e Length (Lunghezza): 4). Nota: i nomi delle colonne di output devono essere diversi da quelli delle colonne di input. Per modificare il nome della colonna, cambia la voce nell'editor dello schema.
- Per inviare i dati dalla colonna movieID del file di input alla colonna di output, fai clic su movieID, tieni premuto e trascina la selezione sulla colonna Expression (Espressione) di filteredOutput. Viene visualizzata una freccia gialla a indicare il flusso di dati.
- Per aggiungere le colonne del titolo e dell'anno di uscita al componente di output e collegarle, seleziona e trascina le colonne dal componente di input a quello di output.
- Per modificare l'ordine delle colonne nel componente di output, fai clic sull'icona [↑] o [↓]. L'ordine delle colonne e dei relativi collegamenti viene aggiornato.
3. Uso del componente tMap_1 configurato
- Per visualizzare l'output elaborato dal componente tMap_1, aggiungi un componente tLogRow in Job Designer (Progettazione job) e collega l'output filteredOutput del componente tMap_1 al componente tLogRow_1.
- Per eseguire il job, fai clic su Run (Esegui) nella vista Run (Esegui).
Verranno visualizzati solo i dati dei film filtrati (ID film, anno di uscita e titolo).
← TUTORIAL PRECEDENTE | TUTORIAL SUCCESSIVO →
Sei pronto a iniziare con Talend?
Altri articoli correlati
- Come iniziare a lavorare con Talend Open Studio for Data Integration
- [TOS tutorial 02] Reading a File
- [TOS tutorial 01] Presentazione di Talend Studio
- [TOS tutorial 03] Sorting a File
- [TOS tutorial 07] Configuring Joins in tMap
- [TOS tutorial 08] Aggiunta di filtri basati su condizioni utilizzando il componente tMap
- [TOS tutorial 09] Using Context Variables
- [TOS tutorial 06] Come unire due sorgenti di dati con il componente tMap
- [TOS tutorial 04] Creazione e uso di metadati
- [TOS tutorial 13] Running a Job on Spark
- [TOS tutorial 12] Scrittura e lettura di dati su file HDFS
- [TOS tutorial 11] Creating Cluster Connection Metadata from Configuration Files
- [TOS tutorial 10] Creating Cluster Connection Metadata
- [TOS tutorial 14] Running a Job on YARN