ETL (Extract, Transform, Load): Cos’è e come funziona
- Home
- Blog
- Tecnologie e concetti IT
- ETL (Extract, Transform, Load): Cos’è e come funziona

I big data sono divenuti, nel giro degli ultimi anni, il vero petrolio del futuro: per le aziende, infatti, le informazioni rappresentano un valore imprescindibile. Raccogliere e utilizzare questi dati è ormai indispensabile per qualsiasi organizzazione nel mondo, che grazie a loro può migliorare le proprie strategie di business, la propria offerta di servizi e incrementare nettamente le vendite.
Quali sono gli strumenti più utili per organizzare e gestire una grande quantità di dati provenienti da diverse sorgenti? Quali sono i processi standard che un dato deve e può subire per poter essere utilizzato ai fini di analytics? Scopriamo uno dei processi più comuni ed efficienti per la centralizzazione dei dati: l’ETL process.
Indice dei contenuti
ETL è l’acronimo della formula Extract, Transform, Load (estrazione, trasformazione, caricamento). Questo acronimo si riferisce al processo di raccolta dei dati provenienti da qualsiasi tipologia di sorgente: un processo che prevede, altresì, l’organizzazione, la centralizzazione e l’integration del dato all’interno di un unico repository.
Ancora oggi molte aziende non sono in grado di beneficiare dei vantaggi offerti dal pacchetto di dati in loro possesso, in quanto le informazioni risultano inaccessibili. I dati, spesso, rimangono bloccati in silos isolati, non possono essere utilizzati mediante applicazioni specifiche o vengono frenati dai sistemi legacy.
Un vero e proprio spreco di opportunità in termini di business: gestire e utilizzare i dati, infatti, può davvero fare la differenza per un’impresa. Anche per questo il processo ETL rappresenta un valido supporto per l’estrazione, la trasformazione e il caricamento dei dati. Le informazioni, al termine del processo ETL, saranno pulite e pronte per essere usate per molteplici finalità di business.
La preparazione dei dati, svolta mediante l’ETL process, può essere necessaria quando occorre:
Negli ultimi anni, molte aziende preferiscono estrarre i dati dalle sorgenti, caricarli all’interno di un data warehouse e infine trasformarli. Questo processo, denominato ELT (Extraction, Loading, Transformation) si differenzia dal processo ETL per la diversa gestione delle fasi relative all’organizzazione dei dati. Il processo ETL, infatti, si suddivide in tre fasi che vengono seguite con un preciso criterio temporale. Vediamo qual è il diagramma del processo ETL.
Extraction
L’ETL process viene svolto con lo specifico obiettivo di ottenere un pacchetto di dati puliti e accessibili, utilizzabili ai fini di analytics e per qualsiasi esigenza di business. Pertanto, la prima fase operativa prevede le attività di estrazione dei dati. Le informazioni possono provenire da una pluralità di fonti, come:
Il dato viene estratto e inserito all’interno di un data warehouse o di un data lake.
La seconda fase del processo ETL è la più delicata di tutte: durante questo step, infatti, i dati vengono trasformati a seconda delle regole e delle esigenze aziendali. I dati grezzi vengono modificati nel formato di segnalazione corretto: la pulizia dei dati è fondamentale durante questa attività, che altrimenti diventerebbe troppo complessa.
Il dato deve rispondere a determinati standard che garantiscono la sua stessa qualità e accessibilità. Pertanto, durante la trasformazione il dato viene modificato nel rispetto dei seguenti standard:
Durante la fase di trasformazione i dati vengono modellati affinché siano pronti per la fase finale: il caricamento.
Il processo ETL, in ultima fase, prevede il caricamento dei dati pronti presso una nuova destinazione, che può essere un data warehouse o un data lake. È in questa fase che avviene la data integration. Il dato può essere caricato secondo due modalità:
Il singolo ciclo ETL (o una serie programmata di cicli) può essere lanciato eseguendo un’attività da una riga di comando o da un’interfaccia grafica. Occorre, però, prestare attenzione a determinati aspetti:
Due i possibili approcci ELT o ETL alla pre-elaborazione dei dati: da un lato, il processo ETL sin ora descritto. Dall’altro, il processo ELT. La principale differenza tra i due sta nell’ordine temporale delle tre fasi principali. Mentre ETL elabora, trasforma e infine carica i dati, ELT elabora, carica e infine trasforma i dati.
Nonostante il processo ETL sia una procedura collaudata e apprezzata da infinite organizzazioni nel mondo, negli ultimi anni e con la diffusione delle tecnologie fondate su cloud, nuovi processi sono stati sperimentati. Le tecnologie basate su cloud permettono di archiviare ed elaborare i dati a un costo più conveniente: pertanto, le aziende moderne sono sempre più incentivate a usufruire di servizi di prima scelta, rapidi, accessibili, versatili e anche economici. L’approccio ELT ha conquistato sempre maggiori consensi anche e soprattutto perché facilmente applicabile anche in ambienti cloud.
Il processo ELT è considerato la procedura preferibile per la gestione dei dati, poiché il dato grezzo può essere conservato sin quando deve essere utilizzato, potendo concentrare maggiore attenzione sugli step relativi all’estrazione e al caricamento. Inoltre, la fase di trasformazione permette di accedere ai seguenti vantaggi:
Per la gestione dei dati secondo la procedura ETL le aziende moderne possono scegliere 4 diversi strumenti, che si differenziano in base alle pipeline. Vediamo quali sono.
Questa pipeline viene utilizzata nei classici casi d’uso finalizzati all’analisi, ovvero quando i dati devono essere raccolti, trasformati e spostati periodicamente in un data warehouse (anche in cloud). Trattasi di una pipeline particolarmente adatta a soddisfare gli scenari di utilizzo convenzionali di business intelligence.
In questo caso, l’utente muove i dati ad alto volume in un data lake o data warehouse in cloud, programmando le attività di elaborazione e prevedendo un minimo intervento umano. L’elaborazione batch consente di memorizzare e raccogliere i dati all’interno di una finestra batch, che gestisce una mole immensa di dati in modo efficiente, seguendo una procedura ripetitiva.
Tale pipeline permette una distribuzione in loco, con relativo miglioramento nella sicurezza dei dati gestiti. Questa pipeline è ideale per le aziende che gestiscono sistemi legacy i quali usufruiscono di repository on-premise per la raccolta dei dati.
Questa pipeline rappresenta la migliore alternativa per gli utenti che desiderano elaborare dati strutturati e non strutturati, prelevandoli da numerose fonti (IoT, dispositivi connessi, fonti streaming, dati dei sensori, feed dei social media, applicazioni mobili). Tale pipeline permette di utilizzare un sistema di messaggistica estremamente veloce, che garantisce l’acquisizione rapida dei dati.
La fase di trasformazione avviene in tempo reale, usando un sistema di elaborazione real time per sviluppare attività di analisi (come, ad esempio, nel caso delle campagne di marketing, per l’assistenza proattiva ai clienti, per la manutenzione predittiva e per il rilevamento delle frodi).
In base alle differenti applicazioni cloud, questo strumento ETL può essere declinato a dovere, essendo particolarmente agile e flessibile.
In quali contesti e per quali utilizzi può essere declinato il processo ETL? Vediamo alcuni esempi:
Description: Estrazione, trasformazione e caricamento: cos’è il processo ETL, come funziona e quando viene eseguito? Scopriamo questa procedura di data management.












