
La costante ricerca di soluzioni in grado di migliorare le performance dell’azienda interessa, innanzitutto, l’ambito informatico. Nell’era moderna tutte le organizzazioni necessitano di supporti e architetture capaci di garantire velocità, scalabilità, flessibilità e precisione. Soprattutto nel momento in cui occorre gestire e utilizzare i dati.
Attualmente, a disposizione delle imprese vi sono diversi strumenti di archiviazione dei dati, ognuno dei quali può offrire differenti vantaggi e caratteristiche. Parliamo, innanzitutto, dei due metodi più gettonati: i data lake e i data warehouse.
Come scegliere l’architettura più adatta alle proprie esigenze? Rispondiamo alle domande principali rispetto a questi due metodi di archiviazione e scopriamo tutte le differenze e gli elementi che distinguono data lake e data warehouse.
Indice dei contenuti
Un data lake è un repository di dati in grado di archiviare e conservare un’enorme quantità di dati grezzi. I dati, archiviati nel loro formato nativo, vengono mantenuti all’interno di questo repository sino a quando non devono essere utilizzati.
Un data lake archivia dati relazionali a partire da applicazioni aziendali di diversa natura, ma può anche contenere dati non relazionali provenienti da social media, app mobili o dispositivi IoT (Internet of Things). Per ottenere i dati aziendali, spesso le organizzazioni utilizzano le tecniche di analisi dei big data, dell’analisi in tempo reale, le query SQL oppure dell’apprendimento automatico.
Il data lake può offrire importanti vantaggi all’azienda, in quanto permette di raccogliere e archiviare dati di diversa natura e forma, provenienti da qualsiasi genere di fonte. Non richiede alcuna definizione di struttura od organizzazione schematica, né è necessaria una trasformazione del dato prima che esso venga immesso all’interno del repository.
I data scientist e gli analisti aziendali, inoltre, non hanno l’esigenza di spostare i dati in un sistema di analisi separato. Il data lake, supporta le tecniche di machine learning ed è orientato al miglioramento delle interazioni con i clienti, alla pianificazione delle strategie aziendali e all’ottimizzazione dell’efficienza operativa.
Un data warehouse è un repository in grado di ottimizzare i processi di business intelligence, in quanto converte i dati in possesso dell’azienda in informazioni utili ai fini di analytics. Le informazioni preziose vengono analizzate in funzione del business, con l’obiettivo di comprendere gli scenari attuali e di pianificare future strategie che possano risultare più efficienti e più vantaggiose.
I data warehouse, orientati al soggetto, sono repository non volatili, integrati, varianti temporali e possono essere composti da diversi data mart (i quali contengono dati per finalità e tipo di utenti specifici). Il dato viene estratto da diverse fonti e, quindi, subisce il processo di trasformazione e caricamento all’interno del data warehouse. Questo processo, chiamato ETL (Extract, Transform, Load) viene svolto con l’obiettivo di integrare ed elaborare i dati affinché risultino più performanti nell’ottica di un utilizzo ai fini analitici.
Prima di procedere con l’archiviazione dei dati in un data warehouse, è indispensabile definire lo schema e la struttura dati che il repository deve mantenere. Il data warehouse consente di ottenere risultati utili ai fini dell’analisi e della definizione di report operativi.
Si potrebbe erroneamente pensare che data lake e data warehouse siano tecnologie sostanzialmente simili: nonostante alcuni elementi condivisi, queste due architetture sono totalmente differenti.
Vediamo quali sono le 10 differenze tra data lake e data warehouse:
Valutiamo tutte le differenze tra data lake e data warehouse nel seguente schema:
| Caratteristica | Data warehouse | Data lake |
| Definizione | Archivio di dati consolidati da più origini. | Archivio centralizzato di dati in grado di contenere un enorme volume di dati strutturati e non strutturati. |
| Origine dei dati | Un data warehouse archivia dati derivanti da sistemi transazionali, applicazioni line-of-business e database operativi. | Un data lake archivia dati relazionali e non relazionali ottenuti da siti web, app mobili, social media, app aziendali e dispositivi IoT. |
| Qualità dei dati | Dati molto accurati. | Possibile presenza di dati duplicati, non verificati o errati. |
| Tipologia di dati | Dati elaborati. | Dati grezzi nella forma nativa. |
| Preparazione dati | Preparazione dati indispensabile con strumenti ETL. | Preparazione dati possibile ma non essenziale, con strumenti ELT. |
| Schema | Schema-on-write. | Schema-on-read. |
| Utenti e accessibilità | Analisti aziendali. | Data scientist, analisti aziendali e sviluppatori di dati. |
| Flessibilità | Repository solido e difficilmente modificabile. | Repository altamente flessibile e di semplice riconfigurazione. |
| Prestazioni | Ottime performance di esecuzione delle query. | Prestazioni meno efficienti a fronte di una maggiore capacità di archiviazione e di un costo inferiore. |
| Utilizzo | Definizione delle finalità analitiche, sempre specifiche e predefinite. | Nessuna finalità predeterminata. |
| Risultati delle query | Rapidi con storage a costo elevato. | Rapidi con storage a costo ridotto. |
| Metodo analitico | Business intelligence, visualizzazione e report batch. | Data discovery, profiling, analisi predittiva e machine learning. |
Data lake e data warehouse possono offrire prestazioni, caratteristiche e vantaggi differenti. I vantaggi di un data warehouse includono:
Mentre un data lake permette di accedere ai seguenti vantaggi:
Data lake e data warehouse: quando usarli? Per comprendere al meglio quali differenze esistono tra data lake e data warehouse, è bene valutare degli esempi concreti delle loro possibili applicazioni. Vediamone alcuni.
Nell’ambito sanitario, moltissime informazioni (a partire dalle cartelle cliniche e dalle immagini dei referti radiologici) rappresentano dati non strutturati. In questo caso trovano grande applicazione i data lake, in grado di contenere, integrare e correlare un’immensa quantità di dati altrimenti destinati ad essere depositati in silos applicativi o repository specializzati. Grazie all’utilizzo di strumenti di machine learning, intelligenza artificiale e advanced analytics è possibile ottenere insights utili alla distribuzione delle risorse.
Il settore retail può ottenere importanti benefici dall’impiego di un data warehouse: sia perché esso consente di analizzare le vendite (il volume, le informazioni in merito, gli sconti e i dati demografici), sia perché permette di intuire e tenere traccia del comportamento dei clienti (monitorando la cronologia degli acquisti, i modelli di utilizzo di un sito web e le interazioni con il servizio clienti). Tutti questi dati rappresentano una fonte importante per la pianificazione di strategie di marketing e per migliorare l’esperienza del cliente.
Un altro esempio di utilizzo di data lake afferisce al settore travel: in questo caso, lo strumento viene utilizzato per processi analitici della funzione predittiva. Il data lake, infatti, permette di ottenere dati in tempo reale da una molteplicità di fonti. Ciò si traduce in un’ottimizzazione delle performance riguardo la pianificazione di strategie di marketing volte alla fidelizzazione del cliente e per migliorare la user-experience e il customer journey.
In ambito finanziario, un data warehouse garantisce grandi opportunità avendo la capacità di archiviare informazioni finanziarie strutturate (tassi di crescita dei ricavi, informazioni riguardo il budget, tendenze di spesa). Le informazioni possono contribuire al processo di decision making, allocando le risorse al meglio con la finalità di raggiungere gli obiettivi prefissati.
Il settore oil & gas ha, da sempre, accolto con entusiasmo le innovazioni tecnologiche, dal cloud computing all’IoT. Le organizzazioni impegnate in questo ambito gestiscono un alto volume di dati, provenienti da impianti di distribuzione o di estrazione di petrolio, gas ed energia elettrica. Utilizzare un data lake per organizzare i dati permette di sfruttare al meglio le applicazioni analitiche, ottenendo insights in grado di abbattere le spese operative. È inoltre possibile mantenere la compliance normativa e migliorare la sicurezza all’interno degli stabilimenti.
Un data warehouse trova impiego anche nell’ambito delle risorse umane. Questo strumento, infatti, consente di archiviare le informazioni riguardanti i dipendenti (fasce salariali, valutazioni delle prestazioni, titoli di lavoro), utilizzabili ai fini dell’assunzione o del licenziamento dei dipendenti stessi (o anche per decidere quale lavoratore merita un aumento o una promozione).
Il complesso settore del data management richiede una particolare attenzione durante il processo di scelta della migliore soluzione (o della combinazione di strumenti) rispetto alle necessità dell’azienda.
Data lake e data warehouse hanno, come abbiamo visto, una struttura differente: il punto di contatto tra i due strumenti è il data lakehouse. Questa architettura di recente creazione, disponibile su piattaforme come Databricks, fonde il data lake con il data warehouse, fornendo una soluzione efficiente nei costi e flessibile (data lake), ma allo stesso tempo in grado di garantire coerenza e qualità (data warehouse).
Un’alternativa di ultima generazione può, inoltre, essere un data mesh, un tipo di architettura di dati decentralizzata. Questo strumento archivia e organizza il dato sulla base del dominio di business, garantendo più proprietà all’amministratore del dataset.












