Data mesh: cos’è, differenze e architettura

Di : Manuele Bassanini 14 Settembre 2023

Le organizzazioni, nell’epoca dei big data, scelgono sempre di più una strategia data-driven per mantenere il business competitivo rispetto alla concorrenza. I dati rappresentano un vero e proprio tesoro che le imprese possono, e devono, sfruttare a proprio vantaggio per la definizione di strategie performanti e innovative.

La gestione dei dati, così come la loro archiviazione, deve essere oculata e accurata affinché il dato possa divenire un elemento di valore per l’azienda. Esistono numerose soluzioni e architetture incaricate di gestire anche enormi volumi di dati: un’organizzazione democratica ed efficiente diventa, per l’impresa moderna, un elemento differenziale in grado di assicurare ottime performance a tutte le attività.

Le aziende che scelgono un approccio ai dati obsoleto sono destinate a rimanere indietro, superate da imprese che invece implementano soluzioni quali data lake, data warehouse o data mesh. Di cosa si tratta? Quali sono i vantaggi del data mesh e come funziona questa architettura? Scopriamo nel dettaglio tutto quel che riguarda il data mesh e il suo funzionamento.

Indice dei contenuti

Cos’è il data mesh?

Il termine data mesh, relativamente nuovo, si lega a una tendenza in forte crescita negli ultimi anni. Questa architettura dati ha conquistato sempre più consensi nel giro di pochissimo tempo: da quando è stata ideata e rilasciata, ha consentito un cambio di paradigma essenziale rispetto alle architetture di gestione dei dati sin ora disponibili.

Il data mesh rappresenta l’estensione della classica architettura applicata alla gestione dei dati. Un data mesh, infatti, permette di analizzare in modo agile e scalabile dati anche molto complessi, agevolata dall’integrazione con strumenti di machine learning e intelligenza artificiale.

Il data mesh, al giorno d’oggi, è un’alternativa estremamente valida al modello del data lake, grazie alla sua struttura decentralizzata e distribuita. L’architettura del data mesh è stata progettata per supportare le imprese nel loro processo di sviluppo e di accrescimento in termini di scalabilità e agilità. Numerosi i vantaggi di un data mesh, tra cui la riduzione del time-to-market e la diminuzione dei costi relativi alla manutenzione della struttura.

Questo approccio decentralizzato alla data platform consente a ogni dominio di usufruire di un proprio storage e di una modalità intelligente di gestione di processi e dati.

Un data mesh promuove l’impiego di tecnologie native del cloud al fine di ottimizzare la scalabilità nell’ambito della gestione dei dati. Tale concetto può essere paragonato ai microservizi, utili al pubblico per comprendere al meglio l’universo del data mesh. Un’architettura dei microservizi tende ad abbinare servizi leggeri per garantire una maggiore funzionalità all’applicazione aziendale. Un data mesh utilizza domini funzionali per l’impostazione dei parametri relativi ai dati.

Vantaggi del data mesh

Per comprendere pienamente il valore di un data mesh, valutiamo adesso quali sono i vantaggi offerti da questo innovativo approccio alla gestione dei dati aziendali.

Democratizzazione dei dati

L’architettura del data mesh è stata progettata con il preciso intento di semplificare le applicazioni self-service provenienti da più fonti di dati, aumentando e velocizzando l’accesso a questi ultimi. Oltre alle figure specialistiche, quali data engineer, data scientist e sviluppatori, anche utenti meno esperti possono accedere ai dati in modo agile e semplice.

In questo modo, è possibile ridurre i colli di bottiglia operativi e i silos, soprattutto quando il data mesh viene implementato su un hub di processo DataOps. Ciò permette a qualsiasi utente di avviare un processo decisionale più rapido, performante e consapevole. Anche gli utenti più esperti e le figure specializzate giovano dei benefici del data mesh, in quanto potranno dare priorità alle attività che richiedono la loro supervisione.

Maggiore sicurezza e conformità

Un data mesh viene strutturato perseguendo l’obiettivo di promuovere una data governance più solida. Il team incaricato di gestire l’accesso ai dati sensibili potrà usufruire di uno strumento più sicuro, agile e conforme alle normative vigenti. I dati in log possono essere osservati dal sistema in modo sicuro, affinché i revisori possano ottenere una visione globale degli accessi e sapere sempre quali utenti hanno accesso ai dati (e a quali informazioni l’utente ha avuto accesso).

Riduzione dei costi

Il data mesh si distingue dal classico modello di elaborazione dei dati in batch, in quanto predilige piattaforme cloud e pipeline di streaming per il processo di raccolta dei dati in realtime. L’utilizzo delle tecnologie cloud garantisce immensi vantaggi sia in termini di costi che nell’ambito dell’ottimizzazione delle risorse. Il modello di pagamento pay-per-use, infatti, permette di raggiungere un ottimo livello di trasparenza per quel che riguarda il costo dei servizi di storage. Ciò si traduce in una riduzione generale dei costi e in una gestione più elaborata e proficua di risorse e budget.

Interoperabilità

L’interoperabilità viene facilitata da un data mesh in quanto i proprietari dei dati definiscono, in anticipo, le modalità di standardizzazione dei dati (indipendenti dal dominio). Se il team di dominio definisce il proprio dataset, potrà applicare le stesse regole per consentire l’accesso ai dati tra domini, in modo più semplice e veloce.

La coerenza tra i diversi domini permette all’utilizzatore dei dati di accedere in modo più efficiente a tutte le informazioni, utilizzando le API per lo sviluppo di applicazioni in grado di soddisfare, in modo appropriato, qualsiasi esigenza di business.

Riduzione del debito tecnico

Generalmente, un’infrastruttura centralizzata dei dati comporta un debito tecnico maggiore, a causa della complessità della struttura e della collaborazione indispensabile per la manutenzione del sistema. I dati, man mano che si accumulano all’interno del repository, tendono a rallentare il sistema nella sua globalità.

La distribuzione della pipeline dei dati sulla base delle proprietà del dominio permette di ridurre il debito tecnico e le sollecitazioni sul sistema di storage. È possibile, altresì, ridurre il volume delle singole richieste attraverso delle API che rendono l’accessibilità ai dati più semplice.

Architettura del data mesh

Un data mesh si distingue per la sua architettura, fondata sulla base di quattro concetti fondamentali:

dati come prodotto. Ogni singolo dominio è proprietario e produttore dei dati, incaricato della sua gestione in funzione delle esigenze del business. I domini, indipendenti tra loro, possono muoversi alla velocità desiderata, utilizzando la tecnologia migliore affinché sia possibile ottenere in tempi rapidi i risultati necessari, adatti a qualsiasi tipologia di data consumer;
decentralizzazione e orientamento al dominio dell’architettura e della proprietà. L’azienda può creare dei team predisposti, composti da specialisti come data engineer e altri esperti, per la modellazione del singolo dominio. L’ownership decentralizzata, quindi, permette a ogni team di godere della propria indipendenza, pur perseguendo la medesima strategia per la definizione degli strumenti e dell’architettura;
data governance computazionale federata. Per la gestione oculata della standardizzazione, per poter fornire eccellenti livelli di controllo e flessibilità dei diversi domini e per monitorare i loro sviluppi, il data mesh risulta essenziale. Questa architettura, infatti, ottimizza l’approccio di data governance federata in quanto i dati sono gestiti da utenti per gli utenti;
infrastruttura dati self-service. Il data mesh rappresenta una piattaforma applicabile e utilizzabile da utenti di qualsiasi livello aziendale: dagli sviluppatori software fino ai business user. Questa architettura, infatti, permette di utilizzare il data product da altri domini usufruendo di servizi customizzati.

Data mesh vs data lake

Il data mesh risulta essere un’architettura di dati distribuita, all’interno della quale le informazioni vengono organizzate sulla base del loro dominio. Ciò permette al dato di essere più accessibile per qualsiasi utente, qualsiasi sia la sua esperienza o provenienza aziendale.

Un data lake, invece, è un ambiente di storage economicamente conveniente il quale ospita petabyte di dati strutturati, semistrutturati o non strutturati. Questa architettura viene progettata con una specifica finalità di utilizzo, strettamente legata al machine learning, alle attività di analytics di business e ad altre applicazioni di ampio respiro.

Un data mesh è un approccio architetturale innovativo ai dati: il data lake può far parte di tale approccio. Un data lake spesso viene impiegato come silos generale per dati che non hanno ancora uno scopo ben definito. Questo atteggiamento aumenta il rischio che il data lake diventi una palude di dati, all’interno della quale ci saranno lacune in termini di governance e qualità delle informazioni.

Data mesh vs data fabric

Anche il data fabric, così come il data mesh, è un nuovo concetto architetturale. La differenza tra i due, però, è molto profonda. Mentre il data mesh gestisce i dati in qualità di prodotto, affidando la definizione dei requisiti ai proprietari del dominio, un data fabric fonda il suo essere sull’automazione incentrata su una base arricchita di metadati.

Il data fabric si concentra sull’automazione:

dell’integrazione dei dati;
della governance;
dell’ingegneria dei dati.

Lo scopo è quello di creare una catena di valore delle informazioni tra fornitori e utilizzatori dei dati. Il data fabric è stato creato sulla base della nozione di “metadati attivi”, in quanto impiega grafi di conoscenza, tecnologia di intelligenza artificiale e machine learning e, infine, la semantica per la definizione degli schemi, suddivisi in differenti tipologie di metadati (social, log di sistema o altro).

L’insight viene applicato per l’automazione e l’orchestrazione della catena di valore dei dati. L’impiego di un data fabric non preclude l’utilizzo di un data mesh, anzi quest’ultimo elemento può migliorare le proprie performance se integrato in un data fabric. Il data mesh, infatti, può accedere a processi di automatizzazione di elementi fondamentali, quali il processo di creazione dei dati o l’applicazione della governance globale. Ciò si traduce in una semplificazione dei processi di orchestrazione e combinazione di più di un prodotto di dati.

Cookie	Durata	Descrizione
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durata	Descrizione
bcookie	2 years	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie	2 years	LinkedIn sets this cookie to store performed actions on the website.
lang	session	LinkedIn sets this cookie to remember a user's language setting.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Durata	Descrizione
__kla_id	2 years	Cookie set to track when someone clicks through a Klaviyo email to a website.
SRM_B	1 year 24 days	Used by Microsoft Advertising as a unique ID for visitors.

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-137720848-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gat_UA-35242002-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_hjAbsoluteSessionInProgress	30 minutes	Hotjar sets this cookie to detect the first pageview session of a user. This is a True/False flag set by the cookie.
_hjFirstSeen	30 minutes	Hotjar sets this cookie to identify a new user’s first session. It stores a true/false value, indicating whether it was the first time Hotjar saw this user.
_hjIncludedInPageviewSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's pageview limit.
_hjIncludedInSessionSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's daily session limit.
_hjTLDTest	session	To determine the most generic cookie path that has to be used instead of the page hostname, Hotjar sets the _hjTLDTest cookie to store different URL substring alternatives until it fails.
ajs_anonymous_id	1 year	This cookie is set by Segment to count the number of people who visit a certain site by tracking if they have visited before.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Durata	Descrizione
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
ANONCHK	10 minutes	The ANONCHK cookie, set by Bing, is used to store a user's session ID and also verify the clicks from ads on the Bing search engine. The cookie helps in reporting and personalization as well.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
MUID	1 year 24 days	Bing sets this cookie to recognize unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Data mesh: cos’è, differenze e architettura

Cos’è il data mesh?

Vantaggi del data mesh

Democratizzazione dei dati

Maggiore sicurezza e conformità

Riduzione dei costi

Interoperabilità

Riduzione del debito tecnico

Architettura del data mesh

Data mesh vs data lake

Data mesh vs data fabric

Tag

Articoli

Parla con un Nostro Esperto

Siamo disponibili per ogni chiarimento e problema, non esitare a contattarci

Hanno scelto IT Impresa

Contatti e Indirizzi

Sedi

Restiamo in contatto

Categorie Blog

Cookie	Durata	Descrizione
__awc_tld_test__	session	No description
_clck	1 year	No description
_clsk	1 day	No description
_hjSession_1956240	30 minutes	No description
_hjSessionUser_1956240	1 year	No description
AnalyticsSyncHistory	1 month	No description
CLID	1 year	No description
last_pys_landing_page	7 days	No description
last_pysTrafficSource	7 days	No description
li_gc	2 years	No description
pys_first_visit	7 days	No description
pys_landing_page	7 days	No description
pys_session_limit	1 hour	No description
pys_start_session	session	No description
pysTrafficSource	7 days	No description
SM	session	No description available.