
Il data mining (in italiano, estrazione di dati) può essere definito come l’insieme di alcune tecniche e metodologie della Data Science il cui obiettivo è estrarre informazioni utili da grandi moli di dati attraverso algoritmi ed avanzate tecnologie, sempre più spesso basate su reti neurali artificiali, machine learning e tecniche di intelligenza artificiale.
Tecnicamente dunque il data mining si riferisce alle attività che consentono di estrarre informazioni dai dati, ossia tutto ciò che riguarda la loro esplorazione ed analisi.
Indice dei contenuti
Cos’è il data mining e perché è “accessibile a tutti”
Volendo dare una definizione più precisa per capire cos’è il data mining, potremmo dire che è il metodo di esplorazione ed analisi di grandi moli di dati (attraverso sistemi automatici o semi-automatici, tra i quali anche il machine learning) per capire e identificare modelli (pattern, correlazioni, strutture di dati, ecc.) che possono essere utili per una precisa attività o processo.
Il data mining sta quindi alla base di tutte le piattaforme più evolute di Big Data Analytics, è l’elemento tecnico che consente di scoprire schemi, strutture e correlazioni tra dati sulle quali fare poi le analisi che servono al processo decisionale o ad una determinata attività.
Il data mining è esso stesso un procedimento di analisi, ma dal punto di vista tecnico copre anche altri aspetti molto importanti nell’ambito del processamento dei dati quali configurazione, modellazione, data collection, data visualization… che contribuiscono all’obiettivo finale: scavare nei dati ed estrarre informazioni utili non visibili e non conosciute a priori che possono generare nuova conoscenza utile nel processo decisionale ed operativo di business.
A voler essere ancora più precisi, oggi il data mining ha una duplice valenza:
- estrazione, con tecniche analitiche all’avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
- esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern (schemi o strutture) significativi.
I pattern sono, di fatto, il risultato dell’estrazione dei dati e sono gli elementi da cui è possibile ricavare/leggere/interpretare le informazioni. Affinché possa generare tale valore, ossia fornire informazioni utili, i pattern devono essere:
- comprensibili (sia sotto il profilo semantico sia dal punto di vista sintattico), affinché possano essere opportunamente interpretati e sfruttati;
- validi, nell’accezione della qualità e del grado di confidenza dei dati;
- precedentemente sconosciuti, ossia devono rivelare informazioni non note prima (altrimenti non producono alcun valore).
Il concetto di data mining è nato negli anni ’90 del secolo scorso grazie ad alcune tendenze che hanno poi contribuito anche alla sua accelerazione in termini di adozione:
- la disponibilità di grandi quantità di dati digitali (strutturati ma anche e soprattutto non strutturati);
- l’accesso a grande capacità di calcolo (server, cpu, gpu) e data storage sempre più performanti accessibili a costi contenuti (anche grazie al cloud computing);
- nuovi e più elevati livelli di maturità delle tecniche (e delle tecnologie) di analisi dei dati, con l’accesso più semplificato a machine learning, reti neurali artificiali e tecniche di intelligenza artificiale.
A cosa serve: modelli di data mining e tipi di pattern
I modelli di data mining sono stanzialmente due (che hanno una certa similitudine con le differenti tipologie di analisi) e solitamente la scelta su quale utilizzare dipende da tipo di dati che si hanno a disposizione e si intende analizzare e dal tipo di pattern che si vuole ottenere:
- modello descrittivo: sfruttando capacità di analisi di tipo descrittivo, il modello consente di raggruppare dati storici che, per esempio, mostrano gruppi di utenti che hanno avuto un medesimo comportamento (da cui poi l’utente può provare a capire – attraverso l’analisi dei “dati comuni” a questo gruppo di utenti – come mai si è verificato tale comportamento);
- modello predittivo: in questo caso il modello raggruppa i dati affinché si possano stimare/prevedere scenari o risultati futuri. La modellazione predittiva, per esempio, viene utilizzata nella cosiddetta Churn Analysis per aiutare le aziende a non perdere i clienti prevedendo il loro comportamento di acquisto e le probabilità di abbandono.
A seconda del tipo di informazioni che si vuole ottenere, il data mining può “produrre” differenti tipi di pattern (in altre parole, i tipi di pattern denotano cosa fa il data mining):
- associazione: in questo caso il data mining consente di identificare quali regole associative sono presenti in una base dati, ossia in che modo è possibile raggruppare i dati per “affinità” e quali sono i loro nessi casuali;
- classificazione: i classificatori consentono diderivare un modello di ordinamento e di raggruppare i dati per classi (sulla base di determinate regole) assegnate a priori;
- clustering (clasterrizzazione, raggruppamento, segmentazione): in questo caso, a differenza della classificazione, il data mining raggruppa i dati in classi non assegnate a priori (è il sistema stesso che identifica gruppi omogenei basati su regole “nascoste” che emergono solo a seguito dell’analisi);
- regressione: il data mining di regressione opera in modo simile ai classificatori, con la differenza che questi ultimi sfruttando regole di appartenenza ad una classe come variabili categoriche e predeterminate, mentre nella regressione le variabili (quindi le regole di appartenenza) possono assumere molti valori (potenzialmente anche infiniti);
- sequenze: l’individuazione delle sequenze è un tipo di pattern simile all’associazione ma sfrutta la cosiddetta correlazione sequenziale, ossia identifica quei gruppi di dati che mostrano quando ad un dato X fa seguito un dato Y (per esempio una richiesta di assistenza dopo un certo arco temporale dall’acquisto di uno specifico prodotto);
- serie temporali: questi tipi di data mining sono molto complessi perché non solo svolgono sofisticate regressioni ma anche perché inglobano variabili a loro volta complesse; si tratta di analisi che permettono l’individuazione di pattern ricorrenti oppure aticipi in sequenze molto complesse, utili quindi a fare analisi predittive.
Data mining vs. data analytics
Parlando di analisi dei dati è automatico pensare anche alla data analytics, altra importante attività che agisce nello stesso ambito.
Sono la stessa cosa? Quali sono le differenze?
Si può dire che il data mining è alla base e comprende nel suo insieme tanti altri rami più settorizzati come la data analytics.
Il data mining, infatti, è il procedimento volto a raccogliere e raggruppare dati per individuare correlazioni e modelli ricorrenti.
La data analytics, invece, è un metodo analitico che traduce questi dati e a partire dagli schemi estrapolati elabora ipotesi e ricava informazioni concrete.
Semplificando con una metafora, quindi, il data mining raccoglie infiniti tasselli di un puzzle, individua i pezzi giusti, capisce come metterli insieme e crea un quadro coerente e utile a trarre delle conclusioni.
La data analytics osserva il quadro e trasforma i tasselli in informazioni concrete utili a delineare strategie di marketing e determinare scelte di business.
Alcuni esempi di applicazione
Oggi il data mining viene utilizzato in moltissimi settori e business unit, dal mercato Finance fino al Manifacturing, dal Marketing alla gestione documentale… per esempio per trovare gruppi e sottogruppi di documenti simili per tipologia oppure per termini che compaiono in essi (utile per chi deve accedere a grandi molti di documenti, come per esempio per la ricerca scientifica, oppure per il settore Legal), oppure per raggruppare i clienti per specifiche caratteristiche comuni o per area geografica (utile per organizzare i servizi di manutenzione oppure per definire nuove strategie di marketing e di vendita), o ancora intuire come disporre la merce (o proporla sul proprio canale e-commerce) per stimolare gli acquisti analizzando quali prodotti vengono frequentemente comprati insieme… gli esempi applicativi possono davvero essere infiniti.

Entrando un po’ più in dettaglio, come già accennato, uno degli esempi più attuali di utilizzo di data mining e analisi predittive è la cosiddetta churn analysis, ossia l’analisi delle probabilità di perdita di un cliente: il data mining identifica le caratteristiche “tipiche” di un cliente che ha alte probabilità di abbandono, le analisi predittive più evolute poi faranno il resto (per esempio modellare scenari futuri e capire come prevenire l’abbandono o capire in anticipo come il cliente reagirà di fronte ad una nuova offerta o ad un servizio sviluppato proprio per evitare di perdere il cliente).
Un altro interessante utilizzo delle tecniche di data mining riguarda l’identificazione – e la prevenzione – delle frodi (fraud detection). In questo caso il data mining analizza le transazioni (per esempio i prelievi di contante ad uno sportello Bancomat oppure gli acquisti online con carta di credito) e identifica caratteristiche e gruppi di transazioni corrette e transazioni invece classificate come fraudolente (per esempio perché estranee ad un comportamento “tipico” dell’utente oppure perché verificatesi in sequenza ad altri eventi rilevanti).
Altro efficace utilizzo del data mining riguarda la Market Basket Analysis con l’obiettivo di suggerire agli utenti ciò che potrebbe soddisfare le proprie esigenze e aspettative od essere di loro gradimento, in base a comportamenti passati o all’appartenenza ad un gruppo di profilazione specifico.
Contattaci
Ultime News Analytics
-
-
-
-
Che cosa si intende per overfitting e come evitarlo
24 Marzo 2023 -
Spettroscopia NIR
11 Gennaio 2023 -
Intelligenza artificiale e business: le barriere di adozione
8 Novembre 2022 -
-
-
Databricks: ecco tutto quello che c’è da sapere
1 Settembre 2022 -
Small Data: i dati unici che puntano alle emozioni
25 Giugno 2022