Le differenze principale tra overfitting e underfitting

Differenze tra overfitting e underfitting

Data di pubblicazione: 5 Gennaio 2024

Il machine learning è una branca specifica dell’informatica, impegnata nello sviluppo di algoritmi e modelli capaci di apprendere istantaneamente dalle esperienze pregresse, adattandosi a nuovi dati senza una programmazione iniziale.

Un modello di machine learning, ovvero una rappresentazione matematica, è in grado di elaborare un output sulla base di dati di addestramento (ovvero, input). I modelli associano input e output all’interno di un dataset elaborato.

Gestire la capacità del modello di adattamento ai dati è essenziale nel processo di creazione di modelli precisi ed efficienti: l’obiettivo è quello di trovare un equilibrio tra accuratezza e generalizzazione nella previsione. In questo contesto, due concetti essenziali risultano essere l’overfitting e l’underfitting.

Cosa sono l’overfitting e underfitting? Quali conseguenze possono avere e come prevenirli? Scopriamo di più in questo articolo.

Indice dei contenuti

La differenza tra overfitting e underfitting nel machine learning

L’apprendimento supervisionato rappresenta un approccio essenziale nell’ambito del machine learning. Esso presuppone la fornitura di un set di dati precisi grazie al quale il modello può apprendere e individuare relazioni anche complesse tra input e output. L’apprendimento supervisionato offre una guida piuttosto efficace per l’induzione di dipendenze funzionali.

L’induzione rappresenta un’attività essenziale nella creazione di modelli predittivi di machine learning. I modelli devono essere induttivi, ovvero capaci di estrapolare pattern generali per effettuare previsioni precise. È essenziale bilanciare questa capacità di apprendimento con pratiche specifiche, tese a evitare overfitting e underfitting.

Overfitting e underfitting rappresentano due fenomeni cruciali nell’ambito dell’elaborazione dei modelli di machine learning data analytics. Essi, infatti, si riscontrano nel momento in cui un modello raggiunge scarse performance nella classificazione a seguito dell’addestramento.

Nel caso dell’overfitting, il modello presenta troppo parametri e un’eccessiva variabilità nella classificazione. Il modello, quindi, risulta essere troppo complesso e sensibile ai dati di addestramento (high variance). I modelli con overfitting, quindi, forniscono risultati accurati per il set di addestramento ma non per il set di test. Il modello con overfitting si adatta troppo ai dati di training, rischiano di non generalizzare adeguatamente sui nuovi dati.

L’underfitting, invece, si riscontra quando il modello presenta un bias elevato: la conseguenza della scarsità di parametri è l’elevata discrepanza nella classificazione e un processo di apprendimento semplificato. I modelli con underfitting, pertanto, forniscono risultati imprecisi sia per i dati di addestramento che per il set di test. Il modello con underfitting risulta essere troppo semplice e non può processare la complessità dei dati, portando a previsioni imprecise.

Modelli underfitting

L’underfitting di un modello di machine learning consiste in una condizione di incapacità del modello nel cogliere, in modo accurato, la relazione tra input e output. Le cause dell’underfitting sono spesso associate alla semplicità del modello di apprendimento automatico rispetto alla natura del problema. Il modello, quindi, dovrebbe essere addestrato in modo più accurato e dovrebbe disporre di un set di dati di maggiore qualità e variabilità a livello di input.

Il modello con underfitting non è in grado di generalizzare i nuovi dati forniti per il training, risultando quindi poco performante nella classificazione o nello svolgimento dell’attività predittiva. L’underfitting, però, rispetto all’overfitting risulta essere maggiormente semplice da identificare, in quanto si riscontra soprattutto in presenza di bias elevato e varianza ridotta.

Modelli overfitting

L’overfitting si verifica quando il modello si adatta eccessivamente ai dati di addestramento e rappresenta una delle principali cause di insuccesso dell’apprendimento automatico. Una delle cause frequenti di overfitting è la presenza di dati di training estremamente accurati: il modello, quindi, tende ad adattarsi a questi input senza individuare i pattern che gli permettono di apprendere progressivamente dai nuovi set di dati.

Il modello con overfitting non riesce ad adattarsi ai nuovi dati e presenta ridotte capacità di generalizzare i dati, risultando limitato nella sua funzionalità e quindi poco performante. Tutti i modelli di apprendimento automatico tendono a sviluppare l’overfitting, poiché esso è una conseguenza naturale di un addestramento di entità superiore rispetto al necessario.

Conseguenze dell’overfitting e dell’underfitting nell’apprendimento automatico

Overfitting e underfitting possono comportare gravi conseguenze sulle prestazioni dei modelli, andando a compromettere l’affidabilità delle previsioni offerte. In particolare, nei casi di modelli con overfitting le conseguenze potrebbero essere:

sovra-adattamento ai dati di addestramento, poiché il modello memorizza le caratteristiche specifiche dei dati di training, non identificando i pattern generali e non riuscendo a elaborare i nuovi dati;
difficoltà nell’interpretazione, in quanto il modello eccessivamente complesso fornisce dati difficili da interpretare, rendendo meno trasparente il processo decisionale del modello;
sensibilità al rumore. Il modello considera outlier e il rumore presenti nei dati di training come parte del modello stesso. La conseguenza è, quindi, una previsione distorta e spesso eccessivamente ottimistica.

Le conseguenze dell’underfitting risultano altrettanto dannose, in quanto possono comprendere:

la mancata cattura di pattern. Il modello sottodimensionato non riesce a identificare pattern importanti nei dati di training, con conseguenti previsioni imprecise o troppo semplici;
prestazioni globali inferiori. I modelli con underfitting offrono prestazioni più basse in quanto non riescono a sfruttare pienamente le informazioni fornite dai dati di training;
limitata capacità di generalizzare. L’underfitting provoca una diminuzione nella capacità di adattamento del modello, riducendo l’efficacia dell’apprendimento automatico applicato alla risoluzione di problemi reali.

Tecniche per prevenire l’overfitting e l’underfitting

È essenziale evitare i fenomeni di overfitting e underfitting per garantire efficacia ed efficienza ai processi di machine learning. Per poter prevenire l’overfitting e underfitting, è indispensabile adottare approcci strategici e tecniche mirate, utili a migliorare le capacità del modello di generalizzare sui nuovi dati, senza compromettere l’accuratezza dei dati di addestramento.

Valutiamo le strategie e le tecniche più utilizzate per prevenire overfitting e underfitting:

convalida incrociata, una pratica essenziale per la valutazione delle prestazioni del modello su differenti partizioni di dati di training e di test. La convalida incrociata a k-fold, ad esempio, permette di ottenere una stima affidabile delle performance del modello, riducendo il rischio di overfitting. Questo approccio consente di identificare il perfetto equilibrio nella complessità del modello, favorendo l’ottimizzazione della sua abilità di generalizzazione;
riduzione della dimensionalità, utile per evitare l’overfitting soprattutto quando si opera con dataset ad alta dimensionalità. L’analisi delle componenti principali permette di mantenere le informazioni rilevanti, riducendo il numero di variabili e contribuendo a creare modelli più generalizzati;
gestione dei dati di addestramento. Il set di dati di training deve essere ben bilanciato e rappresentativo: in questo modo, è possibile scongiurare il fenomeno dell’underfitting. Una raccolta completa di dati in grado di riflettere con precisione la variabilità dell’ambiente di applicazione permette al modello di apprendere informazioni indispensabili alla cattura, in modo adeguato, della complessità del problema. Si consiglia, inoltre, di considerare le tecniche di aumento dei dati per espandere il set di training, al fine di introdurre variazioni utili e realistiche;
ottimizzazione dei parametri, uno step essenziale per evitare l’overfitting. È importante regolare i parametri del modello (tasso di apprendimento o profondità dell’albero, ad esempio) per poter migliorare, in modo significativo, le prestazioni del modello e le sue capacità di generalizzazione;
utilizzo di modelli ensemble, come il Grandient Boosting o il Random Forest. Questi modelli possono contribuire a ridurre overfitting e underfitting in quanto l’ensemble combina previsioni di diversi modelli standard, riducendo la sensibilità a pattern specifici o rumori presenti nei dati di training;
regolarizzazione, una delle tecniche più efficaci per prevenire l’overfitting. Aggiungere termini di regolarizzazione durante l’addestramento del modello significa imporre dei limiti alla sua complessità, scongiurando il rischio che il modello si adatti eccessivamente ai dati di addestramento.

Cookie	Durata	Descrizione
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
_GRECAPTCHA	5 months 27 days	This cookie is set by the Google recaptcha service to identify bots to protect the website against malicious spam attacks.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durata	Descrizione
bcookie	2 years	LinkedIn sets this cookie from LinkedIn share buttons and ad tags to recognize browser ID.
bscookie	2 years	LinkedIn sets this cookie to store performed actions on the website.
lang	session	LinkedIn sets this cookie to remember a user's language setting.
lidc	1 day	LinkedIn sets the lidc cookie to facilitate data center selection.
UserMatchHistory	1 month	LinkedIn sets this cookie for LinkedIn Ads ID syncing.

Cookie	Durata	Descrizione
__kla_id	2 years	Cookie set to track when someone clicks through a Klaviyo email to a website.
SRM_B	1 year 24 days	Used by Microsoft Advertising as a unique ID for visitors.

Cookie	Durata	Descrizione
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_UA-137720848-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gat_UA-35242002-1	1 minute	A variation of the _gat cookie set by Google Analytics and Google Tag Manager to allow website owners to track visitor behaviour and measure site performance. The pattern element in the name contains the unique identity number of the account or website it relates to.
_gcl_au	3 months	Provided by Google Tag Manager to experiment advertisement efficiency of websites using their services.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
_hjAbsoluteSessionInProgress	30 minutes	Hotjar sets this cookie to detect the first pageview session of a user. This is a True/False flag set by the cookie.
_hjFirstSeen	30 minutes	Hotjar sets this cookie to identify a new user’s first session. It stores a true/false value, indicating whether it was the first time Hotjar saw this user.
_hjIncludedInPageviewSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's pageview limit.
_hjIncludedInSessionSample	2 minutes	Hotjar sets this cookie to know whether a user is included in the data sampling defined by the site's daily session limit.
_hjTLDTest	session	To determine the most generic cookie path that has to be used instead of the page hostname, Hotjar sets the _hjTLDTest cookie to store different URL substring alternatives until it fails.
ajs_anonymous_id	1 year	This cookie is set by Segment to count the number of people who visit a certain site by tracking if they have visited before.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Durata	Descrizione
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
_fbp	3 months	This cookie is set by Facebook to display advertisements when either on Facebook or on a digital platform powered by Facebook advertising, after visiting the website.
ANONCHK	10 minutes	The ANONCHK cookie, set by Bing, is used to store a user's session ID and also verify the clicks from ads on the Bing search engine. The cookie helps in reporting and personalization as well.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
fr	3 months	Facebook sets this cookie to show relevant advertisements to users by tracking user behaviour across the web, on sites that have Facebook pixel or Facebook social plugin.
MUID	1 year 24 days	Bing sets this cookie to recognize unique web browsers visiting Microsoft sites. This cookie is used for advertising, site analytics, and other operations.
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

La differenza tra overfitting e underfitting nel machine learning

Modelli underfitting

Modelli overfitting

Conseguenze dell’overfitting e dell’underfitting nell’apprendimento automatico

Tecniche per prevenire l’overfitting e l’underfitting

Desideri parlare con un nostro esperto? Contattaci

Ultime News Analytics

Intelligenza Artificiale (AI): Cos’è, Come funziona, Esempi e Futuro

Data lakehouse: cos’è, architettura e confronto con data warehouse

Data cleansing: Cos’è, Tipologie, Come pulire i dati e i Vantaggi

OLAP: Cos’è, Come funziona, Caratteristiche e Tipologie

ChatGPT: Cos’è, cosa chiedergli, a cosa serve e come usarlo gratis

ETL vs ELT: differenze chiave e il migliore

Data lake vs data warehouse: 10 differenze chiave

Data mart: cos’è, tipologie e struttura

ETL (Extract, Transform, Load): Cos’è e come funziona

Differenza tra dati strutturati, semi strutturati e non strutturati

Cloud Computing: tutto quello che c’è da sapere

NIS2, cos’è e come inserire la direttiva in azienda

Guida SQL Server, tutto quello che devi sapere

Cos’è l’Iperconvergenza, come funziona e differenze

Che cos’è un malware e come affrontarlo?

Cos’è un Ransomware? Ecco come attacca e come puoi proteggerti

Cos’è un server, come funziona, tipologie

Penetration Test: Cos’è, Tipologie e perchè è così importante

Firewall: Cos’è, come funziona e perché è indispensabile per l’azienda

Cyber Security: cos’è, come funziona, minacce

SIEM: ecco cos’è il Security Information and Event Management

Intelligenza Artificiale (AI): Cos’è, Come funziona, Esempi e Futuro

Phishing: cos’è e come prevenirlo

Security Operation Center (SOC): come gestire con efficacia la sicurezza IT

Disaster Recovery: Cos’è, Come funziona, Tipologie, Vantaggi

Cos’è il Vulnerability Assessment

Cookie	Durata	Descrizione
__awc_tld_test__	session	No description
_clck	1 year	No description
_clsk	1 day	No description
_hjSession_1956240	30 minutes	No description
_hjSessionUser_1956240	1 year	No description
AnalyticsSyncHistory	1 month	No description
CLID	1 year	No description
last_pys_landing_page	7 days	No description
last_pysTrafficSource	7 days	No description
li_gc	2 years	No description
pys_first_visit	7 days	No description
pys_landing_page	7 days	No description
pys_session_limit	1 hour	No description
pys_start_session	session	No description
pysTrafficSource	7 days	No description
SM	session	No description available.

Differenze tra overfitting e underfitting

La differenza tra overfitting e underfitting nel machine learning

Modelli underfitting

Modelli overfitting

Conseguenze dell’overfitting e dell’underfitting nell’apprendimento automatico

Tecniche per prevenire l’overfitting e l’underfitting

Desideri parlare con un nostro esperto? Contattaci

Ultime News Analytics