
Originariamente Scritto da
CausaEffetto
Sempre parlando di "overfitting" nel contesto OPI vorrei provare a condividere qualche speculazione che mi sono fatto nel corso di questi mesi rileggendo più volte il paper sulla ricerca.
Voglio esemplificare circa questo concetto di "overfitting" rispetto ai dati del campione perchè spesso si usa questo termine in modo improprio e per far compredere a quanti faticano a capire come sia possibile l'esistenza di questo problema in un contesto di analisi numerica in ambito statistico.
Partiamo da un punto fisso. L'OPI è la risultante di due valori, il "grado di ellitticizzazione del
VP" e "l'inclinazione dell'asse del
VP".
Dal momento che il "grado di ellitticizzazione del
VP" è calcolato come anomalia di geopotenziale tra polo, nord asia e nord america, già questo valore contiene intrinsicamente un'informzione relativa all'asse del
VP perchè è calcolato in riferimento ad un asse.
L'informazione fornita dal parametro "inclinazione dell'asse del
VP" potrebbe essere ininfluente (ed omessa ??) e potrebbe contribuire ad autoadattare il valore OPI ai dati osservati, cioè fungere da mero rettificatore di valori.
Da qui potrebbe nascere un problema di overfitting.
Come vedete ho utilizzato condizionali e dubitativi ma credo che non si possa sottovalutare questo aspetto dell'overfitting e reputo che sia materia di approfondimento nel caso OPI.
Tra l'altro, durante la diretta di ottobre 2013 sulla formazione dell'indice OPI nel corso dei 31 giorni del mese osservavo come il parametro "inclinazione asse del
VP" assumeva quasi sempre valore nullo e alla fine, la risultante del valore numerico OPI era fornita quasi esclusivamente dal paramtero "grado di ellitticizzazione".

Segnalibri