Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
Sempre parlando di "overfitting" nel contesto OPI vorrei provare a condividere qualche speculazione che mi sono fatto nel corso di questi mesi rileggendo più volte il paper sulla ricerca.

Voglio esemplificare circa questo concetto di "overfitting" rispetto ai dati del campione perchè spesso si usa questo termine in modo improprio e per far compredere a quanti faticano a capire come sia possibile l'esistenza di questo problema in un contesto di analisi numerica in ambito statistico.

Partiamo da un punto fisso. L'OPI è la risultante di due valori, il "grado di ellitticizzazione del VP" e "l'inclinazione dell'asse del VP".

Dal momento che il "grado di ellitticizzazione del VP" è calcolato come anomalia di geopotenziale tra polo, nord asia e nord america, già questo valore contiene intrinsicamente un'informzione relativa all'asse del VP perchè è calcolato in riferimento ad un asse.

L'informazione fornita dal parametro "inclinazione dell'asse del VP" potrebbe essere ininfluente (ed omessa ??) e potrebbe contribuire ad autoadattare il valore OPI ai dati osservati, cioè fungere da mero rettificatore di valori.

Da qui potrebbe nascere un problema di overfitting.

Come vedete ho utilizzato condizionali e dubitativi ma credo che non si possa sottovalutare questo aspetto dell'overfitting e reputo che sia materia di approfondimento nel caso OPI.

Tra l'altro, durante la diretta di ottobre 2013 sulla formazione dell'indice OPI nel corso dei 31 giorni del mese osservavo come il parametro "inclinazione asse del VP" assumeva quasi sempre valore nullo e alla fine, la risultante del valore numerico OPI era fornita quasi esclusivamente dal paramtero "grado di ellitticizzazione".

Sì. E c'è anche un'altra questione ancora molto aperta, secondo me. Pochi ne hanno parlato, ma vorrei evidenziare il fatto che tutto l'impianto teorico si basa su un'assunzione analitica prettamente descrittiva che dovrebbe permettere di prevedere un valore numerico fisicamente misurabile quale l'AO. Ora, tralasciando quel che è già stato detto a proposito della natura dinamica, caotica, non lineare di un sistema nel quale i processi stocastici sono prevalenti, elaborare un modello che permetta di rappresentare un fenomeno fisico misurabile (variabile prognostica) richiede che la variabile analitica sia a sua volta una quantità fisica misurabile (variabile diagnostica). Nell'elaborazione dell'OPI, trovo che ci siano un po' troppe assunzioni di natura descrittivo/soggettiva (grado di ellitticizzazione del VP e inclinazione dell'asse del VP ad ottobre) analizzate su corse modellistiche. Ci sta che nell'analisi di parametri predittivi ci possa essere una certa dose di descrizione soggettiva (quando, per es., si considerano localizzazione di pattern delle SST), ma in questo caso la cosa mi pare un po' troppo prevalente. Per es. l'indice SAI di Cohen è una variabile diagnostica osservabile e fisicamente misurabile.
Penso che la cosa possa essere estesa, una sorta di work in progress. Che però cozza fortemente con certe enfasi esponenziali che leggevo a tal proposito lo scorso autunno, ma come dicevo tempo fa io non sono esperto di (e non mi interessa per nulla il) marketing teleconnettivo, per cui non aggiungo altro su questo aspetto della questione.