Citazione Originariamente Scritto da snowaholic Visualizza Messaggio
Io su questo invece ritengo più affidabile la serie intera, proprio perché stiamo facendo regressioni lineari su una serie fortemente autocorrelata e con problemi di collinearità allungare il periodo dovrebbe portare a stime meno distorte, anche perché consente di stimare meglio le variabili che hanno andamento ciclico ed evitare problemi accidentali di collinearità presenti nei sottoperiodi.

Inoltre la CO2 ha poca variabilità fino al 1950 e la varianza della stima dei coefficienti è inversamente proporzionale alla variabilità della variabile esplicativa, non si può sperare di avere una buona stima della CO2 usando solo quel periodo. Qui non c'è un problema di overfitting, si usa una serie lunga con poche variabili, il problema è l'autocorrelazione e il rischio di correlazioni spurie.

Sarebbe interessante vedere in termini di previsione quanta differenza emerge nei prossimi anni, con l'aggiunta di nuovi dati in cui le principali variabili dovrebbero muoversi in direzioni opposte si dovrebbe aprire un divario notevole tra le varie ipotesi, che quindi risulterebbero testabili in tempi relativamente brevi (5-10 anni).
E' vero il fatto che l'autocorrelazione elevata e la brevità della serie aumentano i problemi di colinearità e incertezza delle stime. Ma gli andamenti ciclici di breve periodo sono molto stabili (proprio perchè stazionari). Il problema sorge con la TSI, perchè lì si tratta di una media mobile di lungo periodo. Quindi in parte ti do ragione. Ma il problema sorge con la co2 perchè come sai meglio di me è una variabile non stazionaria. Se il segnale non sovrasta gli altri nella fase iniziale (cioè nel periodo 1850-1950) poi non ci sono grossi rischi di overfitting. L'overfitting non deriva dalla complessità del modello, che anzi è molto semplice rispetto alla lunghezza della serie, ma dal fatto che la co2 non è stazionaria. Essendo non stazionaria, il modello sovrastima l'effetto. Se noti, quando c'è la serie intera, tutte le altre variabili vengono ridimensionate per ottenere il miglior fit, ma gli effetti delle singole variabili nella realtà sono più forti, e questo si vede dalle oscillazioni reali che sono più ampie nell'andamento reale. In pratica il modello tende troppo ad aggiustare gli scostamenti di tipo eteroschedastico (mi scuso per il termine cacofonico e per la scarsa comprensibilità per i non "esperti"). Questo è un pò un limite di un semplice modello di regressione, in quanto non tiene conto della non stazionarietà.

Ad ogni modo, contavo di inserire anche il modello con tutta la serie, ma con i caveat di cui sopra. Grazie per i suggerimenti e la competenza!