Io su questo invece ritengo più affidabile la serie intera, proprio perché stiamo facendo regressioni lineari su una serie fortemente autocorrelata e con problemi di collinearità allungare il periodo dovrebbe portare a stime meno distorte, anche perché consente di stimare meglio le variabili che hanno andamento ciclico ed evitare problemi accidentali di collinearità presenti nei sottoperiodi.
Inoltre la CO2 ha poca variabilità fino al 1950 e la varianza della stima dei coefficienti è inversamente proporzionale alla variabilità della variabile esplicativa, non si può sperare di avere una buona stima della CO2 usando solo quel periodo. Qui non c'è un problema di overfitting, si usa una serie lunga con poche variabili, il problema è l'autocorrelazione e il rischio di correlazioni spurie.
Sarebbe interessante vedere in termini di previsione quanta differenza emerge nei prossimi anni, con l'aggiunta di nuovi dati in cui le principali variabili dovrebbero muoversi in direzioni opposte si dovrebbe aprire un divario notevole tra le varie ipotesi, che quindi risulterebbero testabili in tempi relativamente brevi (5-10 anni).
Ultima modifica di snowaholic; 16/06/2019 alle 18:29
E' vero il fatto che l'autocorrelazione elevata e la brevità della serie aumentano i problemi di colinearità e incertezza delle stime. Ma gli andamenti ciclici di breve periodo sono molto stabili (proprio perchè stazionari). Il problema sorge con la TSI, perchè lì si tratta di una media mobile di lungo periodo. Quindi in parte ti do ragione. Ma il problema sorge con la co2 perchè come sai meglio di me è una variabile non stazionaria. Se il segnale non sovrasta gli altri nella fase iniziale (cioè nel periodo 1850-1950) poi non ci sono grossi rischi di overfitting. L'overfitting non deriva dalla complessità del modello, che anzi è molto semplice rispetto alla lunghezza della serie, ma dal fatto che la co2 non è stazionaria. Essendo non stazionaria, il modello sovrastima l'effetto. Se noti, quando c'è la serie intera, tutte le altre variabili vengono ridimensionate per ottenere il miglior fit, ma gli effetti delle singole variabili nella realtà sono più forti, e questo si vede dalle oscillazioni reali che sono più ampie nell'andamento reale. In pratica il modello tende troppo ad aggiustare gli scostamenti di tipo eteroschedastico (mi scuso per il termine cacofonico e per la scarsa comprensibilità per i non "esperti"). Questo è un pò un limite di un semplice modello di regressione, in quanto non tiene conto della non stazionarietà.
Ad ogni modo, contavo di inserire anche il modello con tutta la serie, ma con i caveat di cui sopra. Grazie per i suggerimenti e la competenza!![]()
Salve a tutti!
Anche se come ovvio tiene banco nella discussione forumistica la scaldatona prevista per i prossimi giorni (non date retta a GFS!), proverò a continuare la trattazione e le analisi statistiche sull’ipotesi solare “AMOC”.
Prima però, in questo post volevo rispondere a snowholic su due questioni:
Per quanto riguarda l’ENSO e gli effetti tidali (che ricordo, sono effetti gravitazionali dovuti alle variazioni del momento angolare lunare che provocano variazioni di lungo periodo nell'upwelling oceanico), ecco cosa viene fuori con la correlazione incrociata (sulle ordinate il grado di correlazione e sulle ascisse il tempo in mesi). Qualcosa si vede ma sono andamenti oscillatori (d’altra parte entrambe le variaibli mostrano queste oscillazioni periodiche). Notare che qui l’effetto è di provocare la tendenza verso una NINA nel breve perché come ho spiegato prima, i valori del tidal forcing sono invertiti di segno.
cross corr tides enso3.jpg
Riguardo alla critica sempre molto costruttiva di snowholic, relativamente al fatto che sarebbe meglio far lavorare il modello con tutti i dati per la stima della CO2, posto qui anche il plot con tutti i dati inseriti e confrontato con l’andamento simulato a partire dal 1950 in poi e infine con il trend simulato senza CO2 definito come “natural” (in tutto sono 3 equazioni)…
modello TSI IP2 low+ co2 simulaz & all data.jpg
Come si vede, nei modelli con la CO2 c’è una differenza tra plot simulato dal 1950 e plot con tutta la serie. Snowholic suggerisce di considerare solo quello con tutta la serie. Io dal canto mio mi sento più tranquillo con anche la simulazione.
Possono essere di aiuto anche altre diagnostiche statistiche ma per mia esperienza la miglior garanzia è la simulazione… ho sempre lavorato così…anzi, gli "svarioni" che ho preso in passato lavorando con tutti i dati non si contano!
Detto questo, è possibile che le stime, specie per la CO2 partendo dagli anni 50 siano “ballerine”, ma è anche vero che non conta tanto la stima della CO2 in se, quanto piuttosto (AL NETTO degli effetti naturali) se un certo tasso di CO2 riesca a spiegare adeguatamente “il disavanzo”. E qui si vede che lo fa egregiamente, guardate come gradualmente aumenta la forbice tra effetti con CO2 ed effetti "naturali"...Al limite insomma, si potrebbero anche considerare solo gli effetti naturali in periodi “non sospetti” e vedere per difetto quanto è effettivamente il gap causato dall’effetto antropico lungo la serie storica simulata.
L’altra questione è che essendo la CO2 una variabile non stazionaria, c’è il rischio di avere un modello “super-confidente” rispetto alle reali incertezze che scaturiscono proprio dalla non stazionarietà. Al punto che se io provo a fare un modello ARIMA “automatico” che utilizza vari algoritmi, questo sceglie i predittori più “solidi”, mentre la CO2 viene del tutto scartata!Sembra un paradosso ma è così…E’ chiaro che comunque noi ci affidiamo anche alla fisica e quindi in questo caso dovremmo ragionevolmente tenere in conto un suo effetto.
Ad ogni modo, il punto centrale è che si vede che a seconda di come vengano trattati i dati varia molto la sensibilità per un raddoppio di CO2. Con la simulazione siamo a +0.65 mentre con tutta la serie la stima sale a +1.17. Naturalmente stiamo parlando dell’ipotesi AMOC, che in effetti abbassa leggermente le stime (utilizzando tutti i dati la sensibilità è +1.26 nel caso dell’ipotesi “classica”). D’altra parte abbiamo visto nei precedenti post come il miglior modello, seppur di poco, sia in effetti proprio quello basato sull’ipotesi AMOC. Nulla di certo, è solo una possibile ipotesi che comunque sembra lavorare benino.
Una parola sul valore molto basso di sensibilità climatica di +0.65 ottenuto con la simulazione:
Qui stiamo parlando dell’effetto antropico in toto, dunque è probabile che altri effetti (inquinamento da solfati in primis) tendano a “silenziare” almeno in parte l’effetto della CO2 come forzante in se e per se. Ne combiniamo talmente tante su questo pianeta che è facile che la risultante dell’effetto antropico non sia solo il puro riscaldamento (e questo ce lo dicono anche le stime e le incertezze fornite dall’IPCC). Infatti, riguardo alla differenza tra la simulazione dagli anni 50 e la stima ottenuta con tutti i dati, può anche darsi che in passato ci sia stato un maggior contributo dei solfati rispetto ad oggi e che questo al netto possa giustificare la differenza nel grado di sensibilità. Mia modesta opinione, credo soprattutto ad un problema di eccessivo aggiustamento della serie per minimizzare gli scarti quadratici (così funziona un modello lineare) più che ad un reale cambiamento nel tipo di emissioni antropiche, sicchè con tutti i dati potrebbe venire un pò sovrastimato l'effetto della CO2.
Considerando le incertezze che ci sono anche nella ricostruzione dei valori di temperatura del passato, leggeri scostamenti nella simulazione sono forse anche fisiologici e dunque sarebbe meglio non “forzare” il modello per ottimizzare il fit.Del resto, come si può vedere (linea verde) l’andamento complessivo viene più che bene anche nella simulazione…
Malgrado questo, sembra che comunque la TSI, almeno in base a queste ricostruzioni, dia qualche problemino di sovrastima delle T nel periodo ‘50-90…
...non è che niente niente la “forzante” solare operi soprattutto attraverso qualche altro fattore o meccanismo?
Ma questo lo vedremo nella prossima puntata!![]()
Questo è assolutamente normale, se una variabile è periodica e l'altra ha una correlazione a lag 0 o poco più (come in questo caso) ti usciranno anche delle correlazioni spurie in corrispondenza di ogni frequenza in cui la funzione di autocorrelazione della variabile mareale è diversa da zero, se vuoi puoi controllare. Da quel grafico mi sembra una relaziona abbastanza netta, sarebbe interessante vedere in termini di previsione come funziona prendendo come lag il primo massimo del correlogramma dopo lo zero.
Sul ragionamento generale sono d'accordo, però la simulazione ha un grosso difetto, se ti calcoli i residui dovrebbe essere piuttosto evidente che c'è un trend nei residui, ovvero la serie simulata ha un trend inferiore a quella reale. Ciò significa che il modello simulato sottostima il trend e le stime probabilmente sono distorte. A livello diagnostico avere un trend nei residui è piuttosto grave, in questo caso la soluzione più logica è che sia sottostimato il parametro della CO2. Se non ti fidi del mio occhio puoi provare a vedere quei residui quanto sono correlati con la serie completa della CO2.
Riguardo alla critica sempre molto costruttiva di snowholic, relativamente al fatto che sarebbe meglio far lavorare il modello con tutti i dati per la stima della CO2, posto qui anche il plot con tutti i dati inseriti e confrontato con l’andamento simulato a partire dal 1950 in poi e infine con il trend simulato senza CO2 definito come “natural” (in tutto sono 3 equazioni)…
modello TSI IP2 low+ co2 simulaz & all data.jpg
Come si vede, nei modelli con la CO2 c’è una differenza tra plot simulato dal 1950 e plot con tutta la serie. Snowholic suggerisce di considerare solo quello con tutta la serie. Io dal canto mio mi sento più tranquillo con anche la simulazione.
Possono essere di aiuto anche altre diagnostiche statistiche ma per mia esperienza la miglior garanzia è la simulazione… ho sempre lavorato così…anzi, gli "svarioni" che ho preso in passato lavorando con tutti i dati non si contano!
Detto questo, è possibile che le stime, specie per la CO2 partendo dagli anni 50 siano “ballerine”, ma è anche vero che non conta tanto la stima della CO2 in se, quanto piuttosto (AL NETTO degli effetti naturali) se un certo tasso di CO2 riesca a spiegare adeguatamente “il disavanzo”. E qui si vede che lo fa egregiamente, guardate come gradualmente aumenta la forbice tra effetti con CO2 ed effetti "naturali"...Al limite insomma, si potrebbero anche considerare solo gli effetti naturali in periodi “non sospetti” e vedere per difetto quanto è effettivamente il gap causato dall’effetto antropico lungo la serie storica simulata.
Proprio quella forbice tra gli effetti tipo CO2 e quelli naturali fornisce un ottimo test, nei prossimi anni potrebbe esserci una forte divergenza tra la simulazione e i dati reali se l'effetto antropico è sottostimato. L'aspetto cruciale per cui ritengo molto importanti gli ultimi dati è proprio questo divario crescente tra forzanti naturali e antropiche, che consente di migliorare molto le stime grazie ad una riduzione della collinearità. Questo fenomeno sarà amplificato nei prossimi anni ma è già presente nei dati fino ad oggi, secondo me è sbagliato non approfittarne. Ma ne possiamo riparlare tra 3-4 anni
Se metti una componente integrata nel modello ARIMA il trend viene spiegato con quello, ovvio che venga meno la CO2 che ha pochissima variabilità di breve periodo.
L’altra questione è che essendo la CO2 una variabile non stazionaria, c’è il rischio di avere un modello “super-confidente” rispetto alle reali incertezze che scaturiscono proprio dalla non stazionarietà. Al punto che se io provo a fare un modello ARIMA “automatico” che utilizza vari algoritmi, questo sceglie i predittori più “solidi”, mentre la CO2 viene del tutto scartata!Sembra un paradosso ma è così…E’ chiaro che comunque noi ci affidiamo anche alla fisica e quindi in questo caso dovremmo ragionevolmente tenere in conto un suo effetto.
Con un modello di questo tipo noi stiamo valutando la sensibilità climatica di breve periodo, non quella di equilibrio. L'inerzia termica degli oceani nel breve periodo rallenta il riscaldamento e quindi serve un periodo di assestamento di alcuni millenni prima di osservare l'intero effetto di una variazione delle concentrazioni.
Ad ogni modo, il punto centrale è che si vede che a seconda di come vengano trattati i dati varia molto la sensibilità per un raddoppio di CO2. Con la simulazione siamo a +0.65 mentre con tutta la serie la stima sale a +1.17. Naturalmente stiamo parlando dell’ipotesi AMOC, che in effetti abbassa leggermente le stime (utilizzando tutti i dati la sensibilità è +1.26 nel caso dell’ipotesi “classica”). D’altra parte abbiamo visto nei precedenti post come il miglior modello, seppur di poco, sia in effetti proprio quello basato sull’ipotesi AMOC. Nulla di certo, è solo una possibile ipotesi che comunque sembra lavorare benino.
Una parola sul valore molto basso di sensibilità climatica di +0.65 ottenuto con la simulazione:
Qui stiamo parlando dell’effetto antropico in toto, dunque è probabile che altri effetti (inquinamento da solfati in primis) tendano a “silenziare” almeno in parte l’effetto della CO2 come forzante in se e per se. Ne combiniamo talmente tante su questo pianeta che è facile che la risultante dell’effetto antropico non sia solo il puro riscaldamento (e questo ce lo dicono anche le stime e le incertezze fornite dall’IPCC). Infatti, riguardo alla differenza tra la simulazione dagli anni 50 e la stima ottenuta con tutti i dati, può anche darsi che in passato ci sia stato un maggior contributo dei solfati rispetto ad oggi e che questo al netto possa giustificare la differenza nel grado di sensibilità. Mia modesta opinione, credo soprattutto ad un problema di eccessivo aggiustamento della serie per minimizzare gli scarti quadratici (così funziona un modello lineare) più che ad un reale cambiamento nel tipo di emissioni antropiche, sicchè con tutti i dati potrebbe venire un pò sovrastimato l'effetto della CO2.
Considerando le incertezze che ci sono anche nella ricostruzione dei valori di temperatura del passato, leggeri scostamenti nella simulazione sono forse anche fisiologici e dunque sarebbe meglio non “forzare” il modello per ottimizzare il fit.Del resto, come si può vedere (linea verde) l’andamento complessivo viene più che bene anche nella simulazione…
Malgrado questo, sembra che comunque la TSI, almeno in base a queste ricostruzioni, dia qualche problemino di sovrastima delle T nel periodo ‘50-90…
...non è che niente niente la “forzante” solare operi soprattutto attraverso qualche altro fattore o meccanismo?
Ma questo lo vedremo nella prossima puntata!![]()
Secondo l'IPCC questa sensibilità dovrebbe essere di tra 1 °C and 2.5 °C, quindi la stima sui dati completi è nella parte bassa del range mentre quella con i dati fino al 1950 è un po' sotto ma non tantissimo, corrisponderebbe ad una sensibilità di equilibrio poco sopra un grado (l'intervallo IPCC è di 1,5-4,5 per questa sensibilità).
P.S. Scusate se sono incomprensibile, è difficile comunicare aspetti tecnici come quelli che stiamo discutendo in maniera sintetica. Se servono spiegazioni basta chiedere.![]()
Ultima modifica di snowaholic; 21/06/2019 alle 20:05
Ecco, ne approfitto io.
Copernicus e tu parlate spesso di lag, che sarebbero i ritardi. Si intende cioè che gli effetti sul clima di una data variabile si manifestano con dei ritardi di n anni rispetto al momento in cui la variabile si esplica e cambia?
Inoltre che si intende con correlazione spurie?
Grazie già in anticipo![]()
Il lag è esattamente quello che hai scritto tu, l'effetto della variabile esplicativa si manifesta con un ritardo di n periodi.
n però non sono necessariamente anni ma la periodicità della serie (mesi credo in questo caso).
La correlazione spuria è una relazione apparente tra due variabili che non sottende una causalità, può essere dovuta ad una terza variabile non osservata correlata con entrambe oppure completamente casuale.
Il caso che ho citato prima (un po' contorto in verità) è un esempio del primo caso, visto che la variabile delle maree è periodica quindi correlata con se stessa e contemporaneamente correlata con ENSO (con ritardo minimo), anche ENSO risulta correlato con i ritardi delle maree ma questo non implica che esista davvero un effetto ritardato delle maree su ENSO.
Esempi divertenti di relazioni spurie le puoi vedere su questo sito. In medicina dovete stare molto attenti a questo tipo di relazioni.
Spurious Correlations
Grazie mille Snowaholic.
Ho fatto l'esame di statistica medica, ma sinceramente il livello di statistica che studiai è molto più basilare di quello del thread.
Poichè comunque mi interessa saperne di più, potresti consigliarmi qualche manuale di statistica abbastanza alla portata di un autodidatta per aprirmi meglio alla materia? Nulla di eccessivamente complesso, giusto per avere una base sufficiente a capire qualche discorso in più.![]()
Fantastico Copernicus.
Quindi tu propendi per un'ipotesi multifattoriale in cui la CO2 ha un peso inferiore alle stime eseguite?
Notavo che hai anche inserito nei tuoi tre trend anche un'area "previsionale", in quanto non finiscono nel presente, ma provi a estrapolare un andamento futuro. Nel caso del trend in cui è inserita la CO2, noto come dal 2020 al 2045 le temperature resterebbero stabili. In proposito (non so se lo avessi scritto, nel caso mi scuso), hai considerato che in quel periodo di 25 anni la CO2 in atmosfera potrebbe aumentare anche di 100 ppm? O il fatto che l'andamento fino al 2045 sembri quasi "piatto" deriva dal fatto che hai usato la stima della CO2 del presente supponendo resti uguale (il che spiegherebbe l'assenza di ulteriori incrementi)?
Certo, si parla sempre di ipotesi multifattoriale; anzichè parlare di "rumore naturale" qui si parla di cause naturali, in cui la co2 interviene gradualmente nella scena. In un certo senso sto proponendo uno scenario che è inferiore certamente alle stime dell'IPCC (che se non erro danno una valutazione di circa 2-3 °C di sensibilità climatica), ma anche inferiore alle stime che lo stesso modello fornisce quando funziona con tutti i dati. Questo perchè il modello che io utilizzo (la regressione lineare) tende per sua natura a sovrastimare i trend lineari. Quindi se il modello simula altrettanto bene l'andamento delle temperature a partire dal 1950, reputo più attendibile il modello che in base alle stime fornite per il periodo 1850-1950 (quei numeretti accanto al nome della variabile) ricostruisce i dati fino al 2040...spero di esser stato comprensibile!
si tratta solo di un ipotesi naturalmente.
Quanto alla CO2, l'effetto è previsto ovviamente in salita, magari fossimo così saggi da far rimanere il livello costante da qui in poi!
A inizio TD si vede come è modellizzato l'effetto con la sola CO2...
quindi senza la CO2 ora la T globale diminuirebbe abbastanza e si porterebbe in uno o due decenni su valori anteriori al 1980...questo si vede bene nel trend in grigetto dove sono riportati solo gli effetti naturali...![]()
Approccio interessante: in poche parole propendi per un ruolo più marginale della CO2, non nel senso che sia insignificante, ma che è secondario rispetto ai fattori naturali. L'esatto opposto a quanto propone l'IPCC.
Per cui, dimmi se ho capito bene, la stima che fai della sensibilità climatica per raddoppio della CO2 è corretta anche rispetto al trend della regressione lineare che già di suo tende a sovrastimare?![]()
Segnalibri