Climatologia & Statistica

**Borat** · 26/07/2013, 09:50

Cmq mi viene in mente una considerazione extra che mi sembra abbastanza finale.

Se nella realtà, nella popolazione dei dati c'è autocorrelazione che mina le stime intervallari di B, al crescere del campione questa correlazione diverrà più e più significativa. Cioè data una blanda correlazione seriale nei residui su popolazione, è più probabile trovarla non-significativa in un piccolo campione che in un grande campione. Per cui ampliare il campione ce la fa trovare sempre più significativa.

La questione mi pare ridiventare "how large is large enough". Quante osservazioni mi servono per compensare tramite la correttezza asintotica la perdita della minima varianza? Siamo convinti che minime variazioni sulla quarta cifra decimale riflettano la bontà delle stime quando non si ha la minima idea di che cosa succeda nella popolazione dei dati piuttosto che nel campione?

**Borat** · 26/07/2013, 10:07

Originariamente Scritto da CausaEffetto

Il mio ragionamento è molto semplice ... a fronte di un R^2 = 0,98 appunto perché non puoi sapere quanto è il contributo reale della correlazione del solo dato termico, quanto è quello dovuto a stagionalità e quanto è quello dovuto a trend allora non puoi concludere che quel 0,98 è sicuramente soddisfacente perchè nettizzato di quei contributi potrebbe anche scendere allo 0,75 ... chi lo sa

Occhio che non è proprio proprio così. Introducendo variabili esplicative supplementari R^2 sale sempre o al più rimane invariato. Ma non diminuisce. Se introduci passo-passo nuove variabili indipendenti mantenendo nel modello le indipendenti precedentemente immesse, R^2 non cala mai.

Dato un modello y=a+ b1+b2+b3+errore può succedere che diminuisca la frazione di varianza spiegata da una specifica variabile diciamo b1, perché è stata assorbita da altre variabili coome b2 e b3 le quali sono anche correlate con b1.
C'è l'esempio celeberrimo della relazione tra le cicogne e il tasso di fecondità. E' ben noto da ricerche del dopoguerra che tradizionalmente dove si osservavano più nidi di cicogne nascevano più bambini per famiglia. E' noto anche, però, che le cicogne tendono a fare il nido più in campagna che in città. Altra cosa nota è che in campagna nascevano più bambini che in città. Introducendo nel modello una variabile esplicativa (tipo una dummy 0/1) per l'ambito urbano vs rurale, la relazione tra cicogne e bambini spariva ed emergeva chiara la relazione tra ambito rurale vs urbano e fecondità.

C'è un altro celebre esempio simile, relativo al consumo di gelato e voto radicale. Se per comune italiano diciamo negli anni Settanta e primi Ottanta correliamo il consumo procapite di gelato e la percentuale di voto radicale alle elezioni successiva, troviamo puntualmente che i mangiatori di gelato votavano radicale più dei non-mangiatori di gelato. Dov'è l'inghippo? E' chiaro che non è il gelato a far votare in un modo o nell'altro, c'è una terza variabile che influenza sia il voto radicale sia il consumo di gelato che fa comparire una relazione spuria, la quale sparisce quando si introduce questa terza variabile.

**CausaEffetto** · 26/07/2013, 10:45

Originariamente Scritto da Borat

Occhio che non è proprio proprio così. Introducendo variabili esplicative supplementari R^2 sale sempre o al più rimane invariato. Ma non diminuisce.

Appunto. A noi interessa mettere in relazione, ad esempio, la Tma di una stazione A e la Tmax di una stazione B, come da tabella esemplificativa:

A	B
31	29
30	27
28	25
29	26
27	25
26	24
27	26
30	28
31	30

A noi interessa la correlazione che c'e' tra i valori 25,26,27,28,29,30, ecc..di A e i rispettivi valori di B, cioè per A=x allora B=y.

Ed otteniamo un R^2, ad esempio 0,8. Questo è il valore che a noi interessa.

Se, come dici anche tu, subentrano variabili esplicative supplementari, tipo stagionalità, trend, ecc ... allora quel R^2 aumenta e diventa ad esempio 0,9. Quando io stimo R^2 nella regressione lineare tra A e B ottengo il corrispondente 0,9 perchè influenzato da variabili esplicative supplementari, Ma la vera correlazione tra i valori di Tmax sarebbe quello 0,8. Non so se riesco a spiegarmi

**Borat** · 26/07/2013, 12:40

Originariamente Scritto da CausaEffetto

Appunto. A noi interessa mettere in relazione, ad esempio, la Tma di una stazione A e la Tmax di una stazione B, come da tabella esemplificativa:

A	B
31	29
30	27
28	25
29	26
27	25
26	24
27	26
30	28
31	30

A noi interessa la correlazione che c'e' tra i valori 25,26,27,28,29,30, ecc..di A e i rispettivi valori di B, cioè per A=x allora B=y.

Ed otteniamo un R^2, ad esempio 0,8. Questo è il valore che a noi interessa.

Se, come dici anche tu, subentrano variabili esplicative supplementari, tipo stagionalità, trend, ecc ... allora quel R^2 aumenta e diventa ad esempio 0,9. Quando io stimo R^2 nella regressione lineare tra A e B ottengo il corrispondente 0,9 perchè influenzato da variabili esplicative supplementari, Ma la vera correlazione tra i valori di Tmax sarebbe quello 0,8. Non so se riesco a spiegarmi

...forse ti riferisci alla varianza spiegata dalla singola variabile indipendente, diciamo al suo contributo alla varianza spiegata.
Mi risulta che esistano anche fenomeni di relazioni sopprimenti, per cui tra x e y trovo relazione zero, ma se introduco nella regressione la variabile z allora compare la relazione tra x e y. Non mi sono mai imbattuto in questo, ricordo però di aver assistito alla presentazione di un corso di regressione nella quale l'instructor ha detto che avrebbe presentato come gestire casi simili e che non si trattava di roba banale.

Tipicamente mi aspetto più facilmente che l'introduzione di nuove variabili esplicative aumenti la varianza spiegata totale (l'R^2 del modello) ma riduca la varianza spiegata di ciascuna singola variabile, perché risolve man mano relazioni spurie varie e quote della varianza spiegata di x1 su y si spostano da x1 a x2, per cui la varianza spiegata di x1 diminuisce.
Una volta per assegnare un peso relativo a ciascuna variabile indipendente si usava standardizzare tutto. Se sottrai la media a ogni variabile e poi la dividi per la sua deviazione standard, ottieni un modello di regressione standardizzata senza intercetta i cui coefficienti una volta si indicavano come pesi relativi, depurati dall'unità di misura, ciascuno dei quali veniva interpretato se ricordo bene come radice di R^2 imputabile alla variabile. Alcuni software come SPSS offrono l'opzione di stampare i coefficienti con tutte variabili standardizzate.
Poi la procedura è stata criticata con l'argomento che corr(xy)=cov(xy)/(sx*sy), per cui si mischiavano effetti di covarianza con effetti di dispersione e l'interpretazione del contributo alla varianza spiegata risultava non diretto.
Tutto questo per dire che una quota della correlazione tra la massima della mia stazione A e la massima della mia stazione B può dipendere da fattori stagionali; non è detto che introducento la stagionalità la correlazione fra le due stazioni si esalti. Può anche attenuarsi. Ma si può sempre provare con un po' di stazioni per vedere che cosa succede.

gps75 · 26/07/2013, 13:04

Originariamente Scritto da Borat

Diciamo che se ti accontenti del risultato numerico nel campione disponibile e preferisci non chiederti in termini di stima, cioè di relazione tra risultato campionario e vera relazione nei dati che cosa succeda va bene così. Nota però che questa prospettiva ha carattere puramente descrittivo e non consente inferenza.
In pratica, se hai un buco nei dati e vuoi stimare i valori di quel giorno usando i parametri del modello, non puoi giustificare inferenzialmente quello che fai. Non puoi neanche estrapolare, cioè stimare valori ipoteticamente osservabili al di fuori del range campionario coperto da osservazioni reali (passato, futuro ecc), perché si tratta di atti di inferenza.
Il che poi è il problema che ha spinto gli economisti a sviluppare la massiccia quantità di procedure e test per dati serialmente correlati che hanno introdotto nella regressione. Si va un po' male a dire a uno Stato che deve fare un certo investimento da miliardi di dollari o che non lo deve fare, perché a occhio risulta così. Poter esibire qualche equazione con soddisfatti i suoi assunti è più convincente. \as\

Sulla questione dell'estrapolazione dei dati fuori dal dominio di calcolo hai ragione, rischi di commettere errori significativi, ma se nelle mie 2000 e passa misure copre il range -20 - +38 e cerco di estrapolare il dato mancante della stazione adiacente che sta in quel dominio allora l'errore che commetto è minimo e la curva di regressione rappresenta ottimamente il problema.

Sulla questione del passato e del futuro ho però un'osservazione da fare. Il mio professore di fisica dell'ambiente diceva sempre: studiare il passato per comprendere il futuro.
Ora spiego il suo pensiero. Il clima lo si può scomporre a grandi linee come una serie di periodicità di lungo e di breve periodo. Le periodicità di lungo periodo sono dovute alla variazione dell'assetto della Terra rispetto al Sole e le scale sono dell'ordine di migliaia di anni o più. Quelle nel breve sono essenzialemene la stagionalità, i cicli delle macchie solari più altri fattori non ancora chiariti. Se prendi campioni da carotaggi dei ghiacci polari o da sedimenti marini (tempi sacala di miglaiia di anni, e anni rispettivamente) e dei dati grezzi ottenuti ne fai una SSA (singular specrum analisys), ottieni che tutti queste periodicità escono fuori.
A partire da queste periodicità è di conseguenza possibile stimare l'andamento del clima nel futuro. Questo metodo è servito tra le altre cose a stimare il contributo entropico nel clima (Judith Lean et.al).
Quindi, per farla breve, con opportune analisi si può andare oltre al periodo di misurazione, ma le cose vanno fatte con cura e cautela. Se si rimane all'interno del dominio invece non vedo particolari problemi, se compari minime con minime, massime con massime, e in generale rilavezioni omologabili con altre rilevazioni, i risultati che ottieni non necessitano di particolari trattamenti.

Il tuo ragionamento in generale è corretto, ma a patto che si parli di rilevazioni su serie intrinsecamente molto differenti tra di loro (massime con minime, patate con mele, dati economici in generale). Se tu parli invece di rilevazioni omologhe la previsione di un dato a partire da un altro di una serie adiacente è assolutamente affare prevedibile e stimabile con cura senza necessità di scomodare troppa matematica.

gps75 · 26/07/2013, 13:12

Originariamente Scritto da CausaEffetto

Appunto. A noi interessa mettere in relazione, ad esempio, la Tma di una stazione A e la Tmax di una stazione B, come da tabella esemplificativa:

A	B
31	29
30	27
28	25
29	26
27	25
26	24
27	26
30	28
31	30

A noi interessa la correlazione che c'e' tra i valori 25,26,27,28,29,30, ecc..di A e i rispettivi valori di B, cioè per A=x allora B=y.

Ed otteniamo un R^2, ad esempio 0,8. Questo è il valore che a noi interessa.

Se, come dici anche tu, subentrano variabili esplicative supplementari, tipo stagionalità, trend, ecc ... allora quel R^2 aumenta e diventa ad esempio 0,9. Quando io stimo R^2 nella regressione lineare tra A e B ottengo il corrispondente 0,9 perchè influenzato da variabili esplicative supplementari, Ma la vera correlazione tra i valori di Tmax sarebbe quello 0,8. Non so se riesco a spiegarmi

Ma il valore misurato è la somma di molti effetti, non separabili tra di loro. Tu conosci la somma dei contributi, non è possibile sapere quanti di questi hanno sommato calore e quanti sottratto rispetto al valore massimo atteso (che nemmeno qui puoi conoscere). Alla fine quello che puoi fare è conoscere l'R^2 di tutti i contributi e su quelli ragionare.

Tanto per capire, cosa prenderesti come baseline per la temperatura massima di un giorno? quali sarebbero i contributi che puoi misurare con certezza oltre alla baseline (bolla di calore, copertura nuvolosa, ...) che sommati alla baseline stessa ti danno la Tmax rilevata?

**CausaEffetto** · 26/07/2013, 13:30

In risposta definitiva a Borat e gps75.

Come emerge dalla discussione non è così semplice l'approccio al problema quindi in sostanza il mio pensiero è di prendere sempre con le pinze i risultati ottenuti quando si tenta di stimare intere serie storiche...ancor meglio evitare di fare tutto ciò

Personalmente ho utlizzato la regressione lineare solamente per stimare pochi valori mancanti all'intero di una serie storica, non di certo una intera serie storica (e così mi rivolgo all'amico che ha iniziato la discussione ponendo la sua questione di ricostruzione, fuori campione, partendo da una base dati troppo insufficiente). Avevo approcciato la questione nel tentativo di ricostruire l'intera serie temporale di Parma, cioè dal 1753, partendo dai dati del dataset Best di Berkeley ma ho abbandonato il progetto nonostante valori di R^2 soddisfacenti dal momento che non possiedo le conoscenze sufficienti per entrare nel merito delle questioni che sono state sollevate

gps75 · 26/07/2013, 14:57

Originariamente Scritto da CausaEffetto

In risposta definitiva a Borat e gps75.

Come emerge dalla discussione non è così semplice l'approccio al problema quindi in sostanza il mio pensiero è di prendere sempre con le pinze i risultati ottenuti quando si tenta di stimare intere serie storiche...ancor meglio evitare di fare tutto ciò

Personalmente ho utlizzato la regressione lineare solamente per stimare pochi valori mancanti all'intero di una serie storica, non di certo una intera serie storica (e così mi rivolgo all'amico che ha iniziato la discussione ponendo la sua questione di ricostruzione, fuori campione, partendo da una base dati troppo insufficiente). Avevo approcciato la questione nel tentativo di ricostruire l'intera serie temporale di Parma, cioè dal 1753, partendo dai dati del dataset Best di Berkeley ma ho abbandonato il progetto nonostante valori di R^2 soddisfacenti dal momento che non possiedo le conoscenze sufficienti per entrare nel merito delle questioni che sono state sollevate

L'argomento serie storiche in effetti è molto complesso da trattare, ti dò perfettamente ragione

**Stefano83** · 26/07/2013, 17:45

intanto ringrazio chi è intervenuto con i propri contributi, ho già scaricato il materiale postato da Lorenzo e Borat (molto interessante il Gujarati anche se richiede uno studio approfondito).

Allora, per quanto mi riguarda ho calcolato varianze e scarti quadratici medi per ciasuna retta di regressione effettuando poi per ciascuna il test di Durbin-Watson.
Riguardo i grafici mensili e stagionali è presente anche la media per ciascuno di questi valori (i primi due MIN/MAX vanno considerati alle ultime 2 colonne anzichè alle prime, scherzi del copia/incolla da Excel):

Grafico annuale

Periodo	N. dati	Varianza		Scarto Q.M.		Test DW
MIN	MAX	MIN	MAX	MIN	MAX
Anno	185	0,67440	0,28738	0,82122	0,53608	1,13726	1,03233

Grafici mensili

Periodo	N. dati	Varianza		Scarto Q.M.		Test DW
MIN	MAX	MIN	MAX	MIN	MAX
Gennaio	16	0,44939	0,15876	0,67036	0,39845	0,86472	0,54718
Febbraio	18	0,33871	0,20089	0,58199	0,44820	1,19772	0,50497
Marzo	15	0,17810	0,19765	0,42202	0,44457	0,82290	1,06531
Aprile	15	0,40411	0,20514	0,63570	0,45293	1,00161	0,69586
Maggio	15	0,19189	0,22576	0,43806	0,47514	1,28702	0,80461
Giugno	14	0,87571	0,51312	0,93579	0,71632	1,04580	0,40155
Luglio	14	0,47041	0,39936	0,68586	0,63195	0,58937	0,94213
Agosto	13	0,34946	0,09105	0,59115	0,30174	1,21186	1,31862
Settembre	15	0,23253	0,11677	0,48221	0,34172	0,60955	0,71195
Ottobre	16	0,54749	0,31085	0,73993	0,55754	1,19220	0,88005
Novembre	18	0,24325	0,13254	0,49321	0,36405	0,49808	0,51166
Dicembre	16	0,45080	0,14282	0,67141	0,37791	1,06299	1,00574
MEDIE		0,39432	0,22456	0,61231	0,45921	0,94865	0,78247

Grafici stagionali

Periodo	N. dati	Varianza		Scarto Q.M.		Test DW
MIN	MAX	MIN	MAX	MIN	MAX
Inverno	50	0,39417	0,17822	0,62783	0,42216	1,48382	1,09377
Primavera	45	0,50579	0,23665	0,71119	0,48647	1,18897	0,92608
Estate	41	0,69188	0,36380	0,83179	0,60316	0,99217	1,27340
Autunno	49	0,45335	0,23242	0,67331	0,48210	0,95842	0,83194
MEDIE		0,51130	0,25277	0,71103	0,49847	1,15585	1,03130

Dunque, come si vede dal test dovrei essere in genere nel limbo autocorrelazione positiva degli errori-test inconcludente, con i grafici mensili però un pò più "svantaggiati" con valori minori di 1.
Ma comunque sia questi ultimi, per i motivi detti nel post precedente e l'estrema pochezza di dati per ciascun mese, li avrei scartati quasi a priori.
Riguardo gli altri 2, forse propenderei per quello stagionale che presenta sigma leggermente minori oltre al un test di DW lievemente migliore per le minime.

Ad ogni modo mi rendo conto che il problema è complesso con un percorso tortuoso, anche perchè i dati totali sono solo 185 spalmati in 5 anni (infatti ricordo che non sono dati giornalieri bensì di medie decadali).
Quindi per ora non sono convinto di procedere oltre, anche perchè finora non ho le conoscenze avanzate che sarebbero richieste.