Cmq mi viene in mente una considerazione extra che mi sembra abbastanza finale.
Se nella realtà, nella popolazione dei dati c'è autocorrelazione che mina le stime intervallari di B, al crescere del campione questa correlazione diverrà più e più significativa. Cioè data una blanda correlazione seriale nei residui su popolazione, è più probabile trovarla non-significativa in un piccolo campione che in un grande campione. Per cui ampliare il campione ce la fa trovare sempre più significativa.
La questione mi pare ridiventare "how large is large enough". Quante osservazioni mi servono per compensare tramite la correttezza asintotica la perdita della minima varianza? Siamo convinti che minime variazioni sulla quarta cifra decimale riflettano la bontà delle stime quando non si ha la minima idea di che cosa succeda nella popolazione dei dati piuttosto che nel campione?
Occhio che non è proprio proprio così. Introducendo variabili esplicative supplementari R^2 sale sempre o al più rimane invariato. Ma non diminuisce. Se introduci passo-passo nuove variabili indipendenti mantenendo nel modello le indipendenti precedentemente immesse, R^2 non cala mai.
Dato un modello y=a+ b1+b2+b3+errore può succedere che diminuisca la frazione di varianza spiegata da una specifica variabile diciamo b1, perché è stata assorbita da altre variabili coome b2 e b3 le quali sono anche correlate con b1.
C'è l'esempio celeberrimo della relazione tra le cicogne e il tasso di fecondità. E' ben noto da ricerche del dopoguerra che tradizionalmente dove si osservavano più nidi di cicogne nascevano più bambini per famiglia. E' noto anche, però, che le cicogne tendono a fare il nido più in campagna che in città. Altra cosa nota è che in campagna nascevano più bambini che in città. Introducendo nel modello una variabile esplicativa (tipo una dummy 0/1) per l'ambito urbano vs rurale, la relazione tra cicogne e bambini spariva ed emergeva chiara la relazione tra ambito rurale vs urbano e fecondità.
C'è un altro celebre esempio simile, relativo al consumo di gelato e voto radicale. Se per comune italiano diciamo negli anni Settanta e primi Ottanta correliamo il consumo procapite di gelato e la percentuale di voto radicale alle elezioni successiva, troviamo puntualmente che i mangiatori di gelato votavano radicale più dei non-mangiatori di gelato. Dov'è l'inghippo? E' chiaro che non è il gelato a far votare in un modo o nell'altro, c'è una terza variabile che influenza sia il voto radicale sia il consumo di gelato che fa comparire una relazione spuria, la quale sparisce quando si introduce questa terza variabile.
Appunto. A noi interessa mettere in relazione, ad esempio, la Tma di una stazione A e la Tmax di una stazione B, come da tabella esemplificativa:
A B 31 29 30 27 28 25 29 26 27 25 26 24 27 26 30 28 31 30
A noi interessa la correlazione che c'e' tra i valori 25,26,27,28,29,30, ecc..di A e i rispettivi valori di B, cioè per A=x allora B=y.
Ed otteniamo un R^2, ad esempio 0,8. Questo è il valore che a noi interessa.
Se, come dici anche tu, subentrano variabili esplicative supplementari, tipo stagionalità, trend, ecc ... allora quel R^2 aumenta e diventa ad esempio 0,9. Quando io stimo R^2 nella regressione lineare tra A e B ottengo il corrispondente 0,9 perchè influenzato da variabili esplicative supplementari, Ma la vera correlazione tra i valori di Tmax sarebbe quello 0,8. Non so se riesco a spiegarmi
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
...forse ti riferisci alla varianza spiegata dalla singola variabile indipendente, diciamo al suo contributo alla varianza spiegata.
Mi risulta che esistano anche fenomeni di relazioni sopprimenti, per cui tra x e y trovo relazione zero, ma se introduco nella regressione la variabile z allora compare la relazione tra x e y. Non mi sono mai imbattuto in questo, ricordo però di aver assistito alla presentazione di un corso di regressione nella quale l'instructor ha detto che avrebbe presentato come gestire casi simili e che non si trattava di roba banale.
Tipicamente mi aspetto più facilmente che l'introduzione di nuove variabili esplicative aumenti la varianza spiegata totale (l'R^2 del modello) ma riduca la varianza spiegata di ciascuna singola variabile, perché risolve man mano relazioni spurie varie e quote della varianza spiegata di x1 su y si spostano da x1 a x2, per cui la varianza spiegata di x1 diminuisce.
Una volta per assegnare un peso relativo a ciascuna variabile indipendente si usava standardizzare tutto. Se sottrai la media a ogni variabile e poi la dividi per la sua deviazione standard, ottieni un modello di regressione standardizzata senza intercetta i cui coefficienti una volta si indicavano come pesi relativi, depurati dall'unità di misura, ciascuno dei quali veniva interpretato se ricordo bene come radice di R^2 imputabile alla variabile. Alcuni software come SPSS offrono l'opzione di stampare i coefficienti con tutte variabili standardizzate.
Poi la procedura è stata criticata con l'argomento che corr(xy)=cov(xy)/(sx*sy), per cui si mischiavano effetti di covarianza con effetti di dispersione e l'interpretazione del contributo alla varianza spiegata risultava non diretto.
Tutto questo per dire che una quota della correlazione tra la massima della mia stazione A e la massima della mia stazione B può dipendere da fattori stagionali; non è detto che introducento la stagionalità la correlazione fra le due stazioni si esalti. Può anche attenuarsi. Ma si può sempre provare con un po' di stazioni per vedere che cosa succede.
Sulla questione dell'estrapolazione dei dati fuori dal dominio di calcolo hai ragione, rischi di commettere errori significativi, ma se nelle mie 2000 e passa misure copre il range -20 - +38 e cerco di estrapolare il dato mancante della stazione adiacente che sta in quel dominio allora l'errore che commetto è minimo e la curva di regressione rappresenta ottimamente il problema.
Sulla questione del passato e del futuro ho però un'osservazione da fare. Il mio professore di fisica dell'ambiente diceva sempre: studiare il passato per comprendere il futuro.
Ora spiego il suo pensiero. Il clima lo si può scomporre a grandi linee come una serie di periodicità di lungo e di breve periodo. Le periodicità di lungo periodo sono dovute alla variazione dell'assetto della Terra rispetto al Sole e le scale sono dell'ordine di migliaia di anni o più. Quelle nel breve sono essenzialemene la stagionalità, i cicli delle macchie solari più altri fattori non ancora chiariti. Se prendi campioni da carotaggi dei ghiacci polari o da sedimenti marini (tempi sacala di miglaiia di anni, e anni rispettivamente) e dei dati grezzi ottenuti ne fai una SSA (singular specrum analisys), ottieni che tutti queste periodicità escono fuori.
A partire da queste periodicità è di conseguenza possibile stimare l'andamento del clima nel futuro. Questo metodo è servito tra le altre cose a stimare il contributo entropico nel clima (Judith Lean et.al).
Quindi, per farla breve, con opportune analisi si può andare oltre al periodo di misurazione, ma le cose vanno fatte con cura e cautela. Se si rimane all'interno del dominio invece non vedo particolari problemi, se compari minime con minime, massime con massime, e in generale rilavezioni omologabili con altre rilevazioni, i risultati che ottieni non necessitano di particolari trattamenti.
Il tuo ragionamento in generale è corretto, ma a patto che si parli di rilevazioni su serie intrinsecamente molto differenti tra di loro (massime con minime, patate con mele, dati economici in generale). Se tu parli invece di rilevazioni omologhe la previsione di un dato a partire da un altro di una serie adiacente è assolutamente affare prevedibile e stimabile con cura senza necessità di scomodare troppa matematica.
Ma il valore misurato è la somma di molti effetti, non separabili tra di loro. Tu conosci la somma dei contributi, non è possibile sapere quanti di questi hanno sommato calore e quanti sottratto rispetto al valore massimo atteso (che nemmeno qui puoi conoscere). Alla fine quello che puoi fare è conoscere l'R^2 di tutti i contributi e su quelli ragionare.
Tanto per capire, cosa prenderesti come baseline per la temperatura massima di un giorno? quali sarebbero i contributi che puoi misurare con certezza oltre alla baseline (bolla di calore, copertura nuvolosa, ...) che sommati alla baseline stessa ti danno la Tmax rilevata?
In risposta definitiva a Borat e gps75.
Come emerge dalla discussione non è così semplice l'approccio al problema quindi in sostanza il mio pensiero è di prendere sempre con le pinze i risultati ottenuti quando si tenta di stimare intere serie storiche...ancor meglio evitare di fare tutto ciò
Personalmente ho utlizzato la regressione lineare solamente per stimare pochi valori mancanti all'intero di una serie storica, non di certo una intera serie storica (e così mi rivolgo all'amico che ha iniziato la discussione ponendo la sua questione di ricostruzione, fuori campione, partendo da una base dati troppo insufficiente). Avevo approcciato la questione nel tentativo di ricostruire l'intera serie temporale di Parma, cioè dal 1753, partendo dai dati del dataset Best di Berkeley ma ho abbandonato il progetto nonostante valori di R^2 soddisfacenti dal momento che non possiedo le conoscenze sufficienti per entrare nel merito delle questioni che sono state sollevate
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
intanto ringrazio chi è intervenuto con i propri contributi, ho già scaricato il materiale postato da Lorenzo e Borat (molto interessante il Gujarati anche se richiede uno studio approfondito).
Allora, per quanto mi riguarda ho calcolato varianze e scarti quadratici medi per ciasuna retta di regressione effettuando poi per ciascuna il test di Durbin-Watson.
Riguardo i grafici mensili e stagionali è presente anche la media per ciascuno di questi valori (i primi due MIN/MAX vanno considerati alle ultime 2 colonne anzichè alle prime, scherzi del copia/incolla da Excel):
Grafico annuale Periodo N. dati Varianza Scarto Q.M. Test DW MIN MAX MIN MAX MIN MAX Anno 185 0,67440 0,28738 0,82122 0,53608 1,13726 1,03233
Grafici mensili Periodo N. dati Varianza Scarto Q.M. Test DW MIN MAX MIN MAX MIN MAX Gennaio 16 0,44939 0,15876 0,67036 0,39845 0,86472 0,54718 Febbraio 18 0,33871 0,20089 0,58199 0,44820 1,19772 0,50497 Marzo 15 0,17810 0,19765 0,42202 0,44457 0,82290 1,06531 Aprile 15 0,40411 0,20514 0,63570 0,45293 1,00161 0,69586 Maggio 15 0,19189 0,22576 0,43806 0,47514 1,28702 0,80461 Giugno 14 0,87571 0,51312 0,93579 0,71632 1,04580 0,40155 Luglio 14 0,47041 0,39936 0,68586 0,63195 0,58937 0,94213 Agosto 13 0,34946 0,09105 0,59115 0,30174 1,21186 1,31862 Settembre 15 0,23253 0,11677 0,48221 0,34172 0,60955 0,71195 Ottobre 16 0,54749 0,31085 0,73993 0,55754 1,19220 0,88005 Novembre 18 0,24325 0,13254 0,49321 0,36405 0,49808 0,51166 Dicembre 16 0,45080 0,14282 0,67141 0,37791 1,06299 1,00574 MEDIE 0,39432 0,22456 0,61231 0,45921 0,94865 0,78247
Grafici stagionali Periodo N. dati Varianza Scarto Q.M. Test DW MIN MAX MIN MAX MIN MAX Inverno 50 0,39417 0,17822 0,62783 0,42216 1,48382 1,09377 Primavera 45 0,50579 0,23665 0,71119 0,48647 1,18897 0,92608 Estate 41 0,69188 0,36380 0,83179 0,60316 0,99217 1,27340 Autunno 49 0,45335 0,23242 0,67331 0,48210 0,95842 0,83194 MEDIE 0,51130 0,25277 0,71103 0,49847 1,15585 1,03130
Dunque, come si vede dal test dovrei essere in genere nel limbo autocorrelazione positiva degli errori-test inconcludente, con i grafici mensili però un pò più "svantaggiati" con valori minori di 1.
Ma comunque sia questi ultimi, per i motivi detti nel post precedente e l'estrema pochezza di dati per ciascun mese, li avrei scartati quasi a priori.
Riguardo gli altri 2, forse propenderei per quello stagionale che presenta sigma leggermente minori oltre al un test di DW lievemente migliore per le minime.
Ad ogni modo mi rendo conto che il problema è complesso con un percorso tortuoso, anche perchè i dati totali sono solo 185 spalmati in 5 anni (infatti ricordo che non sono dati giornalieri bensì di medie decadali).
Quindi per ora non sono convinto di procedere oltre, anche perchè finora non ho le conoscenze avanzate che sarebbero richieste.
Nuovo sito: Meteosfera
Reti: MNW - WU - Sup.
"Colui che segue la folla non andrà mai più lontano della folla. Colui che va da solo sarà più probabile che si troverà in luoghi dove nessuno è mai arrivato" (Albert Einstein)
Lavoro interessante, ma credo anch'io che 185 valori su 5 anni siano un po' pochini...
Segnalibri