Prova a fare un semplice esperimento con excell ... costruisciti una tabella a 5 colonne e 100 righe. Nella prima colonna (A) inserisci valori progressivi da 1 (in A1) a 100 (in A100), nella seconda colonna (B) e terza colonna (C) inserisci valori casuali e nella quarta colonna (D) e quinta colonna (E) fai rispettivamente la somma di D=B+A e E=C+A. Fai il grafico di dispersione di B e C e poi di D ed E. Vedrai che R^2 della regressione lineare tra B e C è pressoché nullo, mentre R^2 della regressione lineare tra D ed E è mediamente compreso tra 0,18 e 0,38 nella maggior parte dei casi . Quei valori di R^2 spiegano totalmente ed esclusivamente la correlazione del trend presente in entrambe le serie e non la correlazione fra i valori della serie che rimane nullo.
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Vero, peccato che il dato che hai in mano tu è la colonna E, non la colonna C quando acquisisci un dato di temperatura. Non è possibile stabilire che tot% è dovuto alla stagionalità e tot% è dovuto alla variazione giornaliera perchè c'era copertura nuvolosa o un'ondata di caldo, per cui i dati a tua disposizione sono la somma di tutti i contributi e su quello puoi fare le tua analisi tra le stazioni.
Se tu conoscessi i vari contributi allora sarebbe possibile questa analisi, ma in assenza di ulteriori informazioni le tue colonne B e C non sono note per cui non puoi fare altro.
E' questo che non capisco del tuo ragionamento.
Ciao
Ultima modifica di gps75; 25/07/2013 alle 17:09
Guarda l'esempio che ho presentato sopra basato su 145 giorni di dati del 2013 della mia stazione per stimare la temperatura massima usando come predittore la temperatura minima.
Con un errore standard (stima della variabilità del parametro pendenza) di 0,061 l'intervallo di confidenza del parametro è 0,906-1,15.Codice:. regress tmax tmin Source | SS df MS Number of obs = 145 -------------+------------------------------ F( 1, 143) = 274,31 Model | 4057,57386 1 4057,57386 Prob > F = 0,0000 Residual | 2115,25582 143 14,7919987 R-squared = 0,6573 -------------+------------------------------ Adj R-squared = 0,6549 Total | 6172,82968 144 42,8668728 Root MSE = 3,846 ------------------------------------------------------------------------------ tmax | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- tmin | 1,028288 ,0620862 16,56 0,000 ,9055627 1,151013 _cons | 8,127058 ,3482922 23,33 0,000 7,438591 8,815524 ------------------------------------------------------------------------------
Ci si immagina di fare stime chissà che chirurgiche con un errore standard di 0,062, ma poi guarda sopra il Root MSE = 3,846, che è la deviazione standard dei residui.
Cioè precisione della stima e intervallo di confidenza del coefficiente sono cose legate sì, ma concettualmente diverse. Posso avere un intervallo di confidenza largo 0,25 e ciccare tipicamente la stima di 4°C.
Comunque a mio avviso la soluzione al problema proposto circa ricostruire una serie trentennale usando pochi anni di dati di una stazione amatoriale è chiedere di farlo a qualche amico studente di dottorato o ricercatore in climatologia o in qualche altra disciplina che maneggi professionalmente le serie storiche, altrimenti è probabile che valga il principio statistico del garbage-in, garbage-out.
A proposito. Teniamo conto di un altro fattore. La regressione assume tra l'altro che le variabili indipendenti siano misurate senza errore, e possiamo stare abbastanza tranquilli che nel caso del dato meteo amatoriale questo assunto non è soddisfatto.
Per governare l'errore di misurazione delle variabili indipendenti, controllare una loro eventuale correlazione con i residui della variabile dipendente ecc. bisogna fare un salto di complessità e passare all'analisi delle strutture di covarianza/modelli di equazioni strutturali con variabili latenti, cosa che a) è del tutto al di fuori della portata dell'hobbista e b) non contempla ancora una gestione efficiente delle serie storiche. Mi dice un amico che ci ha fatto la tesi di dottorato all'LSE che le serie storiche in SEM (structural equation modeling) esistono ma funzionano molto male in campioni finiti e richiedono campioni enormi.
Ok, aspetta però, stimare la temperatura massima dalla temperatura minima non è come confrontare la minima di una stazione meteo con una minima di un'altra stazione adiacente...
Sulla stima che dici tu hai perfettamente ragione, non è affatto banale aparità di temperatura minima potresti avere un numero casuale di diverse temperature massime, ma il confronto di due valori minimi lo fai su dati omologhi (stessa zona, stesse condizioni climatiche, stessi eventi atmosferici) per cui non non serve tutta questa statistica.
La disomogeneità dei dati invece è un problema. Se appunto hai valori medi si scale mensili, decadali o giornalieri e cerchi di ricostruire una serie temporale allora la questione si complica terribilmente.
Ciao
Circa la parte sottolineata, Gujarati citato sopra dice che in presenza di autocorrelazione gli stimatori OLS [la semplice regressione che fa Excel) sono ancora lineari, non-distorti, consistenti e asintoticamente distribuiti in modo normale, ma non sono più efficienti, cioè dotati della minima varianza [tradotto quasi alla lettera].
Questo significa che con correlazione seriale viene minata proprio la precisione della stima dei coefficienti, ovvero gli errori standard diventano non-validi (visto che sono stimati sotto normal theory) e gli intervalli di confidenza dei beta e gli alfa si allargano.
Questo può essere compensato da grandi campioni (quando si hanno grandi campioni) ma il problema diventa il tipico "how large is large enough?". Come si fa a sapere se ho un campione abbastanza grande da avere buone stime anche in presenza di autocorrelazione?
Francamente non lo so. Dubito che i 145 casi del mio esempio sopra bastino.
Si potrebbe fare un po' di simulazione per valutarlo, anzi è sicuro che esiste già una letteratura oceanica che tramite modelli montecarlo valuta la robustezza della regressione ordinaria dei minimi quadrati rispetto a varie violazioni dei suoi assunti. Il problema è pescarla, tipicamente ci vuole un accesso a elsevier o science direct / ebsco e cose simili.
Adesso che mi ci fai pensare, a circa 130 centimetri dalla Oregon con schermo passivo ho una Davis con schermo ventilato 24 ore. Se ritrovo in qualche cartella un anno di dati di entrambe provo a vedere se c'è correlazione seriale anche fra di loro. Penso proprio di sì. Ma è da controllare.
Minime con minime e massime con massime dire proprio di si
145 dati sicuramente non bastano, come minimo bisogna avere un anno di misurazioni, ma anche in questo caso sono pochi. Io ho correlato continuativamente almeno 6 anni, più di 2000 dati di minime e massime e le variazioni sui coefficienti sono stabili almeno alla terza cifra decimale (ossia se aggiungo un mese di rilevazioni la variazione se c'è è sulla quarta cifra decimale.
Per me è buono abbastanza
Il mio ragionamento è molto semplice ... a fronte di un R^2 = 0,98 appunto perché non puoi sapere quanto è il contributo reale della correlazione del solo dato termico, quanto è quello dovuto a stagionalità e quanto è quello dovuto a trend allora non puoi concludere che quel 0,98 è sicuramente soddisfacente perchè nettizzato di quei contributi potrebbe anche scendere allo 0,75 ... chi lo sa
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Diciamo che se ti accontenti del risultato numerico nel campione disponibile e preferisci non chiederti in termini di stima, cioè di relazione tra risultato campionario e vera relazione nei dati che cosa succeda va bene così. Nota però che questa prospettiva ha carattere puramente descrittivo e non consente inferenza.
In pratica, se hai un buco nei dati e vuoi stimare i valori di quel giorno usando i parametri del modello, non puoi giustificare inferenzialmente quello che fai. Non puoi neanche estrapolare, cioè stimare valori ipoteticamente osservabili al di fuori del range campionario coperto da osservazioni reali (passato, futuro ecc), perché si tratta di atti di inferenza.
Il che poi è il problema che ha spinto gli economisti a sviluppare la massiccia quantità di procedure e test per dati serialmente correlati che hanno introdotto nella regressione. Si va un po' male a dire a uno Stato che deve fare un certo investimento da miliardi di dollari o che non lo deve fare, perché a occhio risulta così. Poter esibire qualche equazione con soddisfatti i suoi assunti è più convincente. \as\
Segnalibri