Pagina 8 di 10 PrimaPrima ... 678910 UltimaUltima
Risultati da 71 a 80 di 92
  1. #71
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Non mi è chiaro tutto, ma non sono molto d'accordo. Se le stazioni sono poste ragionevolmente a un numero limitato di chilometri allora ragionevolmente subiranno le stesse influenze climatiche stagionali o dovute alle perturbazioni climatiche localizzate in un periodo di tempo.
    Se è così allora i sensori sono soggetti alle stesse condizioni climatiche e di conseguenza dovrebbero misurare le stesse temperature (poi sappiamo che non è così perchè i sensori hanno risposte diverse e altri fattori ambientali possono influenzare il microclima in cui sono state posizionate le stazoni meteo).

    Da un mero punto di vista matematico, 28°C misurati a gennaio perchè è presente il phon o 28° C misurati a giugno o in qualunque altro periodo dell'anno sono la stessa cosa. Ed entrambe le stazioni subiscono le stesse influenze poichè il clima è lo stesso. Diverso sarebbe se le stazioni fossero posizionate in posti anche relativamente vicini ma con condizioni climatiche molto differenti (un vallone chiuso in montagna e la primissma pianura adiacente al fondovalle), allora sì che le variazioni potrebbero essere significative perchè i microclimi in sè sono molto differenti. Seguiresti quindi un trend generale stagionale ma non quello legato alle variazioni dei due microclimi differenti.

    Ma se ritorniamo alla prima ipotesi, due stazioni con microclima equiparabile, allora il problema di effetti casuali di fatto non sussiste. Alla fine hai una serie di dati di minime e una serie di massime, collezionate in anni di rilevazioni e lungo tutto il periodo dell'anno, indipendentemente dalle variazioni stagionali o locali. E se poi ci fosse il caso in cui in un corrispondenza di una stazione sta piovendo e nell'altra c'è il sole.... beh si tratta di un numero di eventi relativamente basso che non va a inficiare la semplice regressione lineare.

    Ciao

    Prova a fare un semplice esperimento con excell ... costruisciti una tabella a 5 colonne e 100 righe. Nella prima colonna (A) inserisci valori progressivi da 1 (in A1) a 100 (in A100), nella seconda colonna (B) e terza colonna (C) inserisci valori casuali e nella quarta colonna (D) e quinta colonna (E) fai rispettivamente la somma di D=B+A e E=C+A. Fai il grafico di dispersione di B e C e poi di D ed E. Vedrai che R^2 della regressione lineare tra B e C è pressoché nullo, mentre R^2 della regressione lineare tra D ed E è mediamente compreso tra 0,18 e 0,38 nella maggior parte dei casi . Quei valori di R^2 spiegano totalmente ed esclusivamente la correlazione del trend presente in entrambe le serie e non la correlazione fra i valori della serie che rimane nullo.

    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  2. #72
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Vero, peccato che il dato che hai in mano tu è la colonna E, non la colonna C quando acquisisci un dato di temperatura. Non è possibile stabilire che tot% è dovuto alla stagionalità e tot% è dovuto alla variazione giornaliera perchè c'era copertura nuvolosa o un'ondata di caldo, per cui i dati a tua disposizione sono la somma di tutti i contributi e su quello puoi fare le tua analisi tra le stazioni.
    Se tu conoscessi i vari contributi allora sarebbe possibile questa analisi, ma in assenza di ulteriori informazioni le tue colonne B e C non sono note per cui non puoi fare altro.

    E' questo che non capisco del tuo ragionamento.

    Ciao
    Ultima modifica di gps75; 25/07/2013 alle 17:09

  3. #73
    Burrasca L'avatar di Borat
    Data Registrazione
    08/06/08
    Località
    -999
    Messaggi
    5,669
    Menzionato
    0 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Ho capito cosa intendi, ma credo che una semplice regressione lineare a fronte di un numero piuttosto elevato di valori sia più che sufficiente.
    Mi spiego meglio. Se hai una pendenza 0.997 o una pendenza 1, a 30°C hai una differenza di circa 0,1 °C, inferiore all'errore di misura dello strumento stesso. Se conti che dopo 6-7 anni la variazione nelle pendenze è ormai nettamente stabilizzato (varia la 4a cifra decimale), direi che stare a fare molti calcoli complessi per uno 0,1 °C forse è troppo.
    Guarda l'esempio che ho presentato sopra basato su 145 giorni di dati del 2013 della mia stazione per stimare la temperatura massima usando come predittore la temperatura minima.

    Codice:
    . regress tmax tmin
    
          Source |       SS       df       MS              Number of obs =     145
    -------------+------------------------------           F(  1,   143) =  274,31
           Model |  4057,57386     1  4057,57386           Prob > F      =  0,0000
        Residual |  2115,25582   143  14,7919987           R-squared     =  0,6573
    -------------+------------------------------           Adj R-squared =  0,6549
           Total |  6172,82968   144  42,8668728           Root MSE      =   3,846
    
    ------------------------------------------------------------------------------
            tmax |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
            tmin |   1,028288   ,0620862    16,56   0,000     ,9055627    1,151013
           _cons |   8,127058   ,3482922    23,33   0,000     7,438591    8,815524
    ------------------------------------------------------------------------------
    Con un errore standard (stima della variabilità del parametro pendenza) di 0,061 l'intervallo di confidenza del parametro è 0,906-1,15.
    Ci si immagina di fare stime chissà che chirurgiche con un errore standard di 0,062, ma poi guarda sopra il Root MSE = 3,846, che è la deviazione standard dei residui.
    Cioè precisione della stima e intervallo di confidenza del coefficiente sono cose legate sì, ma concettualmente diverse. Posso avere un intervallo di confidenza largo 0,25 e ciccare tipicamente la stima di 4°C.

    Comunque a mio avviso la soluzione al problema proposto circa ricostruire una serie trentennale usando pochi anni di dati di una stazione amatoriale è chiedere di farlo a qualche amico studente di dottorato o ricercatore in climatologia o in qualche altra disciplina che maneggi professionalmente le serie storiche, altrimenti è probabile che valga il principio statistico del garbage-in, garbage-out.

    A proposito. Teniamo conto di un altro fattore. La regressione assume tra l'altro che le variabili indipendenti siano misurate senza errore, e possiamo stare abbastanza tranquilli che nel caso del dato meteo amatoriale questo assunto non è soddisfatto.
    Per governare l'errore di misurazione delle variabili indipendenti, controllare una loro eventuale correlazione con i residui della variabile dipendente ecc. bisogna fare un salto di complessità e passare all'analisi delle strutture di covarianza/modelli di equazioni strutturali con variabili latenti, cosa che a) è del tutto al di fuori della portata dell'hobbista e b) non contempla ancora una gestione efficiente delle serie storiche. Mi dice un amico che ci ha fatto la tesi di dottorato all'LSE che le serie storiche in SEM (structural equation modeling) esistono ma funzionano molto male in campioni finiti e richiedono campioni enormi.

  4. #74
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Ok, aspetta però, stimare la temperatura massima dalla temperatura minima non è come confrontare la minima di una stazione meteo con una minima di un'altra stazione adiacente...

    Sulla stima che dici tu hai perfettamente ragione, non è affatto banale aparità di temperatura minima potresti avere un numero casuale di diverse temperature massime, ma il confronto di due valori minimi lo fai su dati omologhi (stessa zona, stesse condizioni climatiche, stessi eventi atmosferici) per cui non non serve tutta questa statistica.

    La disomogeneità dei dati invece è un problema. Se appunto hai valori medi si scale mensili, decadali o giornalieri e cerchi di ricostruire una serie temporale allora la questione si complica terribilmente.

    Ciao

  5. #75
    Burrasca L'avatar di Borat
    Data Registrazione
    08/06/08
    Località
    -999
    Messaggi
    5,669
    Menzionato
    0 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Ho capito cosa intendi, ma credo che una semplice regressione lineare a fronte di un numero piuttosto elevato di valori sia più che sufficiente.
    Mi spiego meglio. Se hai una pendenza 0.997 o una pendenza 1, a 30°C hai una differenza di circa 0,1 °C, inferiore all'errore di misura dello strumento stesso. Se conti che dopo 6-7 anni la variazione nelle pendenze è ormai nettamente stabilizzato (varia la 4a cifra decimale), direi che stare a fare molti calcoli complessi per uno 0,1 °C forse è troppo.
    Per questo indicavo la semplice regressione lineare come soluzione ai problemi.

    Poi è ovviamnete pensabile di migliorare la precisione nelle stime delle serie temporali, ma il gioco vale veramente la candela?

    Ciao
    Circa la parte sottolineata, Gujarati citato sopra dice che in presenza di autocorrelazione gli stimatori OLS [la semplice regressione che fa Excel) sono ancora lineari, non-distorti, consistenti e asintoticamente distribuiti in modo normale, ma non sono più efficienti, cioè dotati della minima varianza [tradotto quasi alla lettera].
    Questo significa che con correlazione seriale viene minata proprio la precisione della stima dei coefficienti, ovvero gli errori standard diventano non-validi (visto che sono stimati sotto normal theory) e gli intervalli di confidenza dei beta e gli alfa si allargano.
    Questo può essere compensato da grandi campioni (quando si hanno grandi campioni) ma il problema diventa il tipico "how large is large enough?". Come si fa a sapere se ho un campione abbastanza grande da avere buone stime anche in presenza di autocorrelazione?
    Francamente non lo so. Dubito che i 145 casi del mio esempio sopra bastino.
    Si potrebbe fare un po' di simulazione per valutarlo, anzi è sicuro che esiste già una letteratura oceanica che tramite modelli montecarlo valuta la robustezza della regressione ordinaria dei minimi quadrati rispetto a varie violazioni dei suoi assunti. Il problema è pescarla, tipicamente ci vuole un accesso a elsevier o science direct / ebsco e cose simili.

  6. #76
    Burrasca L'avatar di Borat
    Data Registrazione
    08/06/08
    Località
    -999
    Messaggi
    5,669
    Menzionato
    0 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Ok, aspetta però, stimare la temperatura massima dalla temperatura minima non è come confrontare la minima di una stazione meteo con una minima di un'altra stazione adiacente...
    Adesso che mi ci fai pensare, a circa 130 centimetri dalla Oregon con schermo passivo ho una Davis con schermo ventilato 24 ore. Se ritrovo in qualche cartella un anno di dati di entrambe provo a vedere se c'è correlazione seriale anche fra di loro. Penso proprio di sì. Ma è da controllare.

  7. #77
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Minime con minime e massime con massime dire proprio di si

  8. #78
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da Borat Visualizza Messaggio
    Circa la parte sottolineata, Gujarati citato sopra dice che in presenza di autocorrelazione gli stimatori OLS [la semplice regressione che fa Excel) sono ancora lineari, non-distorti, consistenti e asintoticamente distribuiti in modo normale, ma non sono più efficienti, cioè dotati della minima varianza [tradotto quasi alla lettera].
    Questo significa che con correlazione seriale viene minata proprio la precisione della stima dei coefficienti, ovvero gli errori standard diventano non-validi (visto che sono stimati sotto normal theory) e gli intervalli di confidenza dei beta e gli alfa si allargano.
    Questo può essere compensato da grandi campioni (quando si hanno grandi campioni) ma il problema diventa il tipico "how large is large enough?". Come si fa a sapere se ho un campione abbastanza grande da avere buone stime anche in presenza di autocorrelazione?
    Francamente non lo so. Dubito che i 145 casi del mio esempio sopra bastino.
    Si potrebbe fare un po' di simulazione per valutarlo, anzi è sicuro che esiste già una letteratura oceanica che tramite modelli montecarlo valuta la robustezza della regressione ordinaria dei minimi quadrati rispetto a varie violazioni dei suoi assunti. Il problema è pescarla, tipicamente ci vuole un accesso a elsevier o science direct / ebsco e cose simili.
    145 dati sicuramente non bastano, come minimo bisogna avere un anno di misurazioni, ma anche in questo caso sono pochi. Io ho correlato continuativamente almeno 6 anni, più di 2000 dati di minime e massime e le variazioni sui coefficienti sono stabili almeno alla terza cifra decimale (ossia se aggiungo un mese di rilevazioni la variazione se c'è è sulla quarta cifra decimale.
    Per me è buono abbastanza

  9. #79
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Vero, peccato che il dato che hai in mano tu è la colonna E, non la colonna C quando acquisisci un dato di temperatura. Non è possibile stabilire che tot% è dovuto alla stagionalità e tot% è dovuto alla variazione giornaliera perchè c'era copertura nuvolosa o un'ondata di caldo, per cui i dati a tua disposizione sono la somma di tutti i contributi e su quello puoi fare le tua analisi tra le stazioni.
    Se tu conoscessi i vari contributi allora sarebbe possibile questa analisi, ma in assenza di ulteriori informazioni le tue colonne B e C non sono note per cui non puoi fare altro.

    E' questo che non capisco del tuo ragionamento.

    Ciao

    Il mio ragionamento è molto semplice ... a fronte di un R^2 = 0,98 appunto perché non puoi sapere quanto è il contributo reale della correlazione del solo dato termico, quanto è quello dovuto a stagionalità e quanto è quello dovuto a trend allora non puoi concludere che quel 0,98 è sicuramente soddisfacente perchè nettizzato di quei contributi potrebbe anche scendere allo 0,75 ... chi lo sa
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  10. #80
    Burrasca L'avatar di Borat
    Data Registrazione
    08/06/08
    Località
    -999
    Messaggi
    5,669
    Menzionato
    0 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    145 dati sicuramente non bastano, come minimo bisogna avere un anno di misurazioni, ma anche in questo caso sono pochi. Io ho correlato continuativamente almeno 6 anni, più di 2000 dati di minime e massime e le variazioni sui coefficienti sono stabili almeno alla terza cifra decimale (ossia se aggiungo un mese di rilevazioni la variazione se c'è è sulla quarta cifra decimale.
    Per me è buono abbastanza
    Diciamo che se ti accontenti del risultato numerico nel campione disponibile e preferisci non chiederti in termini di stima, cioè di relazione tra risultato campionario e vera relazione nei dati che cosa succeda va bene così. Nota però che questa prospettiva ha carattere puramente descrittivo e non consente inferenza.
    In pratica, se hai un buco nei dati e vuoi stimare i valori di quel giorno usando i parametri del modello, non puoi giustificare inferenzialmente quello che fai. Non puoi neanche estrapolare, cioè stimare valori ipoteticamente osservabili al di fuori del range campionario coperto da osservazioni reali (passato, futuro ecc), perché si tratta di atti di inferenza.
    Il che poi è il problema che ha spinto gli economisti a sviluppare la massiccia quantità di procedure e test per dati serialmente correlati che hanno introdotto nella regressione. Si va un po' male a dire a uno Stato che deve fare un certo investimento da miliardi di dollari o che non lo deve fare, perché a occhio risulta così. Poter esibire qualche equazione con soddisfatti i suoi assunti è più convincente. \as\

Segnalibri

Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •