Pagina 7 di 10 PrimaPrima ... 56789 ... UltimaUltima
Risultati da 61 a 70 di 92
  1. #61
    Burrasca L'avatar di Borat
    Data Registrazione
    08/06/08
    Località
    -999
    Messaggi
    5,676
    Menzionato
    0 Post(s)

    Predefinito Re: Climatologia & Statistica

    Ieri mi sono spulciato un po' il Gujarati (che ho in cartaceo). Chiaramente utilizza problemi di economia applicata, ma qualche introduzione di base alle serie storiche viene fornita.

    Andando a pescare il testo online (c'è una vecchia versione di 10 anni fa, la stessa che ho io su carta) qui http://nocturnlily.weebly.com/upload...onometrics.pdf non sarebbe male studiarselo dall'inizio, perché introduce abbastanza bene e in modo accessibile la regressione. Tipicamente nelle introduzioni alla regressione cui si è esposti a livelli sub-universitari le problematiche di stima e gli assunti sotto cui si stima sono taciuti e tutto viene fatto sembrare più facile e generale di quanto è.

    Tuttavia il capitolo 12 (pagina 441 del libro, pagina 469 del pdf) spiega bene cosa sono correlazione seriale e autocorrelazione, perché sono problematiche per le stime di regressione, come stimare degli indicatori per rilevarle e un paio di test per rilevarle. Occhio ai grafici a pagina 472 del PDF.

    Tra l'altro Gujarati segnala che il raggruppare i dati in medie di periodo (come le medie mensili partendo dai dati giornalieri) tende a introdurre autocorrelazione, per cui è plausibile che oltre a quella normalmente presente in dati meteo se ne verifichi anche in quei dati mensili.

    Cmq ho visto che sebbene non in un milionesimo di secondo ma immettendo la specifica formula, anche Excel fa il test Durbin-Watson di autocorrelazione. Per cui per iniziare consiglio di stimare i residui dei vari modelli e applicarci i test. Se è significativo c'è un problema da risolvere e bisogna scoprire come risolverlo. Ad esempio studiando poi il capitolo 17 del libro....
    Se non c'è autocorrealazione può darsi che dal punto di vista degli assunti dei minimi quadrati i modelli vadano bene e si tratti di capire come migliorare le stime. Ho visto che in alcuni casi escono residui piuttosto grossi. E attenzione, i residui non sempre indicano problemi di stima ma spesso rilevano errori dei dati - ad esempio la mia stazione si è bloccata di mattina prendendo una massima bassa e quella di riferimento ha funzionato e ha preso la vera massima o viceversa.

    Per curiosità, ho fatto una rapida prova con dati miei per vedere se esce autocorrelazione.

    Sono partito dai dati della mia stazione dal 1° gennaio 2013 al 25 maggio 2013 e ho provato a stima la media integrale utilizzando la massima e la minima. Ecco cosa esce.

    Codice:
    . tsset data
            time variable:  data, 01/01/2013 to 25/05/2013
    
    . regress tmed tmin tmax
    
          Source |       SS       df       MS              Number of obs =     145
    -------------+------------------------------           F(  2,   142) = 6078,43
           Model |  4298,05557     2  2149,02779           Prob > F      =  0,0000
        Residual |   50,204103   142  ,353550021           R-squared     =  0,9885
    -------------+------------------------------           Adj R-squared =  0,9883
           Total |  4348,25967   144  30,1962477           Root MSE      =   ,5946
    
    ------------------------------------------------------------------------------
            tmed |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
            tmin |   ,5511734   ,0163971    33,61   0,000     ,5187594    ,5835875
            tmax |   ,4423793   ,0129284    34,22   0,000     ,4168223    ,4679363
           _cons |  -,0274357   ,1180638    -0,23   0,817    -,2608255    ,2059541
    ------------------------------------------------------------------------------
    Non male, varianza spiegata 0,9883, scarto quadratico medio dei residui di circa 0,6°C. Mi accontenterei. Ora vediamo se ho correlazione seriale, usando il test alternativo:

    Codice:
    . estat durbinalt
    
    Durbin's alternative test for autocorrelation
    ---------------------------------------------------------------------------
        lags(p)  |          chi2               df                 Prob > chi2
    -------------+-------------------------------------------------------------
           1     |          0,089               1                   0,7660
    ---------------------------------------------------------------------------
                            H0: no serial correlation
    e pare che non ce ne sia.

    Ora proviamo a stimare le massime usando le minime come variabile indipendente:

    Codice:
    . regress tmax tmin
    
          Source |       SS       df       MS              Number of obs =     145
    -------------+------------------------------           F(  1,   143) =  274,31
           Model |  4057,57386     1  4057,57386           Prob > F      =  0,0000
        Residual |  2115,25582   143  14,7919987           R-squared     =  0,6573
    -------------+------------------------------           Adj R-squared =  0,6549
           Total |  6172,82968   144  42,8668728           Root MSE      =   3,846
    
    ------------------------------------------------------------------------------
            tmax |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
    -------------+----------------------------------------------------------------
            tmin |   1,028288   ,0620862    16,56   0,000     ,9055627    1,151013
           _cons |   8,127058   ,3482922    23,33   0,000     7,438591    8,815524
    ------------------------------------------------------------------------------
    ...e lo scarto quadratico medio del residuo va vicino a 4°C, direi stime poco utili...

    Codice:
    . estat durbinalt
    
    Durbin's alternative test for autocorrelation
    ---------------------------------------------------------------------------
        lags(p)  |          chi2               df                 Prob > chi2
    -------------+-------------------------------------------------------------
           1     |         33,734               1                   0,0000
    ---------------------------------------------------------------------------
                            H0: no serial correlation
    e qui invece troviamo autocorrelazione significativa. I parametri del modello non sono BLUE e non saprei più che pesci pigliare se non tentare un first-difference.

    Confesso che al capitolo 17 del Gujarati non ci sono arrivato. Interessandomi di più i modelli per variabili dipendenti categoriali sono passato all'Agresti, Categorical Data Analysis e ho piantato lì le serie storiche.
    Ultima modifica di Borat; 25/07/2013 alle 09:01

  2. #62
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Personalmente ho agito in questo modo. Ho messo su una tabella e successivamente un grafico i valori del giorno (massima e minima) di una stazione in confronto con i dati dello stesso giorno di una seconda stazione. La serie è di circa 5 anni e in ascissa del grafico ho i dati meteo di una stazione e in ordinata quella dell'altra.
    A questo punto ho fatto una regressione lineare per i dati di massima e una per i dati di minima, ottenendo due equazioni lineari con pendenza circa 1 e un offset.
    Da qui posso ricostruire, dato il valore massimo e minimo di una stazione il dato presunto di massima e di minima della seconda. La ragione di avere due dati separati di massima e minima è per un discorso di omogeneità dei dati, infatti le regressioni lineari differiscono un pochino tra di loro.
    Ora, il dato del singolo giorno risulterà senz'altro stimato poichè non è ovviamente possibile conoscere il dato vero, ma la media mensile ad esempio sarà approssimato in maniera adeguata.

    Il WMO (World Meteorological Organization) tratta la questione delle stazioni meteo nella guida CIMO (Guide to meteorological instruments and methods of observations), scaricabile dal sito dell'organizzazione.
    Nel capitolo 1.3.4 parla dell'omogeneità dei dati e rimanda alla lettura di un altro testo del 1983 (guide to climatological practices) che si trova sempre sul sito del WMo e tratta anche la parte statistica dei dati meteo.

  3. #63
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    38
    Messaggi
    1,270
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Per una stima dei parametri della regressione che tenga conto di una certa autocorrelazione seriale ti rimando a questo link che mi sono ritrovato fra i miei preferiti su google document:

    http://homes.stat.unipd.it/erich/tea.../lezione11.pdf

    Molto intuitivo ed adatto anche per un principiante, propone un primo approccio a problemi di qusto genere
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  4. #64
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Intressante, comunque excel la fa in automatico la stima della regressione lineare e ti dice anche il livello di affidabilità della regressione stessa.

  5. #65
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    38
    Messaggi
    1,270
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Intressante, comunque excel la fa in automatico la stima della regressione lineare e ti dice anche il livello di affidabilità della regressione stessa.

    Questa è una questione differente ...
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  6. #66
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
    Questa è una questione differente ...
    In che senso?

  7. #67
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    38
    Messaggi
    1,270
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    In che senso?

    Nel senso che il problema che si trattava non era quello della stima dei parametri alpha e beta della retta di regressione, nemmeno del valore di R^2, ma piuttosto come rettificare i parametri alpha e beta della regressione in presenza di correlazione seriale in seno residui della regressione.

    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  8. #68
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
    Nel senso che il problema che si trattava non era quello della stima dei parametri alpha e beta della retta di regressione, nemmeno del valore di R^2, ma piuttosto come rettificare i parametri alpha e beta della regressione in presenza di correlazione seriale in seno residui della regressione.


    Ho capito cosa intendi, ma credo che una semplice regressione lineare a fronte di un numero piuttosto elevato di valori sia più che sufficiente.
    Mi spiego meglio. Se hai una pendenza 0.997 o una pendenza 1, a 30°C hai una differenza di circa 0,1 °C, inferiore all'errore di misura dello strumento stesso. Se conti che dopo 6-7 anni la variazione nelle pendenze è ormai nettamente stabilizzato (varia la 4a cifra decimale), direi che stare a fare molti calcoli complessi per uno 0,1 °C forse è troppo.
    Per questo indicavo la semplice regressione lineare come soluzione ai problemi.

    Poi è ovviamnete pensabile di migliorare la precisione nelle stime delle serie temporali, ma il gioco vale veramente la candela?

    Ciao

  9. #69
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    38
    Messaggi
    1,270
    Menzionato
    4 Post(s)

    Predefinito Re: Climatologia & Statistica

    Citazione Originariamente Scritto da gps75 Visualizza Messaggio
    Ho capito cosa intendi, ma credo che una semplice regressione lineare a fronte di un numero piuttosto elevato di valori sia più che sufficiente.
    Mi spiego meglio. Se hai una pendenza 0.997 o una pendenza 1, a 30°C hai una differenza di circa 0,1 °C, inferiore all'errore di misura dello strumento stesso. Se conti che dopo 6-7 anni la variazione nelle pendenze è ormai nettamente stabilizzato (varia la 4a cifra decimale), direi che stare a fare molti calcoli complessi per uno 0,1 °C forse è troppo.
    Per questo indicavo la semplice regressione lineare come soluzione ai problemi.

    Poi è ovviamnete pensabile di migliorare la precisione nelle stime delle serie temporali, ma il gioco vale veramente la candela?

    Ciao

    Se hai letto l'ottimo intervento di Borat nella pagina precedente:

    "qui si tratta di dati nei quali una parte della correlazione seriale dipende dalla stagionalità, ma una parte dipende da effetti di breve e brevissimo periodo (ad esempio, viene un'ondata di freddo e per qualche giorno la temperatura scende, poi risale, o ne viene una di caldo, e allora la temperatura sale, e poi ridiscende, e nelle parti di discesa e salita si ha correlazione extra dovuta a un fattore esogeno non inserito nel modello che stima il valore che avrebbe dato la tua stazione date le misure di un'altra stazione, un problema di omitted explanatory variable -"


    un elevato valore di R^2 potrebbe essere statisticamente non significativo in presenza di dipendenza dei residui della regressione, per questo si ragionava di verificare quantomeno l'indipendenza dei residui prima di concludere che il modello lineare possa essere idoneo per la ricostruzione dei dati. Se vuoi si sta facendo un po' di filosofia ma un approccio statistico rigoroso prevede una serie di passaggi "obbligatori".

    Sempre riprendendo l'esempio portato da Borat ... in presenza di avvezione termica positiva, come quella prevista per il weekend, ad esempio, avrai che entrambe le stazioni rilevano progressivamente temperature più elevate giorno dopo giorno. In sostanza siamo in presenza di un trend che introduce un'autocorrelazione quindi quando tu vai a stimare la regressione lineare fra i valori delle due stazioni ti trovi nella situazione che parte dell'elevato valore di R^2 è influenzato dalla presenza di questo trend. Questo è il motivo per il quale Borat suggeriva come ipotesi di lavoro di correlare le differenze prime dei valori che in parte dovrebbero eliminare o smussare questi trend lineari dovuti ad andamenti stagionali del campo termico ed ascrivibili ad avvezioni termiche. Il problema non si porrebbe nell'ipotesi di un clima ideale caratterizzato da assenza di stagionalità e assenza di avvezione termica in seno al tempo atmosferico.

    Ultima modifica di CausaEffetto; 25/07/2013 alle 16:32
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  10. #70
    gps75
    Ospite

    Predefinito Re: Climatologia & Statistica

    Non mi è chiaro tutto, ma non sono molto d'accordo. Se le stazioni sono poste ragionevolmente a un numero limitato di chilometri allora ragionevolmente subiranno le stesse influenze climatiche stagionali o dovute alle perturbazioni climatiche localizzate in un periodo di tempo.
    Se è così allora i sensori sono soggetti alle stesse condizioni climatiche e di conseguenza dovrebbero misurare le stesse temperature (poi sappiamo che non è così perchè i sensori hanno risposte diverse e altri fattori ambientali possono influenzare il microclima in cui sono state posizionate le stazoni meteo).

    Da un mero punto di vista matematico, 28°C misurati a gennaio perchè è presente il phon o 28° C misurati a giugno o in qualunque altro periodo dell'anno sono la stessa cosa. Ed entrambe le stazioni subiscono le stesse influenze poichè il clima è lo stesso. Diverso sarebbe se le stazioni fossero posizionate in posti anche relativamente vicini ma con condizioni climatiche molto differenti (un vallone chiuso in montagna e la primissma pianura adiacente al fondovalle), allora sì che le variazioni potrebbero essere significative perchè i microclimi in sè sono molto differenti. Seguiresti quindi un trend generale stagionale ma non quello legato alle variazioni dei due microclimi differenti.

    Ma se ritorniamo alla prima ipotesi, due stazioni con microclima equiparabile, allora il problema di effetti casuali di fatto non sussiste. Alla fine hai una serie di dati di minime e una serie di massime, collezionate in anni di rilevazioni e lungo tutto il periodo dell'anno, indipendentemente dalle variazioni stagionali o locali. E se poi ci fosse il caso in cui in un corrispondenza di una stazione sta piovendo e nell'altra c'è il sole.... beh si tratta di un numero di eventi relativamente basso che non va a inficiare la semplice regressione lineare.

    Ciao

Segnalibri

Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •