Innanzitutto complimenti per il blog che mi sto leggendo da cima a fondo e che ho messo tra i preferiti.
Anche a me interessa la statistica, mi piacerebbe imparare ad applicare i vari metodi e teoremi (inferenza, test di ipotesi, regressione lineare e non.. eccetera che conosco ma ho mai avuto occasione di adoperare) alla meteorologia in modo da interpretare correttamente l'evoluzione del clima e ottenere risultati consistenti e non banalità; ti andrebbe se magari provo ad analizzare i dati che possiedo (quelli di Udine al suolo dal 1991 e in quota dal 1981) e ci confrontiamo sulle conclusioni che si possono trarre? (se è possibile definire la normalità oggetto del topic sui dati che metterò, presenza e quantificazione di eventuali trend e/o step climatici.. eccetera)
Riassumendo, sono molto interessato alla materia e sarei contento di discuterne con un esperto; mi scuso in anticipo per le imprecisioni che inevitabilmente commetterò.
Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
http://forum.meteotriveneto.it/showt...tiche-in-quota
Ti ringrazio per il titolo di "esperto" che mi hai attribuito ma ci tengo sempre a precisare che non ho titoli di studio specifici né in climatologia né in statistica. Sono esclusivamente un appassionato che prova ad imparare e, soprattutto, ad applicare a livello amatoriale quanto appreso da autodidatta. Per quanto riguarda il blog a cui ti riferisci ho dovuto sospendere il progetto perché mi sono reso conto che il dominio gratuito a cui mi appoggiavo non è in grado di fornire le risorse necessarie per sviluppare quello che ho in mente. Sto riflettendo sul da farsi.
Tornando alla tua richiesta, sono disponibile ad aiutarti dal momento che il mio hobby preferito è proprio quello di "giocare" con la statistica nel contesto climatico. Non conosco il tuo grado di conoscenza ma per me è fondamentale che tu conosca almeno i concetti basilari della statistica descrittiva e della statistica matematica altrimenti diventa difficile andare direttamente al dunque delle questioni che hai posto dal momento che la materia è complessa, già a livello teorico, quando si utilizzano gli strumenti descrittivi e matematici della statistica nel contesto inferenziale, quindi nell'applicazione pratica finalizzata al processo decisionale.
La regola numero 1 quando si fanno analisi statistiche è di non avere fretta nel giungere a conclusioni pertanto il consiglio che mi sento di darti è quello di formulare una questione alla volta, in modo preciso, ad esempio la valutazione della differenza, in media, fra due periodi temporali, l'esistenza significativa di una tendenza di fondo, la valutazione di un trend in una frequenza di eventi, ecc ..., perché l'aspetto più difficile è tradurre il problema teorico in un problema statistico, cioè valutare bene quali strumenti statistici sono in grado di fornire una soluzione la più robusta possibile, circa il problema in questione, e tutto ciò è funzione delle caratteristiche dei dati da analizzare. In sostanza, non si tratta di applicare in modo meccanico una o più formule ma capire quali formule utilizzare affinché il risultato fornito sia robusto cioè rappresenti il frutto di una corretta applicazione pratica di concetti teorici.
A questo punto direi che se ritieni che l'argomento di cui vuoi parlare abbia un interesse pubblico allora utilizza pure il forum, questa sezione per la normalità climatica o altra sezione ad hoc che eventualmente aprirai. Se, invece, ritieni di dover instaurare un rapporto diretto con me utilizza i messaggi privati che vediamo come poter gestire questo scambio di informazioni.
Qualunque canale tu decidi di utilizzare ricorda che in ogni caso ho sempre l'esigenza di poter lavorare sugli stessi dati grezzi che utilizzi anche tu quindi deve esserci la disponibilità da parte tua di condividere con me (o con noi) i dati in tuo possesso.
![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Come ti ho scritto in privato, posto i dati in mio possesso; quelli al suolo (dal 1991 in poi) sono relativi alla stazione Osmer di Udine S.Osvaldo scaricabili qui meteo.fvg - Osservatorio meteorologico regionale del FVG mentre per quelli in quota (dal 1981 in poi) mi baso sull'archivio presente qui su MNW (stazione di Udine Campoformido).
Il file dati grezzi contiene solo i dati ordinati per data, l'altro ha i dati (un foglio per ogni categoria) e varie tabelle riassuntive come medie decadali, mensili, stagionali, annuali, plurimensili (gennaio-febbraio, gennaio-marzo, eccetera), record positivi e negativi, distribuzione dei valori delle grandezze; i dati al suolo comprendono temperature minime, medie, massime, pioggia, radiazione solare e pressione al suolo (sembra che i dati dell'umidità non siano attendibili negli ultimi mesi, per cui non li ho inclusi), quelli in quota temperatura ad 850 hPa e altezza dello zero termico.
Le tabelle delle temperature e quota dello ZT sono ordinate in senso crescente per i mesi da settembre a febbraio e in senso decrescente per gli altri mesi, la radiazione solare e la pressione media sempre in senso crescente; nel caso della pioggia ho calcolato gli accumuli totali (da mensili in su) e i giorni di pioggia considerando come tali solo quelli con accumulo pari o superiore a 1 mm.
Se aprendo i file ti esce un avviso riguardante la sua estensione e formato non preoccuparti, fai clic su "Sì" senza nessun problema.
P.S: ho dovuto spezzare in due il file con i dati tabulati in quanto è troppo grande e non riesco ad allegarlo.
Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
http://forum.meteotriveneto.it/showt...tiche-in-quota
Innanzitutto grazie per la disponibilità a condividere pubblicamente i dati.
Dal momento che sei particolarmente interessato alle tecniche di analisi statistica dei dati nel contesto climatologico voglio proporti alcuni spunti di riflessione (che forse avrai anche già affrontato) di carattere generale prima di addentrarci nello studio di specifiche questioni che eventualmente mi porrai all'attenzione. Come ti anticipavo in privato, la base dati permette di fare indagini a 360 gradi pertanto, per evitare di perderci, successivamente a questa prima indagine esplorativa che si completerà in più posts, attendo tue richieste specifiche di analisi da affrontare.
Una premessa è doverosa. Dal momento che, come avrai avuto modo di leggere nei documenti da me postati, l'assunto alla base di tutta la Statistica Climatologica è rappresentato dall'esecuzione di esperimenti casuali effettuati nelle medesime condizioni, non possiamo non sottovalutare l'aspetto legato all'omogeneità delle serie storiche in tuo possesso. Dal momento che l'argomento è complesso ed off topic rispetto alle intenzioni/contenuti di questo spazio, ci limitiamo, in via scolastica, a ritenere vero questo assunto, ancorché non verificato. Ci tengo in modo particolare a sottolineare quanto appena scritto perché voglio che tu impari che in Statistica ogni ipotesi, tesi, asserzione o affermazione deve sempre essere sottoposta a verifica (test).
Per prima cosa è fondamentale graficare (consentimi il termine) i dati sulla base della compressione temporale minima. Nel tuo caso significa fare un grafico della serie storica dei dati giornalieri di tutte le variabili (sto considerando i dati al suolo). Spesso si sottovaluta questa prima indagine esplorativa mentre è fondamentale dal momento che quella compressione temporale presenta il massimo contenuto informativo che man mano viene ridotto procedendo a successive compressioni (dati mensili, stagionali, annuali, ecc ...). Se vuoi, otteniamo una visione per così dire "scontata" perché stiamo trattando variabili che descrivono fenomeni a noi conosciuti (regime termico, pluviometrico, ecc...). Ma se avrai modo di indagare fenomeni in parte sconosciuti non potrai fare affidamento all'esperienza pregressa, pertanto dovrai necessariamente indagare i dati nei minimi dettagli.
Il risultato è il seguente:
Ho utilizzato il periodo 2001-2010 esclusivamente per motivi di leggibilità del grafico, ma avrei potuto utilizzare la serie intera. Si evince una netta componente stagionale (per componente stagionale si intende la presenza sistematica di un andamento caratteristico su base annuale o di periodo inferiore) nel campo termico e nel contesto della radiazione solare, mentre per quanto riguarda la pressione atmosferica la stagionalità non appare così marcata (sporca) e nel regime pluviometrico è del tutto assente. Ad esempio, provando a comprimere su base mensile o trimestrale (stagionale) i dati pluviometrici (facendo la somma) in taluni casi la componente stagionale potrebbe emergere in funzione della tipologia climatica di appartenenza della stazione meteo. Questo perché su compressione giornaliera il cosiddetto rumore di fondo potrebbe nascondere questa caratteristica. Da questo fatto devi imparare a non fidarti mai di quello che vedi e ad osservare sempre da angolature differenti perché troppe o troppo poche informazioni agiscono, nello stesso modo, celando aspetti caratteristici di un determinato fenomeno.
A questo punto si procede con la prima trasformazione dei dati, da serie a seriazione, introducendo ed utilizzando la frequenza relativa. Come avrai letto nei miei documenti, il concetto di frequenza riveste un ruolo fondamentale rappresentando il ponte di collegamento tra realtà empirica e realtà teorica. Nel contesto delle serie storiche, dei processi stocastici, la seriazione permette di analizzare i dati svincolandoli dal fattore tempo, quindi in modo statico e non più dinamico.
Attraverso lo strumento della distribuzione di frequenza è possibile verificare, in via semplificata, l'assunto della normalità della distribuzione, cioè testare se i dati approssimano o meno una gaussiana. Questo è importante dal momento che nell'inferenza classica la normalità della distribuzione dei dati è un assunto che deve essere vero.
Occorre però fare una precisazione importantissima. Nel contesto dei processi stocastici, quando si effettua una seriazione, di fatto si sta costruendo un campione di dati i cui elementi rappresentano i valori osservati all'istante t, t+1, t+2, ecc ... cioè appartenenti ognuno ad una popolazione ignota caratterizzante il processo stocastico in quel determinato istante temporale. Potenzialmente è possibile che i valori osservati appartengono ognuno a popolazioni differenti. Nell'ambito del campionamento statistico classico i dati del campione sono certamente estratti tutti dalla stessa popolazione. A titolo di esempio ... un conto è catturare 30 esemplari di una specie ittica presente in un determinato istante (lo stesso giorno) in un lago (campionamento classico), per misurarne le dimensioni, un conto è catturare 30 esemplari di una specie ittica di un lago in 30 distinti momenti temporali differenti, cioè ognuno a distanza di mesi/anni dagli altri (campionamento in seno ad un processo stocastico). Nel campionamento classico, se la forma della distribuzione di frequenza approssima una gaussiana è possibile accettare in modo robusto l'assunto che la popolazione di provenienza ha distribuzione di probabilità normale. Nel caso del campionamento in seno a processi stocastici il fatto di osservare una distribuzione di frequenza che approssima una gaussiana non garantisce, in modo così robusto, che la provenienza sia da una popolazione gaussiana poiché per effetto del teorema del limite centrale, all'aumentare delle realizzazioni indipendenti del processo, la forma della distribuzione campionaria, qualunque essa sia, tende a convergere asintoticamente alla forma normale. Possiamo parlare di normalità asintotica. Di sicuro, invece, se la distribuzione delle frequenze non approssima una gaussiana (a fronte di una numerosità campionaria sufficiente per poter affermare ciò con elevata probabilità) allora anche la popolazione di provenienza non è quasi certamente normale. Si parla sempre di probabilità e mai di certezze assolute.
Tramite il metodo grafico è possibile verificare ad occhio se la distribuzione di frequenza assume o meno una forma a campana:
Nel caso della temperatura dell'aria, i dati a compressione giornaliera non assumono la classica forma a campana dal momento che il campo termico annuale è composto 1) da una stagione calda, una stagione fredda (estremo destro ed estremo sinistro) e 2) da due stagioni intermedie (centro della distribuzione) che presentano valori con frequenza simile spalmati in modo più o meno uniforme da un estremo all'altro. Talvolta la distribuzione può assumere forma bi-modale (due classi di valori a massima frequenza in seno alle due stagioni intermedie).
In riferimento alla pressione atmosferica, invece, è evidente la classica forma a campana.
Uno strumento grafico molto utilizzato per testare la normalità di una distribuzione è il QQ-plot. In questo caso una distribuzione gaussiana presenta valori che si collocano linearmente in prossimità di una retta, da una coda all'altra della distribuzione.
Direi che con questo strumento è molto più intuitivo valutare il grado di somiglianza tra modello empirico e modello teorico. Se vuoi approfondire la questione relativa alla costruzione del QQ-plot puoi scaricare un file opendocument (libreoffice od openoffice) che ho creato:
Questo è quanto emerge in riferimento alla forma della distribuzione per dati giornalieri. Cosa succede alla forma della distribuzione di frequenza se la compressione temporale aumenta? Ad esempio, comprimiamo su base mensile i valori termici e di pressione (facendo la media) creando due nuove serie storiche a frequenza mensile e plottiamo il QQ-plot dei 25 dati relativi al mese di agosto (periodo 1991-2015):
Per il campo termico osserviamo che, per effetto del teorema del limite centrale (combinazione lineare di realizzazioni potenzialmente non gaussiane – dati giornalieri) già in presenza di una dimensione campionaria modesta (25 osservazioni) la forma tende velocemente ad una gaussiana (se ricordi, come nel caso del lancio simultaneo di più dadi esemplificato nel mio documento). Nel caso della pressione atmosferica, invece, 25 osservazioni non sembrano ancora sufficienti per una convergenza netta, anzi, sembra che la situazione sia in contrasto con il risultato ottenibile su dati a frequenza giornaliera che, invece, approssimano una gaussiana. I motivi sono essenzialmente due. Il primo, che la normalità riscontrata nei dati giornalieri è frutto di un campionamento di un processo stocastico, quindi verosimile; il secondo, che la numerosità campionaria è sensibilmente diminuita nel caso della compressione mensile e la convergenza statistica, che è di natura asintotica, risente della bassa numerosità del campione. Ciò non vuol dire che la distribuzione non sia normale.
Da questi esempi riportati ora puoi comprendere perché si ritiene soddisfatto l'assunto della normalità della distribuzione sia del campo termico (la distribuzione tende alla normale per compressioni superiori a quella giornaliera, nonostante non sia presente su dati giornalieri) sia del campo di pressione ( la distribuzione tende alla normale in campioni numerosi per compressioni superiori a quella giornaliera, partendo già da una base giornaliera gaussiana) quando si analizzano dati a compressione mensile (ma vale anche per compattamenti trimestrali ed annuali che, insieme a quello mensile, rappresentano le compressioni temporali utilizzate nella climatologia delle medie, quindi anche nel contesto della definizione di clima e normalità climatica) ... perché trova un riscontro empirico sulla base dei teoremi asintotici statistici.
Mi soffermo ancora su questo aspetto perché troppo importante. I valori osservati ad ogni istante temporale devono essere considerati come il valore atteso (media) di una variabile casuale sottostante alla realizzazione del processo stocastico in quel determinato istante. Una serie storica può essere vista, quindi, come una successione di variabili casuali, non necessariamente indipendenti, non necessariamente con distribuzione di probabilità gaussiana, non necessariamente somiglianti. Secondo il teorema del limite centrale, la variabile somma standardizzata di variabili casuali di qualunque tipo converge ad una distribuzione normale standardizzata a prescindere dai modelli probabilistici che generano le singole variabili casuali. Quando si compattano dati giornalieri per ottenere dati mensili, stagionali, annuali tramite trasformazioni lineari (somma o media) è come se si stesse procedendo alla somma (anche la media è una somma di valori) di una successione di variabili casuali, descritte dal valore atteso (il dato osservato), che generano una nuova successione di variabili casuali, nuovamente descritte da un valore atteso (il valore ottenuto sommando o mediando), la cui distribuzione di probabilità tende a convergere verso una gaussiana tanto più velocemente quanto più le variabili casuali di partenza hanno distribuzione unimodale, simmetrica, risultano tra di loro somiglianti ed indipendenti. Quando tali assunzioni non sono verificate la convergenza tende a ritardare (serve un numero maggiore di dati). Quando si calcola una media trentennale di valori mensili, stagionali, annuali, è come se si stesse stimando il valore atteso di una variabile casuale composta da una successione di variabili casuali.
La verifica della normalità proposta è di natura grafica, quindi semplicistica, ed ovviamente un test statistico serio deve essere condotto per via parametrica o non parametrica, e questo lo vedremo in un prossimo post.
Per non mettere troppa carne al fuoco, al momento ti consiglio di esercitarti provando a seguire lo stesso percorso di indagine in riferimento alla radiazione solare ed alla pluviometria in particolare. Per poter procedere è importante che i temi trattati siano chiari pertanto rimango a disposizione per chiarimenti, approfondimenti, ecc ...![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Segnalibri