MEDIA TRENTENNALE – Approccio classico Vs. Approccio nuovo
Dopo aver illustrato, ed esemplificato con i dati di Udine, la differenza concettuale che esiste tra campionamento classico e campionamento in seno ad un processo stocastico provo a far capire cosa si sta facendo quando si calcola una media trentennale.
Tutti noi appassionati meteo ci siamo avvicinati, chi più, chi meno, all'analisi statistica dei dati. In particolare tutti quanti siamo abituati a ragionare in termini di medie climatologiche di riferimento secondo l'impostazione classica che un trentennio di riferimento, stabilito a priori, rappresenta la normalità climatica (Cli.no.). In questo conteso, in modo molto meccanico, calcoliamo medie trentennali e raffrontiamo dati con queste medie. Molti di noi non comprendono, però, che questo modo di lavorare presuppone che quel trentennio, quella media trentennale, di fatto rappresentano il clima normale, il valore atteso climatologico, cioè sono la popolazione statistica di riferimento e il parametro rappresentativo di tale popolazione, quello che nel mio documento chiamo "stato climatico". Questo fatto, di per se, potrebbe rappresentare solo un problema relativo se si accetta che il clima è un sistema dinamico e non statico e che quel valore atteso non può essere eternamente rappresentativo del clima di un determinato luogo e, quindi, deve essere aggiornato il più velocemente possibile affinché possa rappresentare condizioni mutanti (modello 30/10 proposto in sede WMO).
Detto questo, però, riprendiamo alcuni passaggi che si trovano nei miei documenti e nei post precedenti, in quanto la questione è un po' più complessa e di sostanza:
“… Sia X una variabile casuale con distribuzione di probabilità ignota p(x) . Nel contesto statistico chiameremo tale variabile casuale, popolazione. Supponiamo ora che siano disponibili N realizzazioni indipendenti tra loro della variabile casuale X . Chiamiamo tali realizzazioni campione, costituito tramite un esperimento casuale ...” (Elementi base probabilità, pagina 6)
Riscriviamo la frase contestualizzandola ad una serie storica climatologica che, di fatto, rappresenta un processo stocastico.
Sia X una variabile casuale con distribuzione di probabilità ignota p(x). Nel contesto statistico chiameremo tale variabile casuale, super-popolazione (universo climatico). Supponiamo ora che siano disponibili N realizzazioni, ai tempi t1 ... tn, tn+1 ... tm, ... indipendenti tra loro della variabile casuale X . Chiamiamo tali realizzazioni popolazione, cioè stato climatico, costituito tramite un esperimento casuale, che rappresenta di fatto un campione della super-popolazione.
Il concetto di super-popolazione nasce in seno all'inferenza classica nel momento in cui viene alla luce il problema relativo ad esperimenti condotti in diversi momenti temporali, su popolazioni finite. A titolo di esempio, si consideri di voler esaminare la qualità dell'acqua di 30 pozzi (popolazione) collegati ad un acquedotto. Per motivi di tempi e di costi l'analisi viene effettuata su un campione di soli 9 pozzi. Cosa succede se dopo x anni l'analisi viene effettuata sull'intera popolazione di 25 pozzi (10 sono stati nel frattempo chiusi e 5 nuovi pozzi aperti)?
I concetti e i calcoli in seno all'inferenza classica portano alla conclusione che, quando l’analisi è estesa all'universo dei dati, cadono
- sia il concetto di “significatività statistica”
- sia quello di distribuzione di probabilità.
L’inferenza diviene teoricamente superflua, poiché i valori e le differenze riscontrate sui dati dell’universo non hanno bisogno d’inferenza, essendo quelli reali o della popolazione: sono significativi per definizione, per quanto essi siano piccoli. Tuttavia, vari statistici enunciano concetti differenti. A loro parere, ai fini dell’analisi statistica spesso risulta utile ed opportuno considerare i dati della popolazione come frutto di un campionamento casuale semplice di una super-popolazione. Il gruppo può cambiare continuamente nel tempo; i pozzi che formano l’universo di quelli utilizzati in un certo momento dall'acquedotto non sono sempre gli stessi, potendo essere ciclicamente sostituiti, con la disattivazione di alcuni e l’attivazione di altri.
Il concetto di super-popolazione, nel contesto climatologico viene esteso anche a popolazioni teoricamente e potenzialmente infinite.
Come scritto nel mio post precedente, integrando alla luce dei chiarimenti,
quando si calcola una media trentennale di 30 valori (campione, singola osservazione climatica) mensili, stagionali, annuali, di una popolazione (di n elementi) a sua volta campione di una super-popolazione (di, potenzialmente, infiniti elementi), è come se si stesse stimando il valore atteso di una variabile casuale (popolazione, stato climatico) composta da una successione di variabili casuali (campioni), come descritto a pagina 10 del documento clima e normalità:
“ ...Per testare la presenza di uno o più stati climatici è fondamentale comprendere la logica sottostante che prevede l'esistenza di una popolazione universale (stato climatico universale, che comprende tutte le possibili dinamiche climatologiche) di riferimento ignota, teoricamente infinita, di cui i trentenni o altri periodi, rappresentano dei campioni di provenienza. In questa ottica lo stato climatico intercettato può essere visto a sua volta come campione di questa popolazione universale di provenienza...”
Se tutto ciò può sembrare complesso, la chiusura del cerchio richiede un grado di complessità maggiore dal momento che il singolo valore osservato all'istante t1, t2, t3, ..., che formerà il campione di riferimento (la singola osservazione climatica formata da 30 valori) rappresenta un valore della variabile casuale (popolazione, stato climatico) realizzatasi al tempo t1, t2, t3.
Se, però, si comprende la differenza che esiste tra estrarre 30 palline, con reinserimento, da un'urna che rimane immutata nella composizione ad ogni singola estrazione ed estrarre 30 palline, con reinserimento, da un'urna che ad ogni estrazione cambia la sua composizione, allora si comprende facilmente la differenza che intercorre tra costruire un insieme di 30 valori prelevati dalla stessa popolazione e costruire un insieme di 30 valori prelevati da 30 popolazioni differenti. E' del tutto evidente anche il significato che assume la media di quei 30 valori nel contesto delle due distinte casistiche. Nel primo caso sarà la media rappresentativa di una sola popolazione, nel secondo caso sarà la media rappresentativa di 30 popolazioni. Nel contesto climatico, la media trentennale rappresenta, pertanto, la stima del valore atteso in seno a uno o più stati climatici (a priori non lo si può sapere). E' in questo contesto che il periodo di riferimento trentennale deve essere collocato, quindi non può che essere una singola osservazione climatica e non necessariamente uno stato climatico a sé stante.
Il singolo valore osservato al tempo t a sua volta può essere concepito come un valore della variabile casuale realizzatasi al tempo t, cioè può essere inteso come quel valore materializzatosi nel contesto di quello stato climatico presente al tempo t e che presenta una determinata probabilità ignota di manifestarsi.
ESEMPIO
Data la serie storica della media mensile della temperatura minima giornaliera del mese di Gennaio ad Udine (colonna C), ad esempio, il valore osservato di 1,25 °C del 1996 rappresenta quel preciso elemento della variabile casuale associata allo stato climatico (ignoto) presente in quell'anno che ha probabilità (ignota) p di manifestarsi. In sostanza, si è osservato un valore che a priori non si conosce a quale stato climatico appartiene e del quale non si conosce la probabilità di manifestazione. Ciò che si può assumere è che la variabile casuale dello stato climatico di riferimento presenta distribuzione di probabilità di tipo gaussiano (dal momento che i test sulla normalità portano ad accettare questa ipotesi). Questo è molto importante perché a fronte di questa conoscenza è possibile ipotizzare se lo specifico valore del 1996 appartiene o meno ad un determinato stato climatico o se singole osservazioni climatiche (periodi trentennali) appartengono a stati climatici differenti. Per meglio comprendere come ciò è possibile si può esemplificare la questione per mezzo di una simulazione statistica (colonne da D ad L). Semplificando, ipotizzando che l'intero periodo appartenga ad un unico stato climatico è possibile simulare differenti realizzazioni del processo stocastico sottostante alla serie storica osservata per mezzo del metodo Monte Carlo, cioè simulando serie storiche i cui elementi appartengano ad una distribuzione normale avente media e sigma pari, nell'esempio, a quella calcolata nel periodo 1991-2010. Per semplicità si sono simulate solo 9 realizzazioni alternative al processo stocastico osservato. Sulla base delle differenze tra dati reali e teorici (di una distribuzione gaussiana teorica) è possibile condurre test sulle ipotesi sopracitate.
Il grafico dovrebbe aiutare a rendere intellegibile il fatto che la serie storica osservata è assimilabile al risultato di un'estrazione casuale effettuata fra infinite realizzazioni dello stesso processo stocastico. Le differenze di questa serie osservata rispetto a quelle teoricamente osservabili permettono di fare considerazioni sugli stati climatici. Se a rappresentanza di questi stati climatici viene eletta la media è del tutto evidente che il valore ottenuto tramite la serie storica osservata è solo uno dei tanti ottenibili quindi non rappresenta più il parametro della popolazione (la media climatica) ma una sua stima e come tale deve essere utilizzata nel contesto della teoria dei campioni statistici.
![]()
Ultima modifica di CausaEffetto; 28/10/2015 alle 16:18
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Segnalibri