[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Se non ho capito male, i valori compresi tra il 10° e il 90° percentile, indicano quei valori che si registrano nell'ottanta per cento delle osservazioni giornaliere di una determinata stazione. In poche parole dovrebbe significare che l'80% dei valori registrati a Prato in quel periodo rientrano nell'intervallo che ci ha indicato CausaEffetto.
Attenzione che il 10° percentile è calcolato su Tmin ed il 90° percentile è calcolato su Tmax. Il range a cui ti riferisci (80%) sarebbe valido se calcolato sulla stessa serie di dati (solo Tmax, solo Tmin, solo TMG, ecc...). In sintesi, esprimono quella soglia che ha probabilità del 10% di essere superata in senso maggiormente estremo.
![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Ok, ora ho capito.
Una domanda probabilmente ingenua e da profano: ma quale utilità climatologica può avere conoscere questi percentili?Sappiamo quanto le medie di per sé siano già un'astrazione di comodo che ricorre pochissime volte nel concreto. Applicare ad esse un'ulteriore paletto in termini percentile su base diurna non aumenta ulteriormente il carattere astratto e virtuale del dato rispetto all'osservazione?
![]()
Provo a risponderti ma oggi non riesco a concludere nulla con questo terremoto.
Partiamo dal discorso media ... la media non è semplicemente un'astrazione di comodo in quanto questo indicatore di sintesi della tendenza centrale nella distribuzione del campo termico assume un preciso significato statistico. Osservare un valore che si fermi "esattamente" sulla media in qualche verso rappresenta un evento che ha la "stessa" probabilità di accadimento di osservare un valore che si fermi "esattamente" su ogni altro valore della distribuzione. Ma non è questo il punto ... la media è un'attrattore verso il quale convergono quasi "magicamente" i valori osservati. Rappresenta un valore intorno al quale si concentrano la maggiornaza delle osservazioni. Importante questo passaggio " ... un valore intorno al quale ... ". Questo è il punto! Questa soglia, che chiamiamo media, serve per costruire il range entro il quale è più probabile osservare i valori registrati. A livello statistico scostarsi di + o - un sigma dalla media ha lo stesso significato di normalità, quando la distribuzione è approssimabile alla gaussiana.
Detto questo, arriviamo al discorso dei percentili, in particolare le soglie del 10° e 90° percentile. In questo caso siamo in presenza di valori che risiedono lontano dal range di normalità. Le frequenze di superamento di queste soglie non si distribuiscono secondo una gaussiana pertanto a livello statistico tali soglie sono fondamentali per intercettare il comportamento dei dati che risiedono nelle code estreme della distribuzione.
La non comprensione dell'importanza di media, range di normalità climatica e soglie estreme deriva forse dal fatto che solitamente se ne fa un uso meramente descrittivo mentre la loro forza risiede nello spiegare il comportamento del campo termico, sia in senso statico, sia in senso dinamico, come spero di fare al più presto, terremoto permettendo.
![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Proviamo a fare un salto di qualità nell'analisi cercando di rispondere alla seguente domanda ... la variazione osservata nel valor medio (shift positivo di temperatura) e nella variabilità è imputabile a cause precise o è semplicemente il frutto del caso, una variazione del tutto casuale? In altri termini, il clima attuale (1981-2010) appartiene ad uno stato climatico differente rispetto al passato o è solamente la combinazione dell'effetto della naturale variabilità intrinseca ad esso? O ancora ... il trend positivo nella TMG annuale è statisticamente significativo oppure una variazione di 0,5 °C in 60 anni non è espressione di alcun trend in atto?
Per poter rispondere a questo tipo di domanda è necessario l'utilizzo degli strumenti messi a disposizione dall'inferenza statistica. Ho già anticipato che nel contesto statico del clima attuale il blocco trentennale di osservazioni è espressione dell'intera popolazione. Quando abbiamo a che fare con l'analisi dinamica di una successione di blocchi trentennali di riferimento ognuno di essi assume la valenza di campione statistico rappresentativo di una determinata popolazione (lo stato climatico). A questo punto diventa fondamentale riuscire a comprendere se un determinato blocco trentennale (campione) appartiene o meno ad un determinato stato climatico. E' così inoltre possibile mettere a confronto differenti blocchi di riferimento al fine di individuare eventuali cambiamenti climatici (presenza di differenti stati climatici). Nella pratica il tutto si traduce nel confronto fre medie (e varianze) dei differenti blocchi climatici trentennali di riferimento al fine di verificare, in modo induttivo, l'appartenenza o meno allo stesso stato climatico, cioè capire se esse sono l'espressione della stessa distribuzione teorica dei dati osservati. Statisticamente significa escludere o meno la cosiddetta ipotesi nulla, cioè escludere, in termini probabilistici, che le variazioni intervenute siano frutto esclusivo del caso cioè della normale variabilità intrinseca al clima.
Effettuando il test statistico (per le medie) in riferimento al campione della TMG annuale 1951-1980 (media = 14,6 °C, sigma = 0,42) e al campione della TMG annuale 1981-2010 (media = 15,1 °C. Sigma = 0,53) emerge che i due blocchi trentennali appartengono a differenti stati climatici, pertanto lo shift positivo di temperatura osservato è statisticamente significativo. In altri termini il trend esiste e la sua presenza non è dovuta al fatto di aver osservato casualmente campioni "differenti" ma piuttosto è presente almeno una causa all'origine di questa tendenza. E' possibile affermare questo solo in termini probabilistici, in particolare è possibile asserire che il trend è frutto del caso con probabilità inferiore all'1% o, in altri termini, il trend non è casuale con probabilità superiore al 99%.
Test Media TMG (Anno).png
A livello stagionale il discorso è leggermente diverso in quanto in riferimento alla primavera e all'estate vale quando detto sopra mentre per l'autunno e l'inverno la conformità dei due campioni allo stesso stato climatico è statisticamente significativa. In questo caso non si osserva un significativo shift positivo di temperatura in quanto è possibile affermare con probabilità prossima al 12% circa (per l'autunno) e 25% circa (per l'inverno) che la "differenza" osservata è puramente casuale.
Il valore del 12% e del 25% apparentemente sembrerebbero soglie probabilistiche molto piccole, quasi insignificanti ma chi ragiona in termini probabilistici (statistici) è ben consapevole che non vi è una grande differenza sostanziale quando si parla di probabilità al 12% o probabilità al 70%. Nel calcolo delle probabilità assume rilevanza solamente una soglia che tende asintoticamente alla certezza. Risulta pertanto statisticamente significativa esclusivamente una soglia di probabilità inferiore ad almeno il 5% quando si testa l'ipotesi nulla.
Test Media TMG (Autunno).png
Test Media TMG (Inverno).png
Analizziamo ora la varianza, il quadrato di sigma, quale espressione della variabilità delle osservazioni. Anche in questo caso l'esercizio è utile per testare la presenza o meno di una variazione nella variabilità climatica.
In questo caso il risultato è uguale sia a livello annuale, sia a livello stagionale ... non è presente alcuna variazione statisticamente significativa nella variabilità climatica. In riferimento, ad esempio, alla varianza annuale, possiamo asserire che la "differenza" osservata è imputabile al caso con probabilità circa del 22%.
Test Varianza TMG (Anno).png
![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Non penso che qualcuno metta in dubbio l'importanza della media e del range di normalità climatica. I miei dubbi erano relativi alla procedura con la quale si calcolano i percentili e loro utilitià. Se non ho capito male per 90° percentile si intende il 90% di quel valore, per 10° percentile il 10%. Poi dici che il valore percentile esprime la soglia che ha la probabilità del 10% di essere superata in senso maggiormente estremo.Domanda: visto che il risultato, esempio, del percentile estivo delle massime è 35°, com'è possibile che la probabilità di superarlo sia solo del 10% se ogni estate della serie 1981-2010 questo valore è stato superato? Lo stesso vale per il percentile, esempio, delle minime invernali, che è indicato in - 2°. Dovremmo dire che la probabilità che i - 2° vengano abbassati in inverno è del 90%, ma a che serve saperlo, sembra un'ovvietà, dal momento che nella serie solo un anno in inverno abbiamo avuto un estremo superiore (- 1,8° nella stagione invernale 1997).
Allora, da qui i miei dubbi di utilità: non sarebbe sufficiente prendere gli estremi stagionali di tutti gli anni della serie, fare la media e stabilire un range di normalità climatica sugli estremi, esattamente come facciamo con le medie? Esempio: la media delle minime estreme invernali del periodo 1981-2010 è stata di - 5,4°, si calcola un range per cui (sparo a caso) si ricava che la soglia di normalità va dai - 6,4° ai - 4,4°.
Cerco solo di capire, non ho studiato statistica anche se alcuni calcoli me li sono trovati davanti giocoforza dovendo elaborare delle medie coi dati meteo.
![]()
Provo a chiarire qualche dubbio partendo da qualche tua considerazione che riporto:
Per 90° percentile si intende la soglia al di sotto della quale sono presenti il 90% dei dati e al di sopra della quale sono presenti il 10% dei dati. Tale soglia è espressione della coda superiore (calda) della distribuzione dei dati termici.
Per 10° percentile si intende la soglia al di sotto della quale sono presenti il 10% dei dati e al di sopra della quale sono presenti il 90% dei dati. Tale soglia è espressione della coda inferiore (fredda) della distribuzione dei dati termici.
Per questo motivo superare tale soglia, in senso estremo (valori maggiori al 90° percentile e inferiori al 10° percentile), ha una probabilità teorica del 10%.
Tornando all'esempio della stagione estiva ed alla soglia dei 35° tale valore nel periodo 1981-2010 è stato superato 257 volte su 2760 osservazioni (92 osservazioni giornaliere per 30 anni). Frequenza di superamento = 9,3%, differente dal 10% che ci si attenderebbe per il fatto che i dati vengono arrotondati al decimo di grado durante le osservazioni e durante il calcolo del percentile.
E' preferibile il metodo dei percentili per diversi aspetti:
- l'estremo stagionale soffre maggiormente rispetto ad una soglia percentile estrema di sovrastime e/o sottostime della strumentazione nel corso del tempo o di una sua sostituzione o allocazione geografica differente;
- la mediazione dei valori estremi stagionali soffrirebbe comunque di queste eventuali stime e sovrastime in quanto la caratteristica della media è proprio quella di essere influenzata da eventuali outlier;
- lavorare sui valori estremi stagionali significa analizzare un dato di cui non si conosce a priori la probabilità empirica di accadimento mentre la soglia percentile contiene intrensicamente questo livello empirico di probabilità;
- lavorare esclusivamente sui valori estremi significa non considerare il peso dei restanti valori caratterizzanti la distribuzione delle osservazioni;
- il range di normalità climatica sulla distribuzione dei dati delle code estreme non ha senso statisticamente. Esempio per comprendere. ipotizziamo una media di valori estremi stagionali di 36° ed un sigma di 1°. Il range sarebbe 35 - 37. Non ha significato statistico e climatologico un range a due code in quanto a noi interessa solo il superamento nel verso dell'estremità, in questo caso da 36° in su.
Infine, per poter dissolvere qualche dubbio, qualche considerazione che anticipa futuri post relativamente all'analisi delle soglie estreme.
Superare i 35° in estate è normale o anomalo? Molto semplicisticamente vedremo che se lo supero 8-9 volte (10% circa di 92 osservazioni giornaliere) di in una stagione è normalissimo. E se le supero 8-9 volte consecutivamente? e se non lo supero mai? e se lo supero 50 volte? a queste domande posso fornire una risposta perchè utilizzando la soglia percentile conosco il peso di questo valore rispetto all'intera distribuzione dei dati.
![]()
[B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate
Segnalibri