I 36 mesi del triennio 2017-2018-2019 in Italia hanno avuto un'anomalia in media aritmetica di +0,94 °C sulla 1981-2010. La deviazione standard dell'insieme dei 36 dati è di 1,22 °C. Posto che so bene che costituire una gaussiana prendendo soltanto 36 elementi è un pugno in un occhio alle statistiche fatte bene e che oltre a ciò, in certe mensilità il trend di warming è più ripido che in altre (quindi può essere che rispetto alla 1981-2010 certi mesi contemporanei è normalissimo che siano molto spesso dal +1 °C in su, così come altri mesi contemporanei, magari con mix di trend rialzista non estremo ed ampia varianza interannuale con skewness nella coda di sinistra, siano relativamente di frequente sottomedia sulla 1981-2010), ho notato che usando il classico Test Z a una coda si ottiene questo:
- i mesi con anomalia pari o superiore a +1,0 °C sulla 1981-2010 sarebbero dovuti essere il 48% circa del totale, cioè circa 17 su 36. Risultano invece essere ben 25 su 36, cioè il 69% del totale.
- i mesi con anomalia compresa tra gli 0 °C e i +1,0 °C sulla 1981-2010 sarebbero dovuti essere circa il 30% del totale, cioè circa 11 su 36. Risultano invece essere soltanto 3 (!) su 36, cioè l'8% del totale.
- i mesi con anomalia inferiore agli 0 °C sulla 1981-2010 (anomalia negativa) sarebbero dovuti essere circa il 22% del totale, cioè circa 8 su 36. E sono stati esattamente 8 su 36: aspettativa del 22% rispettata in pieno.
Chi vuole può fare considerazioni in merito, fermo restando che (ahimè) una delle prime cose da dire è che il campione su cui mi sono basato per fare queste osservazioni è veramente molto esiguo.
Sai, ogni frase gira seguendo un'onda che tornerà, perché il mondo è rotondità.
prima di tutto mi devi spiegare il classico test Z a una coda
Va detto comunque che la mediana della serie (18esimo e 19esimo valore) è +1,2 °C, che differisce dalla media aritmetica di appena 0,26 °C, per cui (considerata anche l'esiguità del campione che tende a favorire certe "skewness-fantasma") non è detto che ci sia una coda allungata verso sinistra (e un ammasso anomalo nella zona di destra).
Ultima modifica di Perlecano; 04/01/2020 alle 18:55
Sai, ogni frase gira seguendo un'onda che tornerà, perché il mondo è rotondità.
prendi la differenza (in valore assoluto) tra il cut-off che vuoi considerare e la media aritmetica della tua distribuzione; dividi tale differenza per la deviazione standard del tuo insieme di elementi. Ottieni un valore che indica quale percentuale della distribuzione di elementi nella gaussiana si collocherebbe al di là della soglia di cut-off. Esempio: quanti mesi ti aspetteresti oltre i +2 °C con una gaussiana dalla media aritmetica di +0,94 °C e una deviazione standard di 1,22 °C? Devi fare 2-0,94 che fa 1,06, dividi ciò per 1,22 e ti esce 0,87. Vai poi a vedere nella tabella del test Z a una coda (perchè non devi considerare l'area sottesa ad entrambe le code, dato che il cut-off c'è solo da uno dei due lati della gaussiana, nella fattispecie nel "lato" - "coda" - di destra nel disegno della funzione) a che valore corrisponde 0,87: nella tabella a doppia entrata trovi l'elenco in verticale dei decimi e l'elenco in orizzontale dei centesimi (sono i numeri grassettati nel link a fine post). Sommandoli, cioè guardando la casella che interseca la riga decimale dello 0,8 e la colonna centesimale dello 0,07, troverai 0,192. Questi sarebbero indicativamente i mesi, sul totale di 1 (che rappresenta l'intero della "popolazione" di partenza) con anomalia pari o superiore a +2,0 °C rispetto ad un "pool" di mesi dalla media aritmetica di 0,94 °C e una deviazione standard di 1,22 °C. Quindi 0,192 su 1 significa il 19,2%. Avresti quindi, indicativamente, il 19,2% del totale dei mesi che hanno chiuso a +2,0 °C od oltre dalla norma di riferimento (che non è la norma della popolazione! nella fattispecie, la norma di riferimento è la 1981-2010, mentre la norma della popolazione è il famoso +0,94 °C sulla 1981-2010 stessa). La corrispondenza tra il valore Z (che è lo scarto tra la media della popolazione e la soglia del cut-off, tutto fratto la deviazione standard della popolazione. Ecco perchè si chiama "test Z") e la porzione dell'intero che si ritrova nella singola coda della gaussiana (nel caso del test Z a due code basta moltiplicare il valore del test Z a una coda per due, ma in genere le due code si usano per ben altri fini statistici, certamente non nell'esempio appena esposto) puoi trovarla nella tabella che ti linko qui sotto:
https://slideplayer.it/slide/980724/...estra+di+Z.jpg
Sai, ogni frase gira seguendo un'onda che tornerà, perché il mondo è rotondità.
ottimo
se ho bisogno di farmi una cultura di statistica tra te e @snowaholic sono a cavallo
fai conto che ho semplificato la trattazione e l'ho circoscritta al caso specifico (ad esempio ho parlato di discrasia tra norma di riferimento e norma della popolazione e non è detto che questo avvenga, dipende da che confronti devi fare: la popolazione fa già da riferimento per sè stessa? se la risposta fosse stata sì, tutta la storia che ho detto - tipo il differenziale a numeratore tra la soglia del cut-off sulla norma di riferimento e la norma della popolazione, a sua volta espressa rispetto alla norma di riferimento - sarebbe stata meno intricata).
Sai, ogni frase gira seguendo un'onda che tornerà, perché il mondo è rotondità.
certo, molto chiaro
venendo alla questione posta dalla statistica
dire che conferma pienamente la tipologia della circolazione in atto
ovvero a tot mesi fortemente anomali al rialzo è più facile, ovviamente facendo le debite proporzioni, che si interfacci un mese al ribasso che non un mese più vicino alla media di riferimento
questo perchè allo stato attuale quando la circolazione rispetta il potenziale che sottende sul nostro settore in funzione del bilancio termico e del quadro teleconnettivo è quasi scontato che presenti un valore molto più alto dell'intervallo 0-1
questo ovviamente non incide più di tanto sui fenomeni minoritari in relativa controtendenza e dunque la genesi di situazioni estemporanee (senza necessariamente arrivare all'estremo del maggio scorso) che per qualsivoglia ragione peculiare alla mensilità e alla stagione in cui si colloca vanno a incidere sul terzo gruppo
il che posto un 20% ca della statistica mi pare un valore onesto
probabilmente se avessimo un campione più rilevante avresti un discresto calo di questo valore che a mio avviso andrebbe più facilmente a rimpinguare il primo gruppo che non il secondo
considerazioni tutt'altro che lungimiranti ma non ho saputo ricavare di meglio al momento
Ho effettuato il test di Shapiro-Wilk per verificare se la distribuzione dei 36 elementi fosse approssimabile a una normale (e di conseguenza rappresentabile con una gaussiana o meno). Con un "p value" di 0,10 e un "p value" di 0,05 l'ipotesi nulla viene rifiutata, pertanto si può dire che con quell'intervallo di confidenza la distribuzione è approssimabile ad una normale. Soltanto con un "p value" di 0,01 l'ipotesi nulla non può essere rifiutata, ma secondo me la soglia di 0,05 va più che bene in questo caso per affermare che, nonostante tutto, la distribuzione è similare a quella di una gaussiana "ideale".
Questo non aggiunge molto a quanto già detto, o meglio, dimostra che per quanto "sui generis" sia la proporzione dei mesi notevolmente sopramedia rispetto al totale, da una distribuzione basata su un campione così esiguo ci si può aspettare queste sproporzioni anche fisiologicamente, pur rimanendo grossomodo nell'ambito di una distribuzione "normale" (tendente alla funzione di Gauss).
Ultima modifica di Perlecano; 04/01/2020 alle 21:25
Sai, ogni frase gira seguendo un'onda che tornerà, perché il mondo è rotondità.
Ampliando i dati, includendo ad esempio anche 2014, 2015 e 2016, cosa uscirebbe?
Magari ampliando il periodo il tutto si compensa parzialmente.
Sarebbe anche interessante vedere in altri periodi pluriannuali quali sarebbero dovute essere le proporzioni attese. Magari si può eseguire una statistica test sul confronto tra proporzioni a varianza nota, per valutare se l'ipotesi nulla sia valida o meno (Hp nulla: proporzione periodo 1 = proporzione periodo 2). Se non ricordo male si potrebbe eseguire in questo caso, su periodi temporali distinti e indipendenti (quindi che non si sovrappongono). Ma sei tu più ferrato in statistica, non io , magari sto dicendo un'eresia.
Segnalibri