Dalla statistica dei percentili cosa si ricava?? che indicazioni pratiche generali??
Grazie!
Tagliando una distribuzione in percentili (anziché guardare la sua sola media) ti rendi conto della sua forma e della sua ampiezza e dispersione. Ad esempio una distribuzione della piovosità annua con media 1000 mm ma 25esimo percentile 800 e 75esimo percentile 1200 è molto diversa da una distribuzione della piovosità annua con media 1000 mm, 25esimo percentile 300 e 75esimo percentile 1700 mm. La prima è relativamente compatta e indica un posto dove nel 50% degli anni la piovosità è tra 800 e 1200. La seconda è più dispersa perché nel 50% degli anni la piovosità è tra 300 e 1700 mm. Nella seconda distribuzione, un anno con 1680 mm è al limite ma appartiene all'insieme dei risultati che ci si aspetta un anno sì e uno no. Nella prima un anno con 1680 mm appartiene al 25% degli anni più piovosi.
Spero di essermi spiegato... Non mi pare di essere stato eccezionalmente chiaro. Cmq il punto è valutare quante volte succede qualcosa, tagliare la distribuzione degli eventi in aree di frequenza o probabilità, e andare a vedere se l'entità di qualche evento singolo ricade in aree frequenti o normali, inconsuete o eccezionali.
Facciamo un esempio con la media. Nel posto XY la notte Z la temperatura minima scende a -20; siccome XY ha media minime 7, siamo 13 gradi sotto la media. Domanda: è eccezionale? Se dal taglio in percentili della distribuzione degli scarti della minima dalla media delle minime si trova che la temperatura minima scende sotto -13 dalla media delle minime tutti gli anni e magari nel 10% delle notti invernali (cioè 9 volte l'anno), non c'è niente di eccezionale. Se salta fuori che magari succede non più di una volta al secolo allora è un evento interessante, decisamente raro.
Immaginavo non fosse semplice.
E direi di non aver ben capito.
Se ho una serie di precipitazioni di 30 anni, calcolo il 10°-50°-90° percentile
che corrispondono a: 965mm; 685m; 545mm.
(valore medio= 731,6)
Che indicazioni pratiche posso trarne?
che le precipitazioni stanno nel range dei percentili? anche se in un anno ho 1060mm, in un altro 990 e un altro ancora 970?
grazie grazie!!![]()
addirittura??!! wow! infinite grazie!
(ho anche 3 annate che sono sotto i 545 mm di precipitazioni)
grazie grazie grazie....
Faccio finta che la risposta sia sì e procedo.
Immagina una serie di dati che rappresentano qualcosa. Ad esempio piovosità di mesi. Tu puoi sommare tutti i valori dei vari mesi, dividere per il loro numero e calcolare la media.
Ma puoi anche fare un'altra cosa: puoi mettere i valori mensili in ordine crescente e contarli. A quel punto riparti dal più piccolo e conti progressivamente a salire, 1°, 2°, terzo, quarto ecc, fino ad arrivare al valore che lascia alla sua sinistra il 10% dei valori, cioè, se per esempio hai 100 valori mensili, 10 valori mensili. Quello è il decimo percentile. Proseguendo a contare verso l'alto lungo i valori crescenti, arriverai a un valore che ha alla sua sinistra la metà delle osservazioni e alla sua destra l'altra metà. Stavolta per semplicità facciamo finta che i mesi siano 101. Il valore che ha a sinistra 50 mesi e a destra altri 50 mesi (sempre ordinati in ordine crescente) è il 50esimo percentile ed è detto anche mediana. Se il numero di osservazioni non è divisibile per due senza decimali, la mediana è la media delle due osservazioni centrali. Proseguendo a contare verso l'alto fino al valore che ha a destra l'ultimo 10% di osservazioni ordinate, trovi il 90esimo percentile.
Ora, a questo punto il significato del decimo e novantesimo percentile dovrebbe essere chiaro. Sono dei punti di taglio nelle distribuzioni dei valori ordinati di una variabile quantitativa corrispondente a un qualche carattere o tratto o attributo metrico continuo o discreto o a intervalli ecc.
Stavolta mi sono spiegato?![]()
Occhio a un punto però. Si è parlato di decimo e novantesimo percentile, che non sono punti di taglio poi drammatici. Se i valori che capitano nei vari anni sono random e non hanno trend sistematici, il valore del 90esimo e quello del decimo percentile ti capitano ogni 10 anni, che non è poi una rarità, vuol dire che ai nostri tempi ciascuno vede quella cosa mediamente sette o otto volte prima di morire.
Ma puoi adottare punti di taglio più stringenti. Il quinto percentile ad esempio o il percentile 2,5. Per fare questo con serie storiche annuali hai bisogno di un sacco di anni, se lavori con serie mensili o dati giornalieri basta molto meno. Ora, una cosa che rimane sotto il percentile 2,5 o sopra il 97,5, è una cosa infrequente. Si può stringere ancora per arrivare a qualcosa che sotto generazione casuale dei dati, assumendo una vita media umana sui 75 anni, non tutti arrivano a vedere in vita propria (per esempio un accumulo di due metri di neve in un anno a Roma, traggo da un altro topic).
Ok! penso di aver capito qualcosa ora.
Il calcolo dei percentili l'avevo individuato ma il significato non proprio.
Quindi dal mio esempio potrei dire: che la prima distribuzione risulta molto piovosa rispetto alle altre due (50° e 90° percentile) e in alcuni anni avvengono fenomeni quasi inconsueti cioè o molto piovosi o poco piovosi.
Praticamente sì. Poi ci sono più o meno condivise convenzioni su cosa considerare inconsueto (oltre il 75esimo? oltre il 90esimo?) ma ciò che ti dicono i percentili è quanto lontano questa o quella osservazione o si colloca rispetto a un certo gruppo di osservazioni più o meno centrali o periferiche, e qual è la dispersione presente in un certo gruppo di osservazioni . Esistono anche grafici studiati appositamente per plottare dati di questo tipo, i box-and-wiskers-plot; vedi questo post Analisi dell'estate 2006 (TUTTE qui)
Oppure questo grafichetto
Nel secondo, la "scatola" (=box) blu rappresenta ampiezza e posizione del 50% centrale dei dati (quindi inizia al 25esimo percentile e finisce al 75esimo), il trattino dentro la scatola indica la posizione della mediana (cioè il 50% dei dati), le due linee esterne alla scatola (dette "baffi" o wiskers) indicano dove arrivano gli "scarti inter-quartilici" di cui non ricordo la definizione (ma è spiegato nel post che ho linkato sopra) e i punti indicano osservazioni sparse, estreme, che vanno oltre gli scarti interquartilici. Nel caso del grafico con i boxplot blu si vede un confronto tra stagioni fra le differenze tra le temperature minime di due stazioni, e si vede che in certe stagioni ci sono differenze anche grosse ma piuttosto sistematiche, e in altre è un disastro con osservazioni sparse e non si capisce molto bene che cosa succeda.
---------------------
always looking at the sky...
Interista
TRAP: "No say the cat is in the sac!"
Wizard: "sei disposto a trasferti in Provincia di Valle Seriana?" (5 maggio 2012)
---------------------
Ciao Ale!
20/12/2009... La giornata Perfetta! Min. -10.2° - Max. -5.1°
---------------------
Segnalibri