Finalmente riesco a rispondere.
Innanzitutto ancora grazie per le spiegazioni molto chiare, ora il concetto di gradi di libertà è chiaro!
Mi piace fare i calcoli a mano, penso sia molto utile per capire a fondo la teoria; ora veniamo alle conclusioni del post precedente, conclusioni che riporto:
"Come anticipavo, perché a fronte di 8675 osservazioni la legge della convergenza statistica prevede che per n=8765, cioè “grande”, vi sia già approssimazione perfetta alla curva teorica. Generalmente, per il test chi quadro, tale perfezione dovrebbe già sopraggiungere con n = 500. Questo significa che quel campione dovrebbe presentare frequenze osservate identiche alle frequenze attese per assumere vera l’ipotesi nulla. E’ una condizione che non ammette più una tolleranza negli scostamenti in quanto tali scostamenti dopo 8675 “prove” dovrebbero non essere più frutto del caso. Nell’ipotesi di un campione di sole 30 o 50 osservazioni è, invece, probabile che il caso stia giocando ancora un ruolo predominante nel determinare differenze tra osservato e teorico. In questo contesto, il test del chi quadro, come tutti i test di normalità, portano a rifiutare l’ipotesi nulla troppo frequentemente quando la numerosità del campione è elevata, cioè aumenta la probabilità di commettere l’errore di I tipo (falso positivo)."
A conferma di quanto scrivi, vediamo come si comportano i test di normalità aumentando la compressione dei dati e quindi diminuendo enormemente la numerosità campionaria.
Inizio analizzando i dati della pressione media di Settembre dal 1991 al 2015 (25 valori invece di 8675); ecco il qq-plot:
qq_plot_pressione_settembre.png
Lo scostamento dalla normalità è ben più marcato rispetto ai dati giornalieri; vediamo cosa dicono i test per la normalità (stavolta ho fatto tutto con gretl):
- Test di Doornik-Hansen = 3,05931, con p-value 0,216611
- W di Shapiro-Wilk = 0,967795, con p-value 0,589809
- Test di Lilliefors = 0,142992, con p-value ~= 0,2
- Test di Jarque-Bera = 1,40923, con p-value 0,494298
- Chi-quadro(2) = 3,059 con p-value 0,21661
Tutti i valori dei p-value sono ampiamente superiori alla soglia normalmente adottata come discriminante (0,05) per l'accettazione o il rifiuto dell'ipotesi nulla.
Ora vediamo cosa succede con i dati a compressione stagionale (estati dal 1991 al 2015):
qq_plot_pressione_estate.png
- Test di Doornik-Hansen = 3,41825, con p-value 0,181024
- W di Shapiro-Wilk = 0,919257, con p-value 0,0492777
- Test di Lilliefors = 0,154353, con p-value ~= 0,12
- Test di Jarque-Bera = 2,813, con p-value 0,244999
- Chi-quadro(2) = 3,418 con p-value 0,18102
I valori sono decisamente calati, ma quasi tutti inducono ad accettare l'ipotesi di normalità.
Vediamo infine cosa accade con i dati a compressione annuale (dal 1994 al 2014):
qq_plot_pressione_annua.png
- Test di Doornik-Hansen = 2,24872, con p-value 0,32486
- W di Shapiro-Wilk = 0,940957, con p-value 0,227603
- Test di Lilliefors = 0,183128, con p-value ~= 0,06
- Test di Jarque-Bera = 1,55503, con p-value 0,459547
- Chi-quadro(2) = 2,249 con p-value 0,32486
Anche qui tutti i test fanno propendere per vera l'ipotesi di normalità; il più "scettico" appare il test di Lilliefors.
Farò lo stesso confronto anche per le precipitazioni, i cui dati giornalieri si distribuiscono come una lognormale (distribuzione molto asimmetrica).
Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
http://forum.meteotriveneto.it/showt...tiche-in-quota
Riprendo il discorso dopo qualche settimana, facendo il confronto come promesso; anticipo subito che ho ottenuto un risultato per me inatteso e non capisco se ho sbagliato qualcosa.
Se prendiamo i dati degli accumuli mensili, essi si distribuiscono come una normale: infatti il totale della pioggia è la somma delle variabili casuali che rappresentano l'accumulo giornaliero, la somma di v.c. coincide con la loro media moltiplicata per la loro numerosità e la distribuzione di una v.c. non viene influenzata dalla moltiplicazione per delle costanti.
Ecco il qq-plot degli accumuli mensili di novembre (compreso quello appena trascorso, che è stato il più secco dal 1991):
distribuzione_accumuli_novembre.png
Ora il qq-plot degli accumuli autunnali:
distribuzione_accumuli_autunnali.png
Fin qui tutto bene, i test per la normalità vengono passati visto che i campioni sono di numerosità bassa (25) e quindi i test sono più "tolleranti" verso di essi rispetto a quelli molto numerosi.
Il problema è invece relativo agli accumuli giornalieri: come ho scritto nella parte di messaggio che ho quotato, le precipitazioni giornaliere seguono una distribuzione lognormale ossia le v.c. derivate calcolando i logaritmi naturali degli accumuli seguono una distribuzione normale.
Ho quindi calcolato i logaritmi naturali degli accumuli giornalieri, da 0.1 mm in su, e poi ho fatto il test di normalità ottenendo il seguente risultato:
distribuzione_accumuli_giornalieri.png
è chiaro che l'assunto di normalità non viene rispettato, soprattutto a causa del fatto che ci sono moltissime giornate con accumuli irrisori (non saprei come verificare quali sono dovuti veramente alla pioggia e quali alla rugiada o alla nebbia); inoltre, la definizione di v.c. lognormale prevede che per x=0 (accumulo nullo) corrisponda un valore pari a zero ma ci sono moltissime giornate senza pioggia.
La domanda è: ho sbagliato l'impostazione del problema oppure gli accumuli giornalieri non seguono la distribuzione lognormale?
Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
http://forum.meteotriveneto.it/showt...tiche-in-quota
ciao ragazzi. stavo spulciando i dati storici di milano brera...e...sinceramente sono rimasto un po male. ok il gw che c'è, ok che la temperatura media è aumentata di non so quanto(0,5-0,7?) però se quei dati sono veri devo dire che abbiamo un po una concezione sfasata del clima passato(anni 60/70 ad esempio).. ad esempio: ho cliccato su 4 anni a caso e solo una volta ho trovato minime sui +3 nell'arco di ottobre/prima meta di novembre.(calcolando l'isola di calore appunto)....
molti insistono che a novembre e addirittura a ottobre dovvrebbe fare minime sullo 0 in semiurbano. però sinceramente non risulta tanto una cosa vera.
non so. vi chiedo se qualcuno ha gia statistiche su questi dati se mi puo illuminare.
Segnalibri