Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
Sbaglio o hai lavorato su dati a compressione giornaliera?

Come dicevo nel mio post #15



prova, ad esempio, a comprimere mensilmente il dato pluviometrico come ho fatto io al post #15 con i dati dei mesi di agosto e come faccio ora con i dati del mese di novembre:

Nov-Pioggia.png

vedrai che la distribuzione del campo pluviometrico mensile già cambia e tende ad avvicinarsi alla gaussiana.

Per quanto riguarda la verifica della normalità per mezzo di test statistici, quindi non in via grafica, come sei messo a conoscenze? Vuoi provare tu ad iniziare il discorso?

Eccomi.
Introduco l’argomento dei test d’ipotesi, parlandone in generale per poi passare alla verifica della normalità in modo che tu possa capire il mio livello di conoscenza dell’argomento.
I test d’ipotesi fanno parte della statistica inferenziale, ossia di quella parte della statistica che si prefigge lo scopo di ricostruire le caratteristiche di una popolazione a partire da quelle di un campione estratto da essa: solitamente non è possibile campionare tutta la popolazione, pertanto si è costretti ad analizzarne solo una parte e a derivare da essa le caratteristiche della popolazione di partenza.
Quando estraiamo un campione da una popolazione (piccolo rispetto ad essa) possiamo calcolarne i vari parametri: media, varianza, distribuzione di frequenza.. eccetera ma questo è solo il punto di partenza poiché si possono verificare due casi:


  • Il campione non rappresenta bene le caratteristiche della popolazione, uno o più parametri sono significativamente diversi da quelli della popolazione originaria: esso è ingannevole.
  • Il campione rappresenta bene le caratteristiche della popolazione, esso ne è una rappresentazione in piccola scala.


Il ruolo del test d’ipotesi è quello di stabilire la plausibilità dei due casi, ossia delle due ipotesi : esse vengono chiamate ipotesi nulla ed ipotesi alternativa, il test cerca di stabilire se è più probabile che il campione osservato provenga da una popolazione avente il valore del parametro specificato da una o dall’altra ipotesi.
Il test d’ipotesi assume per vera l’ipotesi nulla, calcola la distribuzione di probabilità del parametro sotto indagine e calcola la probabilità di osservare un campione avente le caratteristiche di quello estratto per davvero: tale probabilità è detta P-value.
Il P-value rappresenta la plausibilità dell’ipotesi nulla, più è basso e più si è portati a rifiutarla.
Il valore del P-value che porta a rifiutare l’ipotesi nulla non è predeterminato, più è basso e più rappresenta una prova convincente contro l’ipotesi nulla; in genere il valore spartiacque è pari a 0.05, ma non si tratta di una regola che ha fondamento scientifico ma solamente empirico.
I test d’ipotesi possono essere fatti per verificare vari parametri: la media di una popolazione, la differenza tra le medie di due popolazioni, la proporzione di una popolazione e la differenza di proporzioni tra due popolazioni e l’uguaglianza delle varianze delle due popolazioni.
Tali test possono essere svolti per campioni molto o poco numerosi, nel secondo caso però la popolazione di partenza deve essere normale (anche solo approssimativamente).
Ora presento un piccolo esempio, tratto da un libro di testo, per spiegare come agisce un test d’ipotesi per verificare la media di una popolazione: esso non è relativo alla meteorologia, mi trovo meglio a trattarne uno di un altro ambito.
Una ditta produce motori per automobili la cui emissione media di ossidi di azoto è pari a 100 mg al secondo; essa vuole verificare che una nuova tecnologia sia in grado di ridurne le emissioni.
Campionato un insieme di 50 motori, si trova che l’emissione media è pari a 92 mg/sec con uno scarto quadratico di 21; la domanda è: la nuova tecnologia riduce effettivamente le emissioni oppure no?
Ci si può fidare del campione o no?
In questo caso l’ipotesi nulla è che le emissioni siano pari o superiori a 100 mg/sec (il campione è ingannevole) mentre quella alternativa dice il contrario; per valutare la plausibilità delle due ipotesi dobbiamo calcolare il P-value, ossia dobbiamo prendere per vera l’ipotesi nulla e calcolare la probabilità di osservare un campione come quello estratto.
Il campione è numeroso, per cui la media campionaria si distribuisce come una gaussiana come stabilito dal teorema del limite centrale; restano da stabilire media e scarto quadratico.
Per rendere il test più significativo possibile, si deve porre la media pari a 100 ossia pari al caso più favorevole per la validità dell’ipotesi nulla: se il P-value è già piccolo nel caso più favorevole, lo sarà a maggior ragione negli altri (infatti se assumessimo una media più alta, la curva rappresentante la distribuzione delle medie si sposterebbe a destra e il valore della media campionaria si sposterebbe ancor di più verso la coda destra della distribuzione).
Lo scarto quadratico è pari a quello campionario diviso per la radice quadrata della numerosità campionaria, in accordo con il teorema del limite centrale: in questo caso è pari a 2,97.
Per calcolare il P-value, dobbiamo ricavare la probabilità che la media campionaria sia pari o minore a quella osservata: in altre parole, dobbiamo calcolare la probabilità di estrarre valori pari o minori a 92 da una gaussiana avente media 100 e scarto quadratico pari a 2,97.
Normalizzando le variabili e facendo i calcoli, si trova che il P-value è pari a 0.0036: se le emissioni medie dei nuovi motori fossero pari a 100, la probabilità di estrarre un campione avente media 92 è pari solamente a 0.0036 (quindi molto basse). Questa è una prova molto forte contro l’ipotesi nulla, è legittimo pensare che il campione rappresenti correttamente la popolazione di partenza e che la nuova tecnologia riduca le emissioni. Naturalmente si può concludere solamente che le emissioni siano minori a 100 mg/sec ma non ipotizzare con certezza un valore preciso; si può però calcolarne un intervallo di confidenza.

Oltre a questi test, è possibile verificare la distribuzione della popolazione di partenza a partire da quella del campione: uno di essi è quello della bontà d’adattamento che confronta la distribuzione dei dati campionari con quella attesa (funziona bene per numerosità campionarie elevate e ogni classe deve avere una frequenza minima pari a 5) calcolando il valore del chi quadrato, altri sono quelli disponibili e calcolabili con il software gretl.
Per ognuno di essi, l’ipotesi nulla prevede che la distribuzione del campione non abbia differenze significative con la gaussiana avente media e varianza pari a quella campionaria, mentre quella alternativa prevede uno scostamento significativo: minore è il P-value, più è plausibile che la popolazione di partenza non sia normale.

Prima di proseguire, dimmi cosa pensi di quanto scritto sperando di non aver scritto.. troppe sciocchezze e di non essere andato troppo OT! (a domani per i grafici sulle precipitazioni, avevo lavorato con idati a compressione giornaliera, proverò ad aumentarla e a postarne i grafici risultanti)