Pagina 3 di 4 PrimaPrima 1234 UltimaUltima
Risultati da 21 a 30 di 32
  1. #21
    Vento forte L'avatar di appassionato_meteo
    Data Registrazione
    01/09/14
    Località
    Artegna (UD) 191 mslm
    Messaggi
    4,438
    Menzionato
    0 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da zione Visualizza Messaggio
    Ecco, mi ero perso questo bel post, mannaggia a me !

    Stampato il tutto, con calma vedro' di leggerlo x bene !
    Ottimo, se dopo vorrai dare il tuo contributo ben venga!
    Approfitto di questo post per dire che ho scaricato ed installato il software R, così potrò fare i grafici e le analisi statistiche ben più velocemente e in maniera più seria; cmq costruirò ugualmente un qq plot a mano (usando medie mensili, i dati non sono tanti e così diventa fattibile) perché ritengo che così si possa capire pienamente.
    Grazie ancora a CausaEffetto per la spiegazione sulla curva lognormale, anche questa mi era nota, con le sue spiegazioni i concetti mi sono ben più chiari; inoltre questa analisi dà l'opportunità di usare i vari concetti della statistica tutti insieme e così di capirli meglio (prima erano per me un pò "slegati" tra loro).
    In altre parole, analizzare problemi complessi (come questo) richiede l'applicazione di molti dei concetti imparati prima separatamente e di fatto li fa comprendere molto meglio.
    Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
    http://forum.meteotriveneto.it/showt...tiche-in-quota

  2. #22
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da appassionato_meteo Visualizza Messaggio
    Ottimo, se dopo vorrai dare il tuo contributo ben venga!
    Approfitto di questo post per dire che ho scaricato ed installato il software R, così potrò fare i grafici e le analisi statistiche ben più velocemente e in maniera più seria; cmq costruirò ugualmente un qq plot a mano (usando medie mensili, i dati non sono tanti e così diventa fattibile) perché ritengo che così si possa capire pienamente.
    Grazie ancora a CausaEffetto per la spiegazione sulla curva lognormale, anche questa mi era nota, con le sue spiegazioni i concetti mi sono ben più chiari; inoltre questa analisi dà l'opportunità di usare i vari concetti della statistica tutti insieme e così di capirli meglio (prima erano per me un pò "slegati" tra loro).
    In altre parole, analizzare problemi complessi (come questo) richiede l'applicazione di molti dei concetti imparati prima separatamente e di fatto li fa comprendere molto meglio.

    R è un software molto potente per l'analisi statistica ma presenta il grosso difetto di avere una interfaccia grafica inesistente ed un linguaggio di programmazione complesso. Personalmente ti consiglio di provare ad usare Gretl

    gretl

    un ottimo software econometrico, in italiano, con una gran bella interfaccia grafica ed un linguaggio di programmazione snello che permette di fare tutto ciò che serve in statistica. Tra l'altro si integra molto bene anche con R.

    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  3. #23
    Vento forte L'avatar di appassionato_meteo
    Data Registrazione
    01/09/14
    Località
    Artegna (UD) 191 mslm
    Messaggi
    4,438
    Menzionato
    0 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
    R è un software molto potente per l'analisi statistica ma presenta il grosso difetto di avere una interfaccia grafica inesistente ed un linguaggio di programmazione complesso. Personalmente ti consiglio di provare ad usare Gretl

    gretl

    un ottimo software econometrico, in italiano, con una gran bella interfaccia grafica ed un linguaggio di programmazione snello che permette di fare tutto ciò che serve in statistica. Tra l'altro si integra molto bene anche con R.

    Fantastico, l'ho scaricato e provato a fare alcuni grafici e qq plot; ora cerco di capire come fare i qq plot (e i grafici) con le medie mensili, annuali.. eccetera partendo da quelli grezzi che ho caricato nel programma; nel weekend posterò (finalmente) i qq plot mancanti!
    Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
    http://forum.meteotriveneto.it/showt...tiche-in-quota

  4. #24
    Vento forte L'avatar di appassionato_meteo
    Data Registrazione
    01/09/14
    Località
    Artegna (UD) 191 mslm
    Messaggi
    4,438
    Menzionato
    0 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Ecco i qq-plot per tutte le grandezze, al suolo e in quota realizzate con gretl:

    qq_plot_minime.png

    qq_plot_medie.png

    qq_plot_massime.png

    qq_plot_pioggia.png

    qq_plot_pressione.png

    qq_plot_radiazione.png

    qq_plot_850_hPa.png
    qq_plot_ZT.png

    Quello che si discosta maggiormente dalla normalità è ovviamente il grafico delle precipitazioni, che tendono a seguire piuttosto una lognormale; anche la quota dello ZT presenta una vistosa discrepanza dalla normalità nell'estremo sinistro, probabilmente perché la sua altezza ha per forza un valore minimo (94 metri in questo caso) che corrisponde ovviamente alla quota riferita al livello del mare della stazione dove viene lanciata la sonda.
    I grafici che sembrano più aderenti alla curva normale sembrano quelli delle temperature ad 850 hPa e della pressione al suolo.
    Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
    http://forum.meteotriveneto.it/showt...tiche-in-quota

  5. #25
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da appassionato_meteo Visualizza Messaggio
    Ecco i qq-plot per tutte le grandezze, al suolo e in quota realizzate con gretl:

    ... OMISSIS ...

    Quello che si discosta maggiormente dalla normalità è ovviamente il grafico delle precipitazioni, che tendono a seguire piuttosto una lognormale; anche la quota dello ZT presenta una vistosa discrepanza dalla normalità nell'estremo sinistro, probabilmente perché la sua altezza ha per forza un valore minimo (94 metri in questo caso) che corrisponde ovviamente alla quota riferita al livello del mare della stazione dove viene lanciata la sonda.
    I grafici che sembrano più aderenti alla curva normale sembrano quelli delle temperature ad 850 hPa e della pressione al suolo.
    Sbaglio o hai lavorato su dati a compressione giornaliera?

    Come dicevo nel mio post #15

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio

    Questo è quanto emerge in riferimento alla forma della distribuzione per dati giornalieri. Cosa succede alla forma della distribuzione di frequenza se la compressione temporale aumenta? Ad esempio, comprimiamo su base mensile i valori termici e di pressione (facendo la media) creando due nuove serie storiche a frequenza mensile e plottiamo il QQ-plot dei 25 dati relativi al mese di agosto (periodo 1991-2015):

    Immagine


    Immagine

    prova, ad esempio, a comprimere mensilmente il dato pluviometrico come ho fatto io al post #15 con i dati dei mesi di agosto e come faccio ora con i dati del mese di novembre:

    Nov-Pioggia.png

    vedrai che la distribuzione del campo pluviometrico mensile già cambia e tende ad avvicinarsi alla gaussiana.

    Per quanto riguarda la verifica della normalità per mezzo di test statistici, quindi non in via grafica, come sei messo a conoscenze? Vuoi provare tu ad iniziare il discorso?

    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  6. #26
    Vento forte L'avatar di appassionato_meteo
    Data Registrazione
    01/09/14
    Località
    Artegna (UD) 191 mslm
    Messaggi
    4,438
    Menzionato
    0 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
    Sbaglio o hai lavorato su dati a compressione giornaliera?

    Come dicevo nel mio post #15



    prova, ad esempio, a comprimere mensilmente il dato pluviometrico come ho fatto io al post #15 con i dati dei mesi di agosto e come faccio ora con i dati del mese di novembre:

    Nov-Pioggia.png

    vedrai che la distribuzione del campo pluviometrico mensile già cambia e tende ad avvicinarsi alla gaussiana.

    Per quanto riguarda la verifica della normalità per mezzo di test statistici, quindi non in via grafica, come sei messo a conoscenze? Vuoi provare tu ad iniziare il discorso?

    Eccomi.
    Introduco l’argomento dei test d’ipotesi, parlandone in generale per poi passare alla verifica della normalità in modo che tu possa capire il mio livello di conoscenza dell’argomento.
    I test d’ipotesi fanno parte della statistica inferenziale, ossia di quella parte della statistica che si prefigge lo scopo di ricostruire le caratteristiche di una popolazione a partire da quelle di un campione estratto da essa: solitamente non è possibile campionare tutta la popolazione, pertanto si è costretti ad analizzarne solo una parte e a derivare da essa le caratteristiche della popolazione di partenza.
    Quando estraiamo un campione da una popolazione (piccolo rispetto ad essa) possiamo calcolarne i vari parametri: media, varianza, distribuzione di frequenza.. eccetera ma questo è solo il punto di partenza poiché si possono verificare due casi:


    • Il campione non rappresenta bene le caratteristiche della popolazione, uno o più parametri sono significativamente diversi da quelli della popolazione originaria: esso è ingannevole.
    • Il campione rappresenta bene le caratteristiche della popolazione, esso ne è una rappresentazione in piccola scala.


    Il ruolo del test d’ipotesi è quello di stabilire la plausibilità dei due casi, ossia delle due ipotesi : esse vengono chiamate ipotesi nulla ed ipotesi alternativa, il test cerca di stabilire se è più probabile che il campione osservato provenga da una popolazione avente il valore del parametro specificato da una o dall’altra ipotesi.
    Il test d’ipotesi assume per vera l’ipotesi nulla, calcola la distribuzione di probabilità del parametro sotto indagine e calcola la probabilità di osservare un campione avente le caratteristiche di quello estratto per davvero: tale probabilità è detta P-value.
    Il P-value rappresenta la plausibilità dell’ipotesi nulla, più è basso e più si è portati a rifiutarla.
    Il valore del P-value che porta a rifiutare l’ipotesi nulla non è predeterminato, più è basso e più rappresenta una prova convincente contro l’ipotesi nulla; in genere il valore spartiacque è pari a 0.05, ma non si tratta di una regola che ha fondamento scientifico ma solamente empirico.
    I test d’ipotesi possono essere fatti per verificare vari parametri: la media di una popolazione, la differenza tra le medie di due popolazioni, la proporzione di una popolazione e la differenza di proporzioni tra due popolazioni e l’uguaglianza delle varianze delle due popolazioni.
    Tali test possono essere svolti per campioni molto o poco numerosi, nel secondo caso però la popolazione di partenza deve essere normale (anche solo approssimativamente).
    Ora presento un piccolo esempio, tratto da un libro di testo, per spiegare come agisce un test d’ipotesi per verificare la media di una popolazione: esso non è relativo alla meteorologia, mi trovo meglio a trattarne uno di un altro ambito.
    Una ditta produce motori per automobili la cui emissione media di ossidi di azoto è pari a 100 mg al secondo; essa vuole verificare che una nuova tecnologia sia in grado di ridurne le emissioni.
    Campionato un insieme di 50 motori, si trova che l’emissione media è pari a 92 mg/sec con uno scarto quadratico di 21; la domanda è: la nuova tecnologia riduce effettivamente le emissioni oppure no?
    Ci si può fidare del campione o no?
    In questo caso l’ipotesi nulla è che le emissioni siano pari o superiori a 100 mg/sec (il campione è ingannevole) mentre quella alternativa dice il contrario; per valutare la plausibilità delle due ipotesi dobbiamo calcolare il P-value, ossia dobbiamo prendere per vera l’ipotesi nulla e calcolare la probabilità di osservare un campione come quello estratto.
    Il campione è numeroso, per cui la media campionaria si distribuisce come una gaussiana come stabilito dal teorema del limite centrale; restano da stabilire media e scarto quadratico.
    Per rendere il test più significativo possibile, si deve porre la media pari a 100 ossia pari al caso più favorevole per la validità dell’ipotesi nulla: se il P-value è già piccolo nel caso più favorevole, lo sarà a maggior ragione negli altri (infatti se assumessimo una media più alta, la curva rappresentante la distribuzione delle medie si sposterebbe a destra e il valore della media campionaria si sposterebbe ancor di più verso la coda destra della distribuzione).
    Lo scarto quadratico è pari a quello campionario diviso per la radice quadrata della numerosità campionaria, in accordo con il teorema del limite centrale: in questo caso è pari a 2,97.
    Per calcolare il P-value, dobbiamo ricavare la probabilità che la media campionaria sia pari o minore a quella osservata: in altre parole, dobbiamo calcolare la probabilità di estrarre valori pari o minori a 92 da una gaussiana avente media 100 e scarto quadratico pari a 2,97.
    Normalizzando le variabili e facendo i calcoli, si trova che il P-value è pari a 0.0036: se le emissioni medie dei nuovi motori fossero pari a 100, la probabilità di estrarre un campione avente media 92 è pari solamente a 0.0036 (quindi molto basse). Questa è una prova molto forte contro l’ipotesi nulla, è legittimo pensare che il campione rappresenti correttamente la popolazione di partenza e che la nuova tecnologia riduca le emissioni. Naturalmente si può concludere solamente che le emissioni siano minori a 100 mg/sec ma non ipotizzare con certezza un valore preciso; si può però calcolarne un intervallo di confidenza.

    Oltre a questi test, è possibile verificare la distribuzione della popolazione di partenza a partire da quella del campione: uno di essi è quello della bontà d’adattamento che confronta la distribuzione dei dati campionari con quella attesa (funziona bene per numerosità campionarie elevate e ogni classe deve avere una frequenza minima pari a 5) calcolando il valore del chi quadrato, altri sono quelli disponibili e calcolabili con il software gretl.
    Per ognuno di essi, l’ipotesi nulla prevede che la distribuzione del campione non abbia differenze significative con la gaussiana avente media e varianza pari a quella campionaria, mentre quella alternativa prevede uno scostamento significativo: minore è il P-value, più è plausibile che la popolazione di partenza non sia normale.

    Prima di proseguire, dimmi cosa pensi di quanto scritto sperando di non aver scritto.. troppe sciocchezze e di non essere andato troppo OT! (a domani per i grafici sulle precipitazioni, avevo lavorato con idati a compressione giornaliera, proverò ad aumentarla e a postarne i grafici risultanti)
    Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
    http://forum.meteotriveneto.it/showt...tiche-in-quota

  7. #27
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Tranquillo, non sei OT dal momento che lo scopo di questo spazio è anche di natura didattica. Sui test statistici, in generale, si potrebbero scrivere pagine e pagine di contenuti ed in questo caso saremmo certamente OT , pertanto affronteremo dubbi / approfondimenti specifici solo su richiesta esplicita.

    Una sola cosa mi preme sottolineare dal momento che nella quasi totalità dei testi di statistica che ho sfogliato non è menzionata. Soprattutto per i test sulla bontà d'adattamento, al crescere della numerosità del campione l'ipotesi nulla tende ad essere rifiutata con maggior facilità. Questo perché più ci si avvicina all'ipotetico "limite infinito" della grandezza del campione più ci si avvicina alla popolazione e la popolazione, ad esempio nel test sulla normalità, rappresenta alla perfezione la curva teorica gaussiana. Tradotto in altri termini, minore è la dimensione campionaria e maggiore è il grado di imperfezione ritenuto plausibile, mentre maggiore è la dimensione campionaria e minore è lo scostamento accettabile rispetto al modello teorico di riferimento. Ne consegue che con grandi campioni, pur in presenza di un'approssimazione gaussiana quasi perfetta il test statistico tende a far rifiutare l'ipotesi nulla cioè il test perde in potenza. Prova a verificarlo tu stesso questo fatto ad esempio utilizzando il test del Chi-quadrato sui dati della pressione atmosferica
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  8. #28
    Vento forte L'avatar di appassionato_meteo
    Data Registrazione
    01/09/14
    Località
    Artegna (UD) 191 mslm
    Messaggi
    4,438
    Menzionato
    0 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da CausaEffetto Visualizza Messaggio
    Tranquillo, non sei OT dal momento che lo scopo di questo spazio è anche di natura didattica. Sui test statistici, in generale, si potrebbero scrivere pagine e pagine di contenuti ed in questo caso saremmo certamente OT , pertanto affronteremo dubbi / approfondimenti specifici solo su richiesta esplicita.

    Una sola cosa mi preme sottolineare dal momento che nella quasi totalità dei testi di statistica che ho sfogliato non è menzionata. Soprattutto per i test sulla bontà d'adattamento, al crescere della numerosità del campione l'ipotesi nulla tende ad essere rifiutata con maggior facilità. Questo perché più ci si avvicina all'ipotetico "limite infinito" della grandezza del campione più ci si avvicina alla popolazione e la popolazione, ad esempio nel test sulla normalità, rappresenta alla perfezione la curva teorica gaussiana. Tradotto in altri termini, minore è la dimensione campionaria e maggiore è il grado di imperfezione ritenuto plausibile, mentre maggiore è la dimensione campionaria e minore è lo scostamento accettabile rispetto al modello teorico di riferimento. Ne consegue che con grandi campioni, pur in presenza di un'approssimazione gaussiana quasi perfetta il test statistico tende a far rifiutare l'ipotesi nulla cioè il test perde in potenza. Prova a verificarlo tu stesso questo fatto ad esempio utilizzando il test del Chi-quadrato sui dati della pressione atmosferica
    Ho provato a fare il test del chi-quadrato utilizzando i dati giornalieri della pressione atmosferica aggiornati al 25 ottobre scorso, ossia sui dati che avevo messo a disposizione; l'ho realizzato a mano su Excel perché ritengo che così posso capirlo molto meglio.
    Ho però alcuni dubbi sul risultato ottenuto e sulla sua interpretazione alla luce di quanto hai detto e confrontandolo anche con il qq-plot, pertanto ti chiedo una tua opinione sui calcoli fatti che adesso ti illustro e sulle conclusioni che si possono trarre.
    Per prima cosa ho calcolato la media e lo scarto quadratico medio di tutta la serie (composta da 8675 valori), i valori sono rispettivamente 1004,5 e 7,5; i valori estremi sono 965,1 e 1030,2 hPa.
    Ho iniziato dividendo i dati in classi di uguale ampiezza e contando il numero di osservazioni che cadono in esse; il passo successivo è quello di stimare il numero di osservazioni che dovrebbero essere presneti all'interno di una classe ipotizzando che la distribuzione sia una gaussiana di media e scarto quadratico uguale a quelli del campione.
    Ho standardizzato i valori estremi di ogni classe per poter calcolare l'area della gaussiana compresa tra i due estremi (e il numero di osservazioni attese, moltiplicando l'area per il numero totale di osservazioni) ma mi sono imbattuto in una prima difficoltà: i valori pressori molto bassi (965, 970, 975 hPa..) mi davano un valore standardizzato molto basso, la tabella della normale che ho a disposizione va da -3.69 a +3.69.
    Pertanto ho calcolato il valore standardizzabile più piccolo e grande (977 e 1032 hPa), ho cambiato la classi e ho contato le osservazioni che cadono dentro di esse:

    Frequenze_osservate.png

    In seguito ho standardizzato i valori estremi di ogni classe, riportandone anche l'area a sinistra di ciascuno di essi:

    Valori_z_aree.png

    Ho quindi calcolato le frequenze attese, sottraendo opportunamente le aree e moltiplicando il risultato per il numero di osservazioni (arrotondando all'unità):

    Frequenze_osservate_attese.png

    Il test chi-quadrato richiede che le frequenze attese siano almeno pari a 5, per cui ho accorpato la prima classe con la seconda e ho rifatto il calcolo per essa; poi ho calcolato la quantità chi-quadro per ogni classe (differenza al quadrato tra numero di osservazioni effettive e quelle attese diviso quelle attese) e le ho sommate tutte ottenendo il seguente risultato:

    Chi-quadro.png

    Ora cominciano i dubbi: in un testo ho letto che i gradi di libertà della distribuzione sono pari al numero di classi meno uno (quindi 10), in questo (ftp://fileserver.itb.cnr.it/dario/st...20OUTLIERS.pdf pagina 40 del file, 39 del testo) i gdl sono pari al numero di classi meno le grandezze ricavate dal campione (quindi 8). Qual è la risposta giusta?

    Ad ogni modo, a prescindere dai gdl, il valore del chi-quadro è altissimo: dalla tavola che possiedo, per α = 0.005 abbiamo rispettivamente 21.955 e 25.188 (e non si va oltre), molto inferiore a quello calcolato.
    Si può concludere che il P-value è praticamente pari a zero e che quindi l'ipotesi nulla va rifiutata?

    Inoltre volevo fare un confronto tra quanto ottenuto (ammesso che sia giusto) e il qq-plot; la tabella indica un forte scostamento dalla normalità per i valori estremi e anche il grafico li indica chiaramente.
    Tuttavia, c'è un forte scostamento dalla normalità anche per le classi 992-997 hPa e 1002-1007 hPa (valori standard compresi tra -1.68 e -1 e tra -0.33 e +0.34) ma il grafico non mostra deviazioni apprezzabili: c'è qualcosa che non va, oppure il confronto non può essere fatto perché il grafico è troppo grossolano?
    Riposto il qq-plot per comodità:

    qq_plot_pressione.png

    Ultima cosa: ho provato a fare gli altri test di normalità usando gretl (non ho visto quello del chi-quadro: sono io che non riesco a trovarlo oppure non è disponibile?) e mi hanno dato un P-value bassissimo; i risultati ottenuti sono una conferma di quanto hai affermato sulla potenza oppure no?
    L'approssimazione gaussiana pare perfetta (tranne agli estremi) secondo il qq-plot, mentre per il test del chi-quadro ci sono scostamenti significativi anche altrove e quindi sono un pò confuso su come valutare l'approssimazione gaussiana (e di conseguenza capire se è una conferma oppure no di quanto hai affermato sulla potenza del test).

    Grazie per la pazienza!
    Discussione che raccoglie medie e statistiche sulle grandezze in quota (principalmente medie ad 850 hPa, quota ZT, geopotenziali a 500 hPa) di Udine:
    http://forum.meteotriveneto.it/showt...tiche-in-quota

  9. #29
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da appassionato_meteo Visualizza Messaggio
    Ho provato a fare il test del chi-quadrato utilizzando i dati giornalieri della pressione atmosferica aggiornati al 25 ottobre scorso, ossia sui dati che avevo messo a disposizione; l'ho realizzato a mano su Excel perché ritengo che così posso capirlo molto meglio.
    Ho però alcuni dubbi sul risultato ottenuto e sulla sua interpretazione alla luce di quanto hai detto e confrontandolo anche con il qq-plot, pertanto ti chiedo una tua opinione sui calcoli fatti che adesso ti illustro e sulle conclusioni che si possono trarre.
    Per prima cosa ho calcolato la media e lo scarto quadratico medio di tutta la serie (composta da 8675 valori), i valori sono rispettivamente 1004,5 e 7,5; i valori estremi sono 965,1 e 1030,2 hPa.
    Ho iniziato dividendo i dati in classi di uguale ampiezza e contando il numero di osservazioni che cadono in esse; il passo successivo è quello di stimare il numero di osservazioni che dovrebbero essere presneti all'interno di una classe ipotizzando che la distribuzione sia una gaussiana di media e scarto quadratico uguale a quelli del campione.
    Ho standardizzato i valori estremi di ogni classe per poter calcolare l'area della gaussiana compresa tra i due estremi (e il numero di osservazioni attese, moltiplicando l'area per il numero totale di osservazioni) ma mi sono imbattuto in una prima difficoltà: i valori pressori molto bassi (965, 970, 975 hPa..) mi davano un valore standardizzato molto basso, la tabella della normale che ho a disposizione va da -3.69 a +3.69.
    Pertanto ho calcolato il valore standardizzabile più piccolo e grande (977 e 1032 hPa), ho cambiato la classi e ho contato le osservazioni che cadono dentro di esse:

    Frequenze_osservate.png

    In seguito ho standardizzato i valori estremi di ogni classe, riportandone anche l'area a sinistra di ciascuno di essi:

    Valori_z_aree.png

    Ho quindi calcolato le frequenze attese, sottraendo opportunamente le aree e moltiplicando il risultato per il numero di osservazioni (arrotondando all'unità):

    Frequenze_osservate_attese.png

    Il test chi-quadrato richiede che le frequenze attese siano almeno pari a 5, per cui ho accorpato la prima classe con la seconda e ho rifatto il calcolo per essa; poi ho calcolato la quantità chi-quadro per ogni classe (differenza al quadrato tra numero di osservazioni effettive e quelle attese diviso quelle attese) e le ho sommate tutte ottenendo il seguente risultato:

    Chi-quadro.png

    Ora cominciano i dubbi: in un testo ho letto che i gradi di libertà della distribuzione sono pari al numero di classi meno uno (quindi 10), in questo (ftp://fileserver.itb.cnr.it/dario/st...20OUTLIERS.pdf pagina 40 del file, 39 del testo) i gdl sono pari al numero di classi meno le grandezze ricavate dal campione (quindi 8). Qual è la risposta giusta?

    Ad ogni modo, a prescindere dai gdl, il valore del chi-quadro è altissimo: dalla tavola che possiedo, per α = 0.005 abbiamo rispettivamente 21.955 e 25.188 (e non si va oltre), molto inferiore a quello calcolato.
    Si può concludere che il P-value è praticamente pari a zero e che quindi l'ipotesi nulla va rifiutata?

    Inoltre volevo fare un confronto tra quanto ottenuto (ammesso che sia giusto) e il qq-plot; la tabella indica un forte scostamento dalla normalità per i valori estremi e anche il grafico li indica chiaramente.
    Tuttavia, c'è un forte scostamento dalla normalità anche per le classi 992-997 hPa e 1002-1007 hPa (valori standard compresi tra -1.68 e -1 e tra -0.33 e +0.34) ma il grafico non mostra deviazioni apprezzabili: c'è qualcosa che non va, oppure il confronto non può essere fatto perché il grafico è troppo grossolano?
    Riposto il qq-plot per comodità:

    qq_plot_pressione.png

    Ultima cosa: ho provato a fare gli altri test di normalità usando gretl (non ho visto quello del chi-quadro: sono io che non riesco a trovarlo oppure non è disponibile?) e mi hanno dato un P-value bassissimo; i risultati ottenuti sono una conferma di quanto hai affermato sulla potenza oppure no?
    L'approssimazione gaussiana pare perfetta (tranne agli estremi) secondo il qq-plot, mentre per il test del chi-quadro ci sono scostamenti significativi anche altrove e quindi sono un pò confuso su come valutare l'approssimazione gaussiana (e di conseguenza capire se è una conferma oppure no di quanto hai affermato sulla potenza del test).

    Grazie per la pazienza!
    Da una prima veloce lettura direi che il quadro generale mi torna. Dal momento che hai messo molta carne al fuoco mi riservo di risponderti nel modo più dettagliato possibile, su tutti i dubbi, appeno avrò un po' di tempo anche per valutare i calcoli che hai fatto.

    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

  10. #30
    Vento moderato
    Data Registrazione
    08/02/12
    Località
    Montecchio Emilia (RE)
    Età
    45
    Messaggi
    1,262
    Menzionato
    4 Post(s)

    Predefinito Re: Sul concetto di clima e normalità climatica

    Citazione Originariamente Scritto da appassionato_meteo Visualizza Messaggio

    Grazie per la pazienza!
    Di nulla!

    Innanzitutto complimenti per l’impegno. Comprendere esercitandosi nei calcoli è la strada migliore, la più faticosa ma quella migliore dal momento che dalla teoria passi alla pratica e come avrai già avuto modo di sperimentare, fare teoria e fare pratica non è proprio la stessa cosa.

    Subito un regalo ... ti faccio presente che le tavole di ogni distribuzione utile all’inferenza le trovi in gretl al seguente percorso:

    tavole.PNG

    così come trovi il test del Chi-quadro per la normalità di una distribuzione di frequenza:

    Chiquadrato.PNG

    Detto questo, da una verifica a campione mi sembra che i calcoli che hai eseguito siano corretti.

    Capitolo gradi di libertà … ammetto che ho sempre avuto difficoltà a fare mio questo concetto al di fuori dei t-test pertanto non garantisco di riuscire a trasmettere con facilità il mio pensiero. Ci provo.

    Definizione di Wikipedia:
    I gradi di libertà di una variabile aleatoria o di una statistica in genere esprimono il numero minimo di dati sufficienti a valutare la quantità d'informazione contenuta nella statistica. Infatti, quando un dato non è indipendente, l'informazione che esso fornisce è già contenuta implicitamente negli altri. È possibile quindi calcolare le statistiche utilizzando soltanto il numero di osservazioni indipendenti, consentendo in questo modo di ottenere una maggiore precisione nei risultati.

    Che vuol dire tutto ciò? Prova a leggere qui per farti una idea pratica …

    APPENDICE (gradi di libertà)

    … quindi se ne deduce che in una tabella del tipo 11 righe x 2 colonne (classi e frequenze attese), come la nostra, i gradi di libertà sono funzione della numerosità del campione (11 classi, cioè le sole righe) in quanto:

    gdl = (11 – 1)(2 – 1)=10

    Il fattore (2-1) del prodotto è ininfluente poiché vale sempre 1 quindi il risultato finale (10) è funzione solo del numero di righe, la numerosità del campione, in questo caso le classi. E’ intuitivo dal momento che l’ultima frequenza attesa (quella dell’ultima classe) è sempre vincolata all’assumere un valore ottenibile come differenza fra totale e somma delle frequenze nelle restanti 10 classi. In questo caso la numerosità del campione determina un primo vincolo (in tabelle con più colonne, cioè quando le variabili sono vincolate da altri variabili tabellate, i vincoli potrebbero essere in numero maggiore dell’unità).

    C’è un però. Le frequenze attese, nel caso di una distribuzione gaussiana di riferimento, sono a loro volta vincolate dalla media e dalla deviazione standard, cioè dai due momenti di primo e secondo ordine che caratterizzano una gaussiana. Solo con quei due valori tu puoi costruire una curva normale pertanto rappresentano due vincoli aggiuntivi ai quali devono sottostare i dati affinché la curva risulti gaussiana.

    Cioè, ad esempio, la frequenza attesa di 2229 è vincolata ad assumere quel determinato valore in funzione della frequenza teorica gaussiana che a sua volta è dipendente da media e sigma del campione, quindi queste due statistiche campionarie rappresentano ulteriori due vincoli all’indipendenza dei dati.

    In totale abbiamo 3 vincoli (numerosità, media, sigma) quindi i gdl sono 11 – 3 = 8.

    Detto questo, a fronte del valore ottenuto della statistica test, corrisponde un p-value prossimo a zero quindi l’ipotesi nulla è verosimilmente da rifiutare, pertanto se ne deduce che la distribuzione non è gaussiana.

    Strano vero?

    La discordanza rispetto alla retta del QQ plot appare marcata solo in prossimità di valori di Z maggiori o inferiori a 2 e -2 il che significa che circa il 95% dei dati compresi fra -2 sigma e + 2 sigma approssimano una gaussiana, quindi perché il test numerico rifiuta categoricamente l’ipotesi nulla di normalità?

    Come anticipavo, perché a fronte di 8675 osservazioni la legge della convergenza statistica prevede che per n=8765, cioè “grande”, vi sia già approssimazione perfetta alla curva teorica. Generalmente, per il test chi quadro, tale perfezione dovrebbe già sopraggiungere con n = 500. Questo significa che quel campione dovrebbe presentare frequenze osservate identiche alle frequenze attese per assumere vera l’ipotesi nulla. E’ una condizione che non ammette più una tolleranza negli scostamenti in quanto tali scostamenti dopo 8675 “prove” dovrebbero non essere più frutto del caso. Nell’ipotesi di un campione di sole 30 o 50 osservazioni è, invece, probabile che il caso stia giocando ancora un ruolo predominante nel determinare differenze tra osservato e teorico. In questo contesto, il test del chi quadro, come tutti i test di normalità, portano a rifiutare l’ipotesi nulla troppo frequentemente quando la numerosità del campione è elevata, cioè aumenta la probabilità di commettere l’errore di I tipo (falso positivo).
    [B]Lorenzo Smeraldi : [/B]le migliori idee sono sempre quelle che vengono realizzate

Segnalibri

Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •