Ciao, devo realizzare un progetto per l'esame di statistica. Il problema è questo: ho una serie di dati pluviometrici (precipitazioni giornaliere in una determinata area) in cui, a causa di malfunzionamenti della stazione meteorologica, ci sono dei buchi (in pratica in alcuni giorni non è stato rilevato niente). Mi viene chiesto di "riempire" questi intervalli in cui non c'è stata la misurazione. Voi come fareste? C'è qualche metodo statistico atto a questo scopo? Mi hanno consigliato l'utilizzo dello stimatore lineare, oppure l'interpolazione lineare. Ho trovato molte dispense su internet al riguardo, ma proprio non riesco ad applicare tali concetti al caso del mio esame. Per chiarezza vi posto alcune immagini della serie di dati che devo trattare.
Ogni ulteriore proposta che vi viene in mente è ben accetta.
Sono davvero in crisi. Fate conto che questo è l'ultimo esame. Ho 1000 cose da fare, e devo ancora chiedere la tesi. Vi prego, datemi una mano....grazie![]()
fu Adrenaline...bannato a vita, colpevole di aver definito la meteorologia una scienza, quando evidentemente è materiale da chiacchiere da bar...
Val di Fassa, sei entrata nel mio cuore!
Se ti hanno dato i dati di un'altra stazione, fai una regressione per predire i valori di quella coi dati mancanti usando come predittore l'altra, e stimati i coefficienti, stima appunto tramite l'equazione di regressione i valori attesi dei giorni con buco.
Se hai solo i valori di quella stazione, credo che non si possa fare molto di più che riempire i buchi con qualche interpolazione. Non è agevole, però, valutare che valori usare.
Hai un solo anno? Potresti sostituire i valori mancanti con la media della piovosità degli stessi giorni negli anni precedenti oppure con la piovosità media dei restanti giorni di quel mese di quell'anno.
Sono molto reticente a sostituire i valori mancanti con stime (e lo farei solo se il dato mi servisse molto e avessi un'altra stazione vicina in base alla quale fare una stima) ma dovendo farlo per un esame credo che opterei per la piovosità media dei restanti giorni di quel mese o, magari, della settimana prima e della settimana dopo il buco.
Puoi giustificare questo sostenendo che la piovosità avrà dei trend decadali e sostituisci i dati mancanti con valori provenienti da decadi vicine. Nel caso dell'imputazione dei missing con valori desunti in base alla relazione tra la stazione target e un'altra vicina devi esplicitare l'assunto che in quei specifici giorni le due stazioni si siano comportate in modi standard, quelli descritti dai coefficienti dell'equazione di regressione; e che siccome con gli assunti compri conoscenza pagandola col rischio, rimane sempre il rischio che quella volta le cose siano andate diversamente dal solito. Non sempre le ciambelle riescono col buco.
1
se hai la data puoi stimare l'accumulo guardando le mappe di reanalisi...
se c'era hp a manetta metti zero, se le correnti erano piovose per la tua zona metti un valore stimato magari prendendo alcuni periodi piovosi di quel mese e vedendo mediamente quanto è l'accumulo giornaliero , ma è un pò soggettiva e complicata la cosa....
cmq in caso di hp o correnti nettamente sfavorevoli metterei zero, ed elimini almeno due terzi dei buchi....
2
se i buchi sono troppi per fare sto lavoro, io metterei la media di quel mese/30...
3
oppure se c'è una stazione molto vicina e in situazione orografica simile, copi da lì... magari trovando un coefficiente di correlazione pluviometrica, meglio mese x mese, tra le due stazioni
edit
oops, vedo ora che si tratta di esame di statistica, quindi elimina la 1 e la 3 che che rimangono utili per risolvere il problema del buco nei dati nelle rilevazioni meteo
Ultima modifica di atlantic; 04/11/2010 alle 18:24
E' proprio questo che devo fare. Altri studenti avevano lo stesso progetto con la differenza che loro trattavano una serie annuale di concentrazione di inquinanti. Hanno riempito i buchi nella loro serie utilizzando il metodo dell'interpolazione lineare e quello dello stimatore lineareCosa ne viene fuori applicandoli ai miei dati? Ti posto un estratto del loro lavoro:
Come detto in precedenza per studiare l’andamento ipotetico dei dati mancanti abbiamo usato due metodi di stima : l’interpolazione lineare e lo stimatore lineare.
a) Per interpolazione lineare si intende un metodo per individuare nuovi punti del piano cartesiano a partire da un insieme finito di punti dati, nell’ipotesi che tutti i punti si possano riferire ad una funziona f(x) di una data famiglia di funzioni di una variabile reale.
Per ricavare, attraverso interpolazione lineare, il valore f(x), incognito, corrispondente ad un determinato x, compreso tra dua valori x1 e x2 ( con x1<x2), cui corrispondono rispettivamente f(x1) e f(x2) noti, si opera in questo modo:
f(x)= f(x1) + ( f(x2) – f(x1)) * ( x - x1) / (x2 - x1).
b) Utilizzando uno stimatore lineare, posso ricostruire l’andamento dei valori mancanti, tenendo conto di come si distribuiscono i valori vicini alle mie incognite.
Per cui il mio valore incognito f(x) posso calcolarlo come combinazione lineare dei valori noti adiacenti moltiplicati per un coefficiente λ detto peso:
f(x) = ∑α λ α * t(x α) con α = 1,2, .... ,n
Nel nostro caso abbiamo deciso di pesare la combinazione secondo l’inverso della distanza:
λ= k * ( 1/ d(x α – x))
Una condizione obbligatoria sarà che i pesi dovranno assumere dei valori tali per cui valga sempre l’uguaglianza
∑α λ α = 1
Il coefficiente di proporzionalità k l’abbiamo calcolato come l’inverso della somma delle distanze:
k = 1/( ∑ d ( x α – x))
Andiamo ora a considerare i singoli casi, descrivendo prima per ognuni di essi le statistiche elementari ( media, valore massimo, valore minimo, varianza), poi andando a stimare i valori mancanti.
Da un punto di vista logico anche secondo me non ha molto senso applicare questo ragionamento alle precipitazioni, ma tant'è...il prof vuole che sia fatto così. Come dovrei calcolare i dati mancanti? Non riesco ad applicare i due metodi ai miei dati. Grazie per avermi risposto![]()
fu Adrenaline...bannato a vita, colpevole di aver definito la meteorologia una scienza, quando evidentemente è materiale da chiacchiere da bar...
Val di Fassa, sei entrata nel mio cuore!
La prima formuletta mi sembra voler dire che dati i valori di pioggia F(x1) e F(x2) e dati i giorni x1 e x2, tiri una retta tra i due giorni (il primo dovrebbe essere il 3 gennaio 2009 e il secondo il 12 gennaio) imputando ai giorni buchi la pioggia predetta da questa retta. La seconda usa una simbologia che mi è oscura.
Certo la tentazione di rispondere che siccome l'andamento della pioggia non ha grandissime probabilità di essere lineare in una serie così lunga di giorni e un modello statistico dovrebbe essere quantomeno ragionevole (diciamo che dovrebbe produrre output almeno lontanamente isomorfi al processo che sono chiamati a simulare), allora il problema proposto non è sensatamente risolvibile se non come numericchiamento dovrebbe essere forte. Mi rendo conto però che questo non è d'aiuto.
Proporrei di fare la media dei 3 giorni di pioggia prima del buoc, dei 3 giorni dopo il buco, e tirare una retta tra queste due medie, imputando ai giorni buchi i valori previsti dalla retta. Usare il solo giorno prima e il solo giorno dopo mi sembra nettamente troppo poco. Quell'altra formula non è molto auto-esplicativa. Ci fosse spiegato da qualche parte che cos'è ci si potrebbe ragionare. Ma qualunque modello si adotti che non usa veri dati in input veramente rilevati quel giorno (ad esempio i valori di pioggia rilevati da un'altra stazione nei paraggi) ha elevate probabilità di adottare assunti latenti sulla forma funzionale del processo nel tempo che sono falsi o quantomeno discutibili. O si ha prior information di come si comporta la pioggia in certi frangenti e la si incorpora nel modello, o si sa come si è veramente comportata in quel frangente, o si spara qualche valore in modo matematizzato sperando che sia plausibile. Non mi piace troppo l'assunto di linearità per la pioggia, ma per usare un modello elementare, consiglierei l'interpolazione lineare usando medie a 3 giorni prima e dopo il buco e poi la formuletta cartesiana per l'equazione della retta passante per due punti.
Ultima modifica di BigWhite; 05/11/2010 alle 09:14
fu Adrenaline...bannato a vita, colpevole di aver definito la meteorologia una scienza, quando evidentemente è materiale da chiacchiere da bar...
Val di Fassa, sei entrata nel mio cuore!
ahi ahi
allora il problema della non-rilevazione è probabilmente dovuto alle prp che in qualche modo bloccano il pluvio....
cmq a me non sembra tanto un problema di statistica, quanto di logica e buon senso....
cioè ci devi per forza piazzare qualche formula e/o funzione di statistica?
perchè l'effettivo problema pratico io non lo risolverei con la statistica, ma appunto con il buon senso, al massimo con una media su periodi simili, che potrebbe fare anche uno che ha fatto solo la scuola dell'obbligo...
![]()
fu Adrenaline...bannato a vita, colpevole di aver definito la meteorologia una scienza, quando evidentemente è materiale da chiacchiere da bar...
Val di Fassa, sei entrata nel mio cuore!
Scusate se riuppo questa discussione, ma sono arrivato alla stretta finale e devo consegnare il lavoro giovedì prossimoAlla fine ho optato per l'utilizzo dei dati di stazioni vicine per riempire i vuoti. Il mio dubbio è appunto come eseguire praticamente la parte che ho evidenziato. Se Borat (ti prego!) o qualcun altro potesse farmi un esempio esplicativo mi farebbe un favore enorme! Inoltre devo pesare i valori che inserisco in qualche modo? Mi hanno suggerito di fare la media / il quadrato della distanza della stazione "buca" da quella da cui prendo i valori da inserire, in modo da attribuire valori meno attendibili se mi allontano troppo dalla stazione stessa. E' corretto? Grazie
![]()
fu Adrenaline...bannato a vita, colpevole di aver definito la meteorologia una scienza, quando evidentemente è materiale da chiacchiere da bar...
Val di Fassa, sei entrata nel mio cuore!
Segnalibri