Citazione Originariamente Scritto da burian br Visualizza Messaggio
Più che la varianza in sè, aumenterebbe secondo me il numero di deviazioni standard da dover prendere per includere tutti i dati, almeno sulla coda di sinistra (quella per le anomalie più fredde).
Questo effetto sarebbe ancora più evidente se creassimo dei gruppi di dati analizzandoli separatamente: è infatti ben visibile che le code dei dati nel periodo 1780-1850 sono ben più ampie che quelle di altri intervalli di 70 anni. Questo è a mio parere un potenziale indizio di non perfetta inferenza del campione rispetto alla popolazione. Potenziale eh, non è detto.

Io la vedo così: se la numerosità campionaria è bassa, la media del campione potrebbe essere nettamente diversa da quella della popolazione generale (in questo caso l’anomalia nazionale), ad esempio perché le stazioni meteo attive allora hanno anomalie correlate tra loro, e non sempre correlate però a quelle nazionali.
Ma la varianza, che si calcola sulla base della media del campione, paradossalmente potrebbe essere identica o non distante.
Questo perché, come dici, le stazioni usate prima del 1850 potrebbero essere ravvicinate, e quindi la media che ne deriverebbe adoperata come nazionale. La varianza sarebbe bassa, ma perché il campione è omogeneo e non eterogeneo come dovrebbe!

In poche parole: la media nazionale polacca prima del 1850 credo sia stata calcolata sulla base di quell’esiguo campione disponibile. In questo caso la varianza che si riporta è derivata dalla sommatoria degli scarti rispetto quella media, e non rispetto alla media con la numerosità campionaria successiva al 1850.
Se invece usiamo come riferimento la media nazionale polacca complessiva (1780-2020), risentendo essa per oltre la metà delle misurazioni disponibili (70 anni contro 150 se non erro) di una numerosità campionaria maggiore, allora il tuo discorso è corretto.

Diciamo quindi che rispetto alla media nazionale 1780-2020 (o 1850-2020) la varianza precedente al 1850 è di certo maggiore.
Ma paradossalmente non penso di un granché: infatti come scrivi i mesi che nelle zone del campione pre-1850 colpivano più che nel resto del paese sono compensati dai mesi che invece in quelle zone avevano effetti più attenuati.
In sintesi: la varianza è similare a quella successiva proprio per questo effetto compensatorio, benché sia possibile sia leggermente maggiore.
interessante il tuo intervento! devo però dire che parlando di "varianza più ampia" mi ero espresso male e in modo incompleto. quello che volevo dire io, in soldoni, è: se c'è una mensilità che casualmente (per il basso numero di stazioni) chiude a -10 °C dalla 1981-2010, mentre l'anomalia reale se fosse stata calcolata con più stazioni sul territorio nazionale sarebbe stata di -9 C, è un conto; se invece altrettanto casualmente una data mensilità chiude a -9 °C dalla 1981-2010 con un campione esiguo, mentre con un campionamento più capillare sul territorio avrebbe chiuso a -10 °C, è un altro. Il primo caso, in verità, è più probabile. Mi si può a questo punto dire: perchè la sottostima casuale di un grado è più probabile rispetto alla sovrastima di un grado? Non dovrebbe essere probabilisticamente uguale?

La risposta è: non proprio. Questo perchè nel primo caso l'anomalia reale, con ipotetici infiniti punti di misurazione sul territorio nazionale, sarebbe stata di -9 °C. Nel secondo caso invece, l'anomalia parimenti reale sarebbe stata di -10 °C. Quindi, prendendo due anomalie concettualmente omogenee (cioè entrambe "reali" e non calcolate solo con pochi dati), il -10 °C è meno probabile del -9 °C. Capisci cosa intendo? Se una sottostima casuale di 1 °C rispetto al valore reale avveniva in, chessò, il 10% dei casi a inizio Ottocento e una sovrastima casuale di 1 °C rispetto al valore reale avveniva sempre nel 10% dei casi, ma al tempo stesso un mese su 50 chiudeva nel suo valore reale, corrispondente all'avere teoricamente - e così non era - tantissime stazioni sparse per la nazione, con un sottomedia di 9 gradi, e soltanto un mese su 100 chiudeva nel suo valore parimenti reale con un sottomedia di 10 gradi, tu nel primo caso andrai a calcolare (dividendo per il peso statistico della sottostima di una certa entità) un cinquantesimo diviso un decimo (il 10% di cui parlavamo prima), mentre nel secondo caso andrai a calcolare un centesimo diviso un decimo: ottieni un cinquecentesimo nel primo caso e un millesimo nel secondo caso. Ecco perchè, tendenzialmente (ribadisco: tendenzialmente), è più facile trovare una mensilità con anomalia estremamente bassa frutto di una sottostima di un valore semplicemente molto basso, rispetto al trovare una mensilità con anomalia semplicemente molto basso frutto di una sovrastima di un valore estremamente basso. Spero di avere reso il concetto...

Va da sè che un ragionamento analogo, ma esattamente ribaltato, può essere applicato ai mesi del lontanissimo passato che risultano "piccare" verso l'alto in modo estremo come anomalia nazionale.

In sostanza, nella classifica delle mensilità più fredde è probabile che i picchi verso il basso enfatizzati da una sottostima casuale siano più frequenti rispetto ai picchi verso il basso smorzati da una sottostima casuale; analogamente, per le mensilità più calde è probabile trovare più picchi verso l'alto enfatizzati da una sovrastima casuale, piuttosto che picchi verso l'alto smorzati da una sottostima casuale. Questo per il motivo che dicevamo prima riguardo il freddo, ma invertendo specularmente la faccenda: se il grafico mostra +5 °C per sovrastima casuale di un grado, significa che il valore reale era +4 °C; se un grafico mostra +4 °C (e quindi il picco del lontano passato rischia di passare relativamente inosservato) per sottostima casuale di un grado, significa che il valore reale era +5 °C. Ma un valore reale di +5 °C e un valore parimenti reale di +4 °C non sono affatto probabilisticamente uguali: è molto più improbabile il primo.

Spero di essermi almeno in parte chiarito.