Eccellente analisi!
Volendo sintetizzare, si scopre che alcune sensazioni in realtà sono effettivamente vere:

  1. è più facile prevedere il caldo, anche intenso, che non il freddo
  2. è più facile sbagliare quando viene visto il freddo (e visto che si parla di freddo generico, non si tratta specificatamente di retrogressioni)
  3. GFS fa effettivamente pena
  4. ECMWF è davvero il migliore dei modelli



Ritengo però che ci possano essere dei bias in questi risultati, non dovuti al metodo ma allo stato del clima dell'ultimo anno. Ad esempio, avendo usato come definizione di giorno caldo/freddo quella oltre il 75° o sotto il 25° percentile, credo che visto che quest'anno sia stato sempre molto caldo avrai avuto molto più modo di testare i modelli per i giorni caldi e poco per i giorni freddi perchè, detto semplicemente, di giorni freddi ce ne sono stati davvero molto pochi.
Analogamente, poichè lo stato atmosferico nell'ultimo anno è stato improntato a scarse irruzioni da est o dai quadranti settentrionali, l'eventuale errore potrebbero essere stato amplificato perchè i modelli deterministici non tengono conto dello stato pregresso del clima recente per impostare le previsioni; viceversa, se l'ultimo anno fosse stato più incline a vedere irruzioni fredde, può darsi che la performance sarebbe stata più scadente nel prevedere il caldo di quanto risulti ora in un anno in cui il caldo è stato lo scenario di default.
Non so se mi son fatto capire, che ne pensi @Wolf359?