Salta al contenuto

Un errore, non considerare l’errore

Nelle scorse settimane su CM si è aperto un interessantissimo scambio di idee sulla questione dell’errore: ciò che abbiamo capito è che un conto è misurare l’errore, o meglio misurare una grandezza aggiungendo un più o meno sistematico a causa della strumentazione stessa; un conto è conoscere quell’errore e “gestirlo” all’interno delle serie di dati.

La parte relativa all’errore sulle misurazioni la lascio volentieri a ingegneri e fisici, qui vorrei invece affrontare la parte più statistica del problema: una volta che si sia appurata la presenza dell’errore e, credetemi, c’è sempre un residuale ammontare di errore, come possiamo trattare i dati senza rischiare di renderli inutilizzabili?

Dove, per inutilizzabili, non è da intendersi solo la impossibilità di effettuare l’analisi, ma anche il fatto di rendere vera o assoluta una ricostruzione: in altre parole, all’interno di un range di errore, tutti i dati rappresentati hanno la stessa probabilità di essere “veri”. Questo non va dimenticato. Certo, abbiamo gli strumenti per dedurre un andamento più verosimile, ma il fatto di trovarsi all’interno di una fascia di errore minimo e massimo, non ci consente di essere precisi in modo definitivo.

In particolar modo, uno dei campi principali di applicazione è lo studio delle serie storiche. Ora, per forza di cose, dobbiamo scendere nel tecnico, non me ne vogliano i lettori più a digiuno di statistica.

Una serie storica è costituita da una sequenza di valori presi in tempi differenti, normalmente seguiamo lo scorrere del tempo, quindi rappresentandola all’interno di un sistema cartesiano, spostandoci da sinistra verso destra, il tempo scorrerà dal passato, al presente o addirittura al futuro (nel caso di previsioni). In realtà a volte le serie storiche sono rappresentate in modo esattamente opposto, facendo coincidere il valore attuale con l’intersezione tra ascisse e ordinate. Fatta questa doverosa premessa, veniamo alla nostra serie storica:

[pmath size=16]delim{lbrace}{X(t)}{rbrace}[/pmath]

Noi sappiamo che all’interno di questi valori x, presi ad intervalli pari a t, sono “celati” i nostri parametri climatici, ovvero ciò che stiamo cercando. Lo scopo è estrapolare quella (o quelle) misurazioni per poter effettivamente studiare il parametro di nostro interesse.

Questa estrapolazione serve anche a prevedere il possibile andamento di un parametro. Non dimentichiamoci, tuttavia, che il clima terrestre è un sistema complesso e questo comporta che, addirittura, alcune variabili siano impossibili da misurare (ad una certa risoluzione spazio-temporale). Come venire fuori da questo apparente vicolo cieco?

Come ci spiega Kolmogoroff1 , in via del tutto assiomatica possiamo far sì che ogni evento climatico venga associato ad una probabilità.

A differenza di un approccio fisico, noi abbiamo dei numeri, ma non sappiamo cosa leghi gli uni agli altri, la statistica in ogni caso ci aiuterà, tramite l’inferenza, a cogliere andamenti, relazioni, “comportamenti” dominanti dei nostri parametri. Si tenga conto, inoltre, che nei dati della serie storica sarà ricompresa una percentuale di errore, costituita anche da errori nei proxy, rumore climatico di fondo, outliers ecc. . Ora, l’errore derivante dalle misurazioni, possiamo abbatterlo solo e soltanto aumentando la precisione delle misurazioni stesse2 . Attenzione: non aumentando il numero di misurazioni, ma aumentando la precisione dello strumento. Vi è poi una residuale parte di errori che è possibile eliminare tramite il metodo statistico.

In termini statistici, come possiamo rappresentare l’errore di cui stiamo parlando, e come possiamo venirne a capo? A quest’ultima domanda risponderemo in un altro articolo, poichè dobbiamo scendere nel dettaglio della tecnica denominata “bootstrap”, tramite la quale andiamo a ricampionare l’intera serie storica per poter costruire il range di errore.

Per quanto concerne invece la rappresentazione dell’errore, innanzitutto precisiamo che è possibile costruire un parametro che stimi il valore osservato nella serie storica.

Sia [pmath size=12]phi[/pmath] il parametro di nostro interesse, all’interno della serie storica. Possiamo allora costruire un parametro che stimi le osservazioni, chiameremo questo stimatore [pmath size=12]hat{phi}[/pmath].

Da qui a costruire una funzione che leghi lo stimatore al nostro parametro osservato, il passo è breve:

[pmath size=16]hat{phi} = g( delim{lbrace}{X(t)}{rbrace} )[/pmath]

In questo modo abbiamo creato una variabile casuale, legata al parametro che vogliamo studiare. Da questa variabile possiamo dedurre due grandezze molto importanti: la deviazione standard (o errore standard) e il bias.

[pmath size=16]se_{hat{phi}} = sqrt{VAR(hat{phi})}[/pmath]

[pmath size=16]bias_{hat{phi}} = E(hat{phi}) – phi[/pmath]

Chiaramente uno stimatore efficace ha un errore standard e un bias contenuto. Se ce ne sarà l’occasione, in futuro vedremo come in realtà lo statistico debba sempre fronteggiare un trade off tra le due grandezze, a quel punto potremo anche affrontare la metodologia del bootstrapping.

Ciò che premeva, in questa sede, era sottolineare l’importanza di conoscere e rappresentare l’errore, oltre che ovviamente cercare di ridurlo. In ogni caso, rappresentare delle misurazioni senza l’errore strumentale, nè quello statistico è una omissione solo in parte perdonabile, per il resto è una dimenticanza decisamente grave.

Related Posts Plugin for WordPress, Blogger...Facebooktwitterlinkedinmail
  1. Kolmogoroff A (1933) Grundbegriffe der Wahrscheinlichkeitsrechnung. Ergebnisse
    der Mathematik und ihrer Grenzgebiete 2(3): 195–262. []
  2. Manfred Mudelsee; Climate Time Series Analysis Classical Statistical and Bootstrap Methods; 2009 []
Published inAttualitàClimatologia

9 Comments

  1. A livello fisico non ci metto il becco, non so nulla, io so solo quello che veniva raccontato a noi economisti (e da un po’ di altra letteratura). In ogni caso. il discorso che ho fatto io (ma mi rendo conto di essere nemmeno a metà del guado, spero in più tempo per terminare il tutto), dicevo il mio discorso è tutt’altro che teorico: quella che ho iniziato a descrivere è una delle tecniche che uso tutti i giorni per “pulire” serie storiche. Il fatto che il mio campo di applicazione sia l’econometria non sposta di molto il problema, anzi le analogie sono davvero moltissime.

    Buona serata,
    CG

    PS: per capirci ancora meglio.
    1) ho compreso quanto detto da Fabio Spina e Tore Cocco, ho preferito inserirmi mettendo un paio di puntini sulle “i”, dal punto di vista formale, a favore di chi legge.

    2) il discorso che ho intrapreso è tutt’altro che teorico. Può sembrarlo in effetti perchè ho solo introdotto un paio di assiomi di base, che però sono le fondamenta del bootstrapping che è una metodologia che si usa in fase di post-produzione dei dati (perdonate la banalità delle mie spiegazioni, ma sono sempre a favore di chi legge). Una campagna di campionamenti (anche noi ecomisti campioniamo…) va pianificata accortamente, sempre. Ci sono ipotesi e calcoli a priori sui margini d’errore. Su questo, mi pare, sono d’accordo con Tore Cocco.

    • Fabio Spina

      Grazie per aver ripreso questi concetti. La differenza tra economia e fisica è che quando leggo il conto corrente protrei scrivere con certezza fino alla ennesima cifra che ho 100,0000000000000000000000 euro (poi a livello europeo hanno deciso di fermarsi convenzionalmente ai centesimi), quando misuro con uno strumento la cifra a cui mi debbo fermare la DEBBO scegliere sulla base delle caratteristiche della strumentazione utilizzata. Scusate ho sbagliato verbo, dovrei perché vi sfido a trovare qualche articolo meteorologico recente che fa un’accurata analisi degli errori.
      Ergo, ormai tra economia e fisica non c’è più differenza nello studio delle serie storiche cosa che rende possibile calcolare la media della temperatura globale mensile fino al millesimo di grado quando realizzare una tale misura di temperatura è pura poesia. Imsomma misurate le altezze delle persone con i palmi e poi nella media vi trovate i decimi di millimetro, sarà strano? Ciao

    • Ho detto economista, non ragioniere!!! 😉

      Ovviamente è una battuta, tuttavia proprio in queste settimane mi sono occupato di campionamenti tramite letture di chip RFID. Campionamento ogni 5 secondi, da decine di sensori, per settimane. OVvero migliaia di campioni, talmente sporchi da richiedere un intervento massiccio. Ma lì addirittura si parla di pulire e scegliere tra centroidi o medoidi eccetera eccetera. Clusterizzazioni, ecc ecc

      CG

    • Fabio Spina

      Scusa, l’esempio non è stato esemplare !! 😉
      Io vengo da un epoca in cui ragioniere e geometra erano qualifiche da mettere fieramente sul citofono 😉 , l’Italia si reggeva su queste figure. Fuori dalle grandi città i laureati erano figure mitologiche che qualcuno giurava di aver visto(non parlo di un secolo fa). Poi sono arrivate le scuole 4×1, 3×2, 5×6 e l’aver un diploma è divenuto meno qualificante di mettere la tifoseria a cui si appartiene, oggi anziché “ragionier Fantozzi” si direbbe “Fantozzi il romanista”. Chissà se la laurea sta seguendo la stessa strada?
      Una curiosità: diversi sensori campionati alla stessa frequenza?Ma hanno tutti lo stesso tempo di risposta? Ciao

    • Io sono vecchio ordinamento… ovvero 5 e non più 5 🙂

      Penso che la frequenza sia la stessa, anche se mi hanno spiegato che le piccole differenze tra un segnale e l’altro consentono di triangolare la fonte nello spazio. In particolare in questo progetto, comunque, mi (pre)occupo del data mining e di amenità tipo pattern recognition, da qui l’uso direi massiccio di avanzate tecniche di clustering, tramite centroidi e medoidi. Ma siamo molto lontani, troppo lontani, dagli argomenti di CM. Normalmente lavoro su algoritmi, modelli comportamentali e altre cose esaltanti (per me), ma noiose per il 99% delle persone.

      CG

  2. Tore Cocco

    In riferimento alla seguente frase:

    “Ora, l’errore derivante dalle misurazioni, possiamo abbatterlo solo e soltanto aumentando la precisione delle misurazioni stesse2 . Attenzione: non aumentando il numero di misurazioni, ma aumentando la precisione dello strumento.”

    riporto lettera per lettera un passaggio da pag 11 del quaderno del CNR numero 8 dal titolo “Sensori e Strumenti Elettronici per la Meteorologia” della collana INAPA:

    “Crediamo opportuno sottolineare quest’ultimo aspetto: se vogliamo ridurre il margine di incertezza in una misura non è sufficiente ricorrere a uno strumento migliore ovvero uno strumento che fornisce una fascia di indeterminazione più stretta; ma, rifacendosi all’esempio del pistone è necessario rendere più complesso l’intero modelli col quale si vuole rappresentare la realtà fisica, fissando una serie di grandezze precedentemente trascurate.
    In altre parole la qualità della misura dipende certo dagli strumenti impiegati ma non soltanto da essi: il modello e la metodologia di misura possono avere, a seconda de casi, importanza anche maggiore.”

    Questo periodo si ritrova dopo che nel testo si è parlato degli errori accidentali in una misura fisica e dell’unione di questi con l’errore strumentale, e della costruzione della gaussiana dalle misure. Quello che sto cercando di dire dall’inizio di questa discussione, è che oggi si fà troppo affidamento sulla bontà dello strumento, mentre in realtà la fisica del concetto di misura è cosa assai più complessa. Sul piano teorico possiamo separare tutti i tipi di errori concettuali che vogliamo, ma quando si va in campo a fare una misura in condizioni reali non standard al quale lo strumento è stato tarato ed alle quali l’accuratezza dello strumento è riferita, tale condizioni in teoria chiare e separabili, diventano in pratica inscindibili ed inevitabili, per questo motivo se vogliamo misurare un grandezza non è assolutamente vero che uno strumento migliore mi darà una misura migliore, sarebbe vero se operassimo in condizioni standard di laboratorio, non in condizioni generiche di campo. In campo una campagna con più misure certamente mi può far ridurre l’errore totale con cui conosco la grandezza.
    In meteorologia generalmente una veriabile la si misura in un unico campionamento, ed allora si che uno strumento più accurato è migliore (in linea teorica), ma questo concetto non è generalizzabile per una seria campagna di misure.
    Spero di esser stato chiaro, anche se la tematica non è delle più semplici.
    Un caro saluto

    • Fabio Spina

      Caro Tore,
      il CNR dice una cosa ben “peggiore” di quanto ho scritto nel post http://www.climatemonitor.it/?p=12683 , riprendo le parole”se vogliamo ridurre il margine di incertezza in una misura non è sufficiente ricorrere a uno strumento migliore ovvero uno strumento che fornisce una fascia di indeterminazione più stretta; ma, rifacendosi all’esempio del pistone è necessario rendere più complesso l’intero modelli col quale si vuole rappresentare la realtà fisica, fissando una serie di grandezze precedentemente trascurate”.
      NON E’ SUFFICIENTE, ma è sicuramente necessario. Quando la strumentazione poi diviene più accurata il modo diviene più complesso, gli “errori accidentali” emergono numerosi, quindi se passo da uno strumento “accurato” 0.1 ad uno 0.01 non è detto che questo migliorarmento si trasferisca completamente sul risultato. Io mi ero limitato a dire che per dare un risultato al centesimo di grado devo avere almeno singole misure con quel livello di accuratezza, il CNR ci ricorda che nenache è detto che tale condizione ci garantisce il risultato. Comunque credo che ne riparleremo. Ciao

  3. Ciao Fabio!

    In effetti non sono stato molto chiaro. In realtà volevo dire che, tra addetti ai lavori, quel tipo di mancanza, per quanto grave, è riconoscibile e quantificabile. Questa è la parte del peccato che assolvo. Ciò che non è possibile in alcun modo assolvere è presentare quel dato *epurato* dell’errore al grande pubblico che, invece, a digiuno di intervalli di confidenza, prende *quella* specifica ricostruzione come vera.

    Ciao e grazie!
    CG

  4. Fabio Spina

    Concondo in tutto, meno con l’affermazione “In ogni caso, rappresentare delle misurazioni senza l’errore strumentale, nè quello statistico è una omissione solo in parte perdonabile, per il resto è una dimenticanza decisamente grave”. Non riesco a comprendere il senso della frase “è una omissione solo in parte perdonabile”, nel senso che perdoniamo il peccatore e non il peccato? O intendevi un’altra cosa?Saluti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Categorie

Termini di utilizzo

Licenza Creative Commons
Climatemonitor di Guido Guidi è distribuito con Licenza Creative Commons Attribuzione - Non commerciale 4.0 Internazionale.
Permessi ulteriori rispetto alle finalità della presente licenza possono essere disponibili presso info@climatemonitor.it.
scrivi a info@climatemonitor.it
Translate »