I dati non parlano

Questa è la verità, lo dicono i dati

Particolarmente in questi ultimi anni chissà quante volte avrete sentito esperti dire: “Questa è la verità, lo dicono i dati”. Invece io vi dico che i dati non parlano. E ora ve lo dimostro.

I dati permettono di descrivere ogni fenomeno (naturale, sociale, etc.) e di rappresentare la realtà con una buona approssimazione.

Ma laddove nel processo di produzione e di diffusione non sia applicato un metodo scientifico rigoroso, i dati statistici possono prestarsi a interpretazioni fantasiose e possono dar luogo a una conseguente distorsione della verità.

La storia, anche la più recente, ha ampiamente dimostrato che una bugia “certificata” attraverso i dati può essere trasformata in una falsa verità supportata da numeri e opinioni, diffuse in contesti social-televisivi, che non provengono quasi mai da analisi scientifiche approfondite, ma da sensazioni o interessi personali. Questi ultimi, in particolare, inducono l’interessato a narrare capziosamente i dati, aggiungendo al racconto una buona dose di pathos e di trasporto emotivo che non hanno nulla in comune con la rigorosità scientifica, come sottolinea il dott. Alessandro Capezzuoli, funzionario ISTAT e responsabile dell’osservatorio delle professioni e competenze.

Il patto narrativo

Umberto Eco ha insegnato che in qualsiasi narrazione esiste un patto narrativo tra l’autore e il lettore. Nel caso dei dati, affinché la narrazione sia quanto più possibile vicina alla verità, è necessario che il produttore conosca a fondo il fenomeno che sta descrivendo e i metodi per rappresentarlo con il massimo rigore scientifico possibile.

Il lettore, invece, dovrebbe avere un insieme minimo di conoscenze per capire il significato di ciò che sta leggendo e metterlo in dubbio, se necessario. Questa condizione è molto infrequente poiché, spesso, anche gli addetti ai lavori sottovalutano le insidie del mestiere e, soprattutto, sottovalutano il nesso che c’è tra il dato statistico e le finalità di chi lo produce o lo diffonde.

Il metodo utilizzato per trarre in inganno i fruitori dei dati è collaudato e funziona molto bene: si sceglie la verità (o la bugia) che fa comodo e si supporta con una certa interpretazione dei dati, omettendo volutamente informazioni metodologiche o altre interpretazioni più veritiere.

Accade spesso che, tra le tante interpretazioni associate ai dati, non prevalga mai quella più vicina alla verità ma quella più verosimile: e questo, laddove ci siano intenzioni dolose, o semplicemente superficialità, è molto pericoloso.

Come la nostra mente ci trae in inganno

La credulità nei numeri, che deriva dalla scarsa conoscenza della matematica e della statistica, dà la possibilità ai malintenzionati di trasformare le falsità in verità e viceversa. La comunicazione, i notiziari e gli articoli sono pieni di esempi di questo tipo.

Vediamo quali sono le più diffuse distorsioni introdotte dalla nostra mente:

  1. le persone di solito non sono brave in matematica

Un semplice esempio:

– un caffè più una brioche costano 3,20 €,

– il caffè costa 2 € in più della brioche

– quanto costa la brioche?

Risposta frequente 1,20 €, ma la risposta corretta è 1,10 €.

  1. quando si parla di probabilità le persone normalmente sbagliano

– In una scatola (A) ci sono 10 penne: 9 nere e 1 rossa

– Nella seconda scatola (B) ci sono 100 penne: 92 nere e 8 rosse

– devo prendere una penna rossa a occhi chiusi, quale scatola scelgo?

Risposta frequente è la scatola B, ma sbagliata. B= 8% di probabilità di successo, mentre in A ho il 10% di probabilità di successo.

  1. non vengono verificati i risultati

Esempio: faccio una campagna di misura basata su gruppo di persone, ad esempio scelto per età, per verificare l’efficacia di un farmaco. Dai dati verifico un incremento delle guarigioni, ma … non ho definito un gruppo di controllo, che ha ricevuto un farmaco placebo. Per cui non possono confrontare il comportamento delle persone che hanno ricevuto il farmaco da chi non lo ha ricevuto, per cui il risultato ottenuto non è informativo.

risultati devono essere verificati attraverso i test opportuni per quelle analisi. Devono essere confrontati con il gruppo di controllo e solo dopo questi passaggi si potrà affermare che l’analisi è stata corretta. Inoltre, molte volte le persone ricercano conferme alle loro ipotesi, quindi si concentrano sui risultati a sostegno della loro ipotesi, trascurando quelli che possono mettere in discussione l’assunto di base.

  1. si ha molta fretta di ottenere dati predittivi precisi.

Questo “dammi un numero!” è frequente in azienda; significa che di statistica non si è capito nulla, il risultato di un’analisi non può essere un solo numero, non è informativo.

Il Prof. Meregalli (SDA School of Management Bocconi) ha più volte evidenziato l’importanza del contesto e delle opportune valutazioni di cosa significa quel dato in quel contesto. Su queste basi di Matematica probabilistica e analisi statistica ho costruito il mio metodo scientifico per ricavare le giuste informazioni dagli oltre 200 risultati che si ottengono in una mappa numerologica fatta con la Numerologia Sacra

  1. si confonde la casualità con la correlazione

La casualità si riferisce al fenomeno in base al quale una causa determina un effetto, per esempio l’effetto serra fa aumentare la temperatura del pianeta. È vero? Sì nell’immediato, no nel medio periodo, perché una corretta proiezione dei dati ci dice che stiamo andando verso una micro-glaciazione.

La correlazione indica la tendenza di una variabile a variare in funzione di un’altra; la micro-glaciazione la scopriamo correlando i dati di variazione delle temperature dell’aria e degli oceani con le altre variabili che influenzano il clima, come ad esempio il ciclo dell’acqua, le emissioni umane di CO2, il buco dell’ozono, e così via.

Due concetti molto diversi tra loro.

  1. Si usa la statistica per intimidire gli altri

“Bugie, maledette bugie e la statistica” Mark Twain Questa frase sottolinea la potenza persuasiva dei numeri ed in particolare la statistica che porta le persone a trarre conclusioni errate.

Per questo motivo oggi in Italia, e forse a livello mondiale, la persona più titolata a parlare della pandemia non è un medico e neppure un biologo, ma il dott. Giorgio Parisi, recente premio Nobel per la Fisica grazie alle sue scoperte sull’analisi dei sistemi complessi. Perché quasi tutti i fenomeni che osserviamo sono complessi, non ultimo il comportamento del corpo umano, che ha un livello di complessità estremamente elevato.

Una frase del dott. Parisi mi ha colpito personalmente, quando ha detto: “Mettere ordine nel caos è sempre stata la passione della mia vita e l’oggetto delle mie ricerche”. Posso dire la stessa cosa di me stesso, visto che il mio Nome di Dio è proprio “Ordine dal caos”, che è la mia missione, ma ovviamente lui è molto più bravo di me nel fare ordine.

I dati non sono informazioni

Tornando al nocciolo della questione, qual è l’errore che viene commesso, in buona fede o in malafede? Confondere i dati con le informazioni.

I dati non sono informazioni, e il singolo dato non significa nulla, soprattutto quando parliamo di matematica probabilistica o di statistica. Vi faccio un esempio di attualità. Negli ultimi tempi si dice che il PIL dell’Italia è in crescita, e questo è un dato vero. Per da questo dato si deduce che l’economia italiana sta migliorando. E questa è una informazione falsa, è vero il contrario. Ma l’informazione corretta non può essere estratta prendendo in considerazione solo la curva del PIL, che è effettivamente in crescita.

L’estrazione delle informazioni corrette da un insieme di dati è un processo difficile, anche quando i dati sono veri e coerenti con l’obiettivo dell’analisi. Semplificando molto il processo, possiamo avere una banca dati certificata, cioè con tutti dati corretti. Ma questo non basta per dire ne possiamo usare tutto il suo contenuto di numeri.

Vi faccio un esempio di vita vissuta. Quando avevo 29 anni, grazie alla Zanussi Elettronica e all’ing. Viziale, suo Direttore Generale, ho fondato l’IRB, Istituto di Ricerche Biomediche, presso l’Ospedale Civile di Pordenone, del quale sono stato il Responsabile Scientifico per alcuni anni. Ci occupavamo di ultrasuoni, una novità assoluta a quell’epoca, e di diagnostica non invasiva sia fetale che del cuore, con la collaborazione di due primari ospedalieri veramente eccezionali: il dott. Zecchin di Medicina Nucleare e il dott. Zanuttini di Cardiologia.

Nell’Istituto, tra gli altri, operava un ingegnere neolaureato molto intelligente, Sandro Targa, che poi ha fatto una brillante carriera a livello internazionale. L’ing. Targa raccolse molti dati sulla funzionalità cardiaca, e poi li elaborò, con tutti i limiti di calcolo dei pc di allora. Ma i risultati non erano conformi alle evidenze cliniche. Eppure i dati erano corretti, così come la metodologia di elaborazione.

Qual era il problema?

L’insieme dei dati andava depurato da dei numeri che inquinavano il risultato cercato, perché connessi ad altri fattori. Fatto questo, venne fuori un modello predittivo di certe patologie cardiache che funzionava benissimo. Vi faccio un esempio ancora più semplice. Non è possibile affermare che la vita media si sta allungando moltissimo grazie alle scoperte scientifiche e alla medicina se la banca dati che genera le curve di durata media della vita non viene prima depurata dai milioni di morti legati alla 1° e 2° Guerra Mondiale, tutti ragazzi giovanissimi. Di conseguenza le curve che trovate sono vere perché basate su dati veri, ma danno una indicazione falsa rispetto all’obiettivo di stabilire come evolve l’aspettativa di vita.

La verità assoluta non esiste

Quindi il primo passo è verificare che i dati siano veri, tenendo conto che c’è sempre un margine di errore nella raccolta dati o nelle misurazioni, e questo errore va quantificato e tenuto a calcolo in tutte le elaborazioni successive. Poi bisogna selezionare il giusto insieme di dati da elaborare, scartando quelli inquinanti.

Questo in funzione dell’obiettivo. Poi elaborare i dati secondo più logiche, ad esempio quelle di casualità e quelle di correlazione, utilizzando però rigorose metodologie della matematica probabilistica e della statistica. Questi ultimi due passi sono molto critici, specialmente nella medicina, dove spesso involontariamente i ricercatori vengono trascinata dalla volontà di trovare una informazione che giustifichi un risultato definito a priori, e dove le metodologie del nostro premio Nobel, Parisi, non sono ancora esattamente di casa.

Infine possiamo giungere all’informazione più attendibile, perché nella vera Scienza la verità non esiste. Ogni risultato è vero nell’ambito di un certo margine di errore, che deve essere calcolato e dichiarato. Mi ricordo del prof. Rostagni di Padova che mi avrebbe cacciato via dall’esame di Fisica se avessi scritto un risultato senza il margine di errore.

Quindi se sentite qualcuno che afferma: “Questa è la verità, lo dicono i dati e viene confermata dalla Scienza.” sappiate che chi parla sicuramente non è un bravo scienziato e inoltre, in buona o cattiva fede, vuole dimostrare una sua idea personale che però non corrisponde alla realtà. Anche se i dati e le curve che mostra sono vere. Ma i dati non parlano

  

Villach, 04/11/2021