La scienza espressa

Correlazione e causalità

di Angelo Vulpiani10 Giugno 2024 fisica, la scienza espressa, matematica, statistica

Nel 2008 Chris Anderson, allora direttore dell’influente rivista di tecnologia Wired, ha pubblicato un articolo dal titolo The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Il messaggio piuttosto esplicito, e provocatorio, è così riassunto dallo stesso Anderson: I petabytes ci permettono di dire “Basta la correlazione”. Possiamo analizzare i dati senza ipotesi. Possiamo mettere i numeri nel più grande cluster di calcolo del mondo e lasciare che gli algoritmi statistici trovino strutture dove la scienza non è in grado. Ci sono buoni motivi per concludere che questa idea di una scienza basata solo sui dati non sia possibile. Come recentemente sottolineato da Calude e Longo, fidarsi di una pura analisi empirica può essere molto pericoloso, il motivo è un importante risultato dovuto al matematico inglese Ramsey: il disordine completo non esiste, e dato un set di dati abbastanza grande necessariamente si trovano delle strutture altamente regolari. Inoltre, contrariamente a quanto si potrebbe concludere il fatto che due variabili siano correlate non implica affatto che tra loro si sia un legame di causa-effetto, tra gli esperti di statistica è popolare il motto “correlation does not imply causation”. Esistono tanti casi di forte correlazione spurie, a volte anche divertenti, ne citiamo due:

  • correlazione tra il consumo di gelati e gli attacchi di squali;
  • correlazione tra il consumo pro capite di cioccolata in un paese e il numero di premi Nobel (sempre tenendo con numero di abitanti).

Ovviamente se la temperatura aumenta ci sarà un incremento di vendita di gelati e di persone che fanno il bagno e conseguentemente del numero di attacchi di squali. In questo caso l’origine della correlazione è chiara: le due variabili sono pilotate dalla stessa causa (la temperatura), ma non c’è relazione di causa effetto tra gelati e squali. L’origine della correlazione tra cioccolata e premi Nobel è meno ovvia, tentativamente si può spiegare con una causa esterna comune: il paese con maggior prodotto interno loro investono di più in ricerca (e quindi hanno più premi Nobel) e inoltre consumano più cioccolata che è un prodotto voluttuario.

Non sempre la situazione è così semplice da capire, ad esempio è noto che la temperatura e la CO2 sono fortemente correlate ma non c’è consenso unanime se esiste una relazione causale oppure la correlazione `e dovuta ad causa esterna (ad esempio, l’influsso solare) che influenza entrambi le variabili. Un possibile modo per andare oltre le correlazioni `e stato introdotto da Granger (che per questo contributo ha avuto il Nobel per l’economia), l’idea è la seguente: date due variabili x(t) ed y(t) si può definire un grado di causalità di x su y se la conoscenza di x permette di migliorare la previsione di y. Con questo metodo è ben chiaro che il consumo di gelato non influenza il numero di attacchi di squali.

Nell’approccio al problema della relazione causale ci sono due diversi approcci, che si posso definire osservativo e interventista. Consideriamo il problema la seguente situazione: si vuole misurare la corrente elettrica che passa in una resistenza alle cui estremità è  applicata una differenza di potenziale V (t); nel caso sia presente un disturbo esterno η(t) l’amperometro misura una corrente  Im(t) = Iv(t) + η(t) ove la ”vera” corrente è data dalla legge di Ohm Iv(t)=V (t)/R ed η(t) non dipende da V (t). Nel punto di vista interventista la relazione di causalità tra potenziale e corrente è data dalla resistenza: una variazione di V determina un cambiamento della corrente e questo è indipendente dall’ampiezza del rumore. Al contrario nell’approccio osservativo l’ampiezza del rumore è fondamentale per la previsione: se è pic cola allora la conoscenza di V (t) ci permette di predire Im, ma se l’ampiezza del rumore è grande l’informazione di V (t) diventa irrilevante.

Un’importante idea sulla causalità è stata introdotta dal J. Pearl (Turing medal), l’dea originale è stata formulata in termini di probabilità, in modo intuitivo: la relazione causa-effetto da x e y può essere individuata osservando l’effetto di una modifica si x su y. È interessante la connessione tra il problema causa-effetto e la teoria della risposta lineare in meccanica statistica in cui si cerca di capire alcune proprietà di non equilibrio partendo da informazioni sulla situazione di equilibrio. L’esempio classico è quello di un circuito elettrico: si vuole sapere quanta corrente passa attraverso una resistenza ai cui capi è applicata una certa differenza di potenziale senza realmente applicarla. Il risultato fondamentale, teoria della risposta lineare, è che la conoscenza completa della situazione imperturbata (cioè senza differenza di potenziale) permette di capire la situazione perturbata (quella con differenza di potenziale). In altre parole si riesce a determinare la resistenza R anche senza applicare il campo elettrico a partire da certe proprietà del sistema imperturbato, nel caso specifico le funzioni di correlazione ⟨v(t)v(0)⟩ della velocità dei portatori di carica. È opportuno sottolineare che in questo approccio basato sulla teoria della risposta lineare, un aspetto importante è l’individuazione delle variabili rilevanti e questo difficilmente può essere fatto senza una qualche teoria di partenza, od almeno ipotesi ben motivate.

Angelo Vulpiani

Università “La Sapienza”, Roma

Per saperne di più 
  • Anderson, ”The end of theory: The data deluge makes the scientific method obsolete”, Wired magazine 16, 16-07.(2008)
  • Baldovin, F. Cecconi, A. Vulpiani, ”Understanding causation via cor- relations and linear response theory” Physical Review Research 2, 043436 (2020)
  • S. Calude, G. Longo, ”The deluge of spurious correlations in big data” Foundations of science 22, 595 (2017)
  • Hosni, A. Vulpiani, ”Forecasting in light of big data”, Philosophy & Technology 31, 557 (2018).
  • Pearl, Causality (Cambridge University Press, 2009).
Carrello
Torna in alto