La scienza espressa
di Angelo Vulpiani

Previsioni: la difficile arte di capire cosa si può o non si può fare

Perché in alcune situazioni possiamo fare previsioni in modo facile, ma in tanti casi capire cosa succederà è molto difficile e a volte praticamente impossibile?
Si potrebbe cominciare notando la presenza di una certa regolarità nei fenomeni naturali: il giorno segue alla note, il ciclo delle stagioni etc. Possiamo quindi congetturare che nel mondo esistono “regole” per l’evoluzione dei fenomeni naturali, cioè leggi della natura e abbiamo qualche possibilità di capire il mondo che ci circonda.

Passiamo in rassegna una serie di fatti riguardanti le previsioni:

  • Le eclissi sono facili da prevedere questo perché il moto della Luna intorno alla Terra è periodico su un orbita ellittica inclinata di 5,1° rispetto al piano su cui si muove la Terra. Le eclissi accadono quando Luna, Terra e Sole sono allineati, con la Luna all’interno dell’orbita terrestre, tenendo conto del periodo dell’orbita lunare si ha che questo può accadere solo in un certo intervallo di 34,5 giorni detto “la stagione delle eclissi” che si verifica ogni 173,3 giorni.
  • Le maree sono regolate da una dinamica che non è affatto semplice, tuttavia, per una serie di motivi particolarmente fortunati, si riesce a fare previsioni in modo abbastanza facile.
  • L’atmosfera terrestre e i corpi celesti (Sole, pianeti, asteroidi) hanno una dinamica molto complessa (caotica), ma è possibile fare previsioni almeno fino ad un certo tempo che dipende da un parametro intrinseco della dinamica del sistema, chiamato esponente di Lyapunov.
  • Per i terremoti la situazione è più complicata di quella che si presenta in astronomia ed in meteorologia: si hanno grandi incertezze riguardo alcuni aspetti fondamentali della loro dinamica (ad esempio le sollecitazioni tettoniche e la forma delle faglie) queste difficoltà rendono praticamente impossibili le previsioni degli eventi sismici.
  • La finanza sembra avere uno status decisamente diverso dall’astronomia, dalla meteorologia e anche dalla sismologia; infatti non è affatto evidente che abbia senso parlare di leggi, anche assumendo la loro esistenza, non è affatto semplice usare modelli matematici.

Cerchiamo di mettere un po’ di ordine tra i diversi casi, in prima approssimazione abbiamo quattro tipi di situazioni:

  1. sappiamo che il sistema è regolato da certe regole, ad esempio equazioni differenziali, e conosciamo queste regole. È il caso della dell’astronomia e della meteorologia;
  2. il sistema è regolato da certe regole, ne conosciamo la struttura ma ci mancano importanti dettagli. Questo è il caso della sismologia in cui ci mancano dettagli importanti come le sollecitazioni tettoniche;
  3. non conosciamo le equazioni ma abbiamo delle serie storiche (cioè il passato), il caso della finanza;
  4. ci sono sole regole statistiche banali. Questo è il caso dei giochi d’azzardo come il lotto.

Poi nei casi specifici che si incontrano nelle situazioni 1 e 2 ci sono dettagli tecnici da considerare, ad esempio ci può essere o meno il caos, le variabile posso essere tante (come in meteorologia) o poche (come in alcuni problemi astronomici).

Nel caso delle eclissi ora conosciamo la dinamica dei corpi celesti, ma i babilonesi avevano solo le serie storiche e riuscivano a fare previsioni molto accurate. Questo è stato possibile perché il moto è semplice (periodico) quindi a livello pratico non c’è bisogno di conoscere i dettagli della meccanica del Sistema Solare; accurate osservazioni astronomiche su un arco temporale abbastanza lungo (diciamo qualche secolo) permisero ai Caldei di capire che le eclissi si ripetono ogni 18 anni 11 giorni e 8 ore (223 mesi lunari), in questo periodo, chiamato Saros, si hanno 29 eclissi lunari e 41 solari.

Nel caso delle maree le equazioni sono note, ma sono troppo complesse e di fatto non si usano, tuttavia si riesce a fare previsioni in modo semiempirico perché il sistema è a bassa dimensionalità, cioè il numero di variabili che contano veramente sono poche.

Le equazioni per l’evoluzione dell’atmosfera sono note, ma praticamente quasi inutili a livello pratico. Per fortuna si è riuscito a trovare delle equazioni filtrate che, con l’aiuto di un computer, possono essere utilizzate in modo relativamente facile. In sismologia la situazione è ancora peggiore in quanto su alcuni aspetti della dinamica (in particolare la geometria delle faglie e le sollecitazioni tettoniche) si hanno grandi incertezze.

Tradizionalmente le scienze dure si incentrano intorno a tre approccio principali:

  1. Teoria, in generale uso della matematica.
  2. Osservazioni e, se possibile, esperimenti.
  3. Simulazione numerica.

Queste metodologie hanno permesso un sensibile progresso scientifico, in particolare per quanto riguardo le previsioni, se si hanno a disposizione adeguati modelli. Nel caso, non raro, ci siano difficoltà nell’uso dei modelli, si potrebbe pensare di far appello alla conoscenza del passato per predire il comportamenti nel futuro: abbiamo visto che almeno per le eclissi questo approccio funziona.

Negli ultimi tempi si prospetta un (ipotetico?) quarto paradigma, quello dei Big Data. L’idea è antica, e non del tutto errata, ed è stata riconsiderata recentemente: i Big Data stanno suscitando grande interesse sia nel mondo accademico che in quello governativo. Un crescente numero di persone crede che usando la grande quantità di dati a disposizione e una rete di computer, si possa capire (o almeno predire) su base puramente empirica, il comportamento di un qualunque fenomeno. Ecco le parole del guru informatico C. Anderson che non lasciano dubbi sulle sue idee: “Visto che siamo nell’era dei dati in abbondanza si può fare a meno delle teorie, basta usare i dati”.

Ma è proprio sicuro che tanti dettagli sono necessariamente un fatto positivo? Possiamo ricordare Borges che nel breve racconto Funes, o della memoria scrive di un personaggio che, in seguito ad un incidente, ricordava tutto di tutto, sin nei minimi dettagli della più comune delle situazioni. Questo, ben lungi dall’essere un fatto positivo, comportava la quasi incapacità di un pensiero astratto. Funes era infastidito che un cane visto di profilo alle 3:14 fosse lo stesso visto di fronte alle 3:15 e era quasi incapace di idee generali platoniche.

È ben chiaro, almeno a chi si occupa seriamente di scienza, come nella trattazione di un qualunque problema la prima cosa (forse la più difficile e importante) da fare è identificare la parte significativa del fenomeno, solo così si ha qualche speranza di capire: per pensare in modo corretto in primo luogo si deve capire cosa buttar via. Per andare avanti devi sapere cosa lasciar fuori, questa è l’essenza del pensare in modo efficace (Kurt Gödel).

Per discutere del sogno (duro a morire) di una scienza solo induttiva, vale la pena considerare il caso delle previsioni meteo per mostrare chiaramente come, per un problema non banale, sia decisamente troppo ottimistico puntare solo sull’uso dei dati osservativi, ma sia necessaria una combinazione di tecniche matematiche, intuizione fisica e sviluppo tecnologico.

Assumiamo (cosa non sempre vera) di sapere che il fenomeno che vogliamo studiare sia descritto da un set di variabili \(X(t)\)​ con un’evoluzione deterministica. Per fare una previsione del futuro si potrebbe pensare di cercare nel passato una situazione “vicina” a quella di oggi, se la si trova al giorno 25 gennaio 1923 allora è sensato assumere che domani il sistema sarà “vicino” a quello del 26 gennaio 1923, e quindi parrebbe che abbiamo un metodo empirico di previsione.

Sembrerebbe tutto facile, in particolare ora che siamo nell’era dei Big Data e, quindi, potremmo non perdere tempo con la teoria. Per prima cosa chiediamoci se sia sempre possibile individuare un analogo, cioè un giorno nel passato in cui il sistema è “vicino” ad oggi. Da un punto di vista matematico il problema è strettamente collegato ad un risultato classico della fine del diciannovesimo secolo (il teorema di ricorrenza di Poincaré):

In un sistema deterministico in uno spazio delle fasi limitato, il sistema torna (quasi) sempre vicino alla condizione iniziale.

Da questo si conclude che un analogo sicuramente deve esistere. Ma c’è però un problema pratico: quanto indietro si deve andare per trovarlo?

La risposta è nel lemma di Kac un risultato della teoria dell’ ergodicità.

La difficoltà di trovare un analogo dipende dalla dimensione \(D​\) (in parole povere \(D\) è il numero minimo di variabili necessarie per descrivere il problema):

Per trovare un analogo con precisione percentuale \( \epsilon \) si deve andare indietro di un tempo \( T_{m} \sim \epsilon ^{-D} \).​

Se \( D\) è grande (diciamo oltre 6 ), già per precisioni non enormi serve una serie temporale di lunghezza gigantesca, ad esempio se vogliamo una precisione 5%​ in 10 dimensioni la lunghezza deve essere almeno \(10^{13}\)​.
Quindi la limitata lunghezza delle serie dei Big Data, per quanto grandi, in situazioni non banali, non permette di usare per le previsioni un approccio puramente induttivo e senza teoria.
È opportuno in questo contesto ricordare la figura del grande scienziato britannico Lewis Fry Richardson che è stato l’iniziatore dei metodi moderni per le previsioni meteo. E se non bastasse spesso abbiamo anche la presenza Caos, ma non necessariamente è l’aspetto più importante, almeno nei casi in cui il modello non è noto con precisione.
Qualcuno potrebbe notare che le previsioni che più interessanti non sono tanto quelle che riguardano le piogge o le lune di Giove quanto quelle che coinvolgono la nostra vita.

Cosa può dirci la scienza sui comportanti della finanza o dell’economia? Per molto tempo la formulazione matematica dell’economia è stata basata sull’assunzione di comportamenti regolari, e la convinzione di poterli controllare modificando i parametri di controllo, cioè agendo sui tassi di interesse, svalutazione, tasse etc. Sostanzialmente è la stessa idea di von Neumann che, negli anni ’50, credeva di poter controllare l’atmosfera. Ma l’economia e la finanza non mostrano affatto andamenti regolari, i politici (e i loro consulenti strapagati) non sono in grado di controllare molto. Addirittura non è affatto ovvio quale siano, se mai esistono, le equazioni che regolano queste scienze. Allora in assenza di una teoria accettabile si potrebbe pensare di usare i Big Data.

Questo approccio deve affrontare problemi veramente difficili, primo tra tutti un metodo generale per la scelta delle variabili “giuste”. Questo è un aspetto molto delicato (purtroppo spesso trascurato), ben chiaro nell’ambito della meccanica statistica. Ad esempio S.K. Ma è molto esplicito:

The hidden worry of thermodynamics is: we do not know how many coordinates or forces are necessary to completely specify an equilibrium state. Analogamente Onsager e Machlup: how do you know you have taken enough variables, for it to be Markovian? (Traduzione: come sai che le variabili usate sono quelle “opportune”?)

Un tentativo di conclusione:

  • Analizzando specifici problemi (come quello delle previsioni) con un opportuno spirito critico si capisce che, pur costituendo un’interessante sfida scientificamente e di elevato impatto potenziale, le recenti tecniche per la raccolta e l’analisi (algoritmica) di grandi quantità di dati non sono una panacea.
  • Meglio evitare di cedere a facili entusiasmi, in particolare alla tentazione di pensare che la soluzione a tutti i problemi, dai grandi progetti scientifici alla diagnosi medica, dipenda prevalentemente dallo sviluppo di una qualche tecnologia.
  • Con gli algoritmi l’imparzialità non è cosa facile. Ad esempio nella contea di Broward, in Florida, un software aiuta a decidere se una persona accusata di un reato debba essere rilasciata su cauzione prima del processo. Per gli individui di colore l’algoritmo prediceva un numero sproporzionato di falsi positivi, individui classificati ad alto rischio che però successivamente non commettevano un altro reato. La società sviluppatrice del software sosteneva che lo strumento non aveva pregiudizi, e classificava gli individui ad alto rischio, sia bianchi che di colore, con la stessa accuratezza. Purtroppo è possibile dimostrare che esistono almeno 20 plausibili definizioni di imparzialità, che in molti casi sono mutualmente esclusive.

È certamente vero che gli algoritmi istruiti dai dati raggiungono una tale complessità che sfugge ai creatori. In alcuni casi se venissero aperte le black box non capiremmo nulla. (Fosca Giannotti, Sole 24 Ore, 21 luglio 2019, pagina 12)

Luca Gammaitoni
Università di Perugia

Angelo Vulpiani
Università Sapienza di Roma

Qualche lettura per approfondire:

  • C. Anderson, The End of Theory: The Data Deluge Makes the Scientific Method Obsolete http://www.wired.com/2008/06/pb-theory/
  • L. Gammaitoni e A. Vulpiani, Perché è difficile prevedere il futuro (Dedalo, 2019)
  • T. Hey, S. Tansley and K. Tolle, The Fourth Paradigm: Data-Intensive Scientific Discovery (Microsoft Research: Redmond, WA, USA, 2009)
  • H. Hosni e A. Vulpiani, Forecasting in Light of Big Data. Philos. Technol. 2017, 1-13, doi:10.1007/ s13347-017-0265-3.
  • M. Kac, Gli enigmi del caso (Bollati Boringhieri, 1996)
  • C. O’Neil, Armi di distruzione matematica (Bompiani, 2016)
  • A. Vespignani, L’algoritmo e l’oracolo (Il Saggiatore, 2019)
  • A. Vulpiani, Caso, probabilità e complessità (Ediesse, 2014)
Carrello
Torna in alto