La probabilità è lo strumento matematico che permette di quantificare l’incertezza. La teoria delle probabilità ha infatti come oggetto il comportamento del caso: imprevedibile a breve termine ma che rivela un modello regolare e prevedibile a lungo termine. In questo articolo ne scoprirai sia le diverse definizioni teoriche di probabilità statistica sia cosa questa significa nella pratica.
Indice
Da dove ha origine la probabilità?
La probabilità è un concetto primitivo che ha avuto una storia molto lunga e controversa. Un gran numero di filosofi, matematici, statistici ed altri studiosi hanno dedicato porzioni importanti della loro vita al tentativo di definirla. Tuttavia non si è ancora giunti ad una definizione univoca di tale concetto.
Le origini della probabilità risalgono alla notte dei tempi. Da sempre infatti l’uomo si interroga sul proprio destino, sulla sorte apportatrice di benessere o sfortuna. Non a caso, i Greci veneravano la Dea Fortuna. Ma la sorte è anche da sempre motivo di intrattenimento. Ad esempio, sempre i Greci giocavano a dadi con l’astragalo, un piccolo osso del piede a forma di dado.
In particolare, la parola “probabile” deriva dal termine latino “probare”, che significa verificare o provare. In origine si utilizzava infatti come sinonimo di provabile, e questo è il motivo per cui ad esempio Edward Gibbon nel suo Declino e caduta dell’Impero Romano, scrivesse “Tale fatto è probabile ma senza dubbio falso”.
La prima opera dedicata al calcolo delle probabilità è l’Ars conjectandi di J. Bernoulli (1713). Tuttavia, la formalizzazione del concetto di probabilità così come la intendiamo oggi avviene in forma compiuta solo nel 1933 ad opera di Komogorov.
Ancora nel 1954 Savage, affermava che “Quanto a che cosa si debba intendere per probabilità […] di rado c’è stato un disaccordo così completo e un tale disgregazione comunicativa dai tempi della Torre di Babele.”
Per fortuna da allora almeno qualche progresso è stato fatto, ed oggi ricercatori e statistici riconoscono che esistono diversi tipi di probabilità.
Definizioni teoriche di probabilità
Le tre interpretazioni della probabilità statistica adottate più spesso sono l’interpretazione frequentista, quella classica (dette anche probabilità oggettive) e quella soggettiva.
Interpretazione classica
La definizione classica di probabilità risale al XVII secolo e si deve principalmente al lavoro di due matematici: Pascal e Fermat.
La maggior parte di questa teoria è stata sviluppata nel tentativo di risolvere problemi legati al gioco d’azzardo: prima utilizzando monete e dadi, poi con carte da gioco, roulette, lotterie, scommesse sportive e così via. Questo è uno dei motivi per cui nei libri di statistica sono frequenti gli esempi tratti dal lancio di dadi o dall’estrazione di carte o palline da un urna.
Secondo questa definizione, la probabilità è il rapporto tra in numero di casi favorevoli e quello dei casi possibili, purchè ugualmente possibili.
Questa probabilità classica si basa quindi sulla simmetria. Se il dado che vuoi lanciare è un cubo perfetto, con sei facce identiche tra loro, non c’è motivo di aspettarsi che una faccia appaia più spesso delle altre. Poiché una faccia deve per forza presentarsi, è naturale pensare che la probabilità sia distribuita equamente tra le 6 facce. In altre parole, stiamo dicendo che ogni faccia ha una probabilità pari ad 1/6 di verificarsi.
Questa interpretazione risulta molto utile per i giochi d’azzardo basati su strumenti di randomizzazione simmetrici come i dadi e le monete. Meno quando si prova ad applicare a situazioni della vita normale in cui non sono presenti asimmetrie altrettanto ovvie. Ad esempio, come potremmo definire la simmetria se l’evento è una persona che contrae una certa malattia?
Interpretazione frequentista
Per cercare di superare i limiti della definizione classica, grazie soprattutto al lavoro di von Mises, la probabilità è stata formalizzata dandone una definizione frequentista.
La probabilità di un evento è uguale alla percentuale delle volte in cui quell’evento si verificherebbe in una serie infinitamente lunga di ripetizioni (o “prove”) della stessa situazione. In altre parole, la probabilità che la moneta dia come esito testa è uguale alla percentuale delle volte in cui darà testa in una serie infinita di lanci. Secondo questa concezione la probabilità è il limite a cui tende la frequenza, al crescere del numero di prove di un esperimento.
Anche questa definizione ha però delle limitazioni. Ad esempio, a parte che a lanciare infinite volte una moneta questa si consumerebbe fino a ridursi ad una scaglia, non potremmo mai arrivare alla fine di una serie infinita. Inoltre, non esistono due situazioni che siano esattamente identiche. Come disse il filosofo Eraclito, “Non si può entrare due volte nello stesso fiume”.
Tuttavia, puoi pensare a questa definizione come ad un concetto ideale, tanto come il concetto di retta in geometria (linea infinita). Se è vero che non possiamo produrre una serie infinita di prove, possiamo però produrre una serie lunga quanto desideriamo. In altre parole, possiamo determinare la probabilità con il livello di precisione che più ci soddisfa analizzando una serie sufficientemente lunga di eventi.
D’altra parte, non possiamo davvero misurare nulla in modo perfetto. Puoi misurare la tua altezza con un margine di errore di un decimo di centimetro usando un righello, o anche con un margine minore usando una livella laser. Ma non con una precisione che arrivi fino a un numero infinito di cifre decimali.
Pertanto, il fatto di non conoscere con precisione assoluta la probabilità che una moneta dia testa come esito di un lancio nella pratica non costituisce un limite reale allo svolgimento dei calcoli ed al poter dare comunque un’interpretazione alla probabilità trovata.
E questo poi è il motivo per cui pur sapendo che analizzare solo un campione di unità statistiche rispetto ad una popolazione comporta dei limiti di precisione, comunque la stragrande maggioranza delle indagini statistiche viene condotta proprio su campioni.
Questa probabilità è anche detta “aleatoria”. Letteralmente il termine aleatorio significa “che dipende dal lancio di un dado”.
Interpretazione soggettiva
Un approccio alternativo alla probabilità è quello proposto nel secolo scorso soprattutto per merito di Savage, Ramsey e De Finetti che hanno dato un considerevole impulso a ciò che è chiamata la concezione soggettiva delle probabilità.
La probabilità soggettiva consiste nella fiducia che un individuo ha nel fatto che si verifichi un determinato evento.
Se lanciando una moneta, attribuisco uguale fiducia alla possibilità che il risultato che otterrò sarà testa oppure croce, allora la mia probabilità di ottenere testa è pari a ½. Se poi successivamente venissi a conoscenza di altre informazioni su quella particolare moneta (ad esempio, che è truccata), potrei allora cambiare la mia fiducia, ovvero quella che secondo me è la probabilità che il lancio della moneta dia come esito testa.
Secondo questa definizione, per ogni evento ciascuno ha una propria valutazione della probabilità che si verifichi. In altre parole, questa probabilità si misura chiedendo alle persone di scommettere su un dato esito.
Questo concetto non si basa quindi sulla repetibilità di un dato processo. Infatti, applicando questa concezione della probabilità, si può valutare anche la probabilità di un evento che può verificarsi una volta sola. Ad esempio, la probabilità che possa essere scoperta una cura per il cancro entro i prossimi 10 anni.
Questa probabilità è anche detta “epistemologica”, ovvero basata sulla conoscenza, ossia sulla convinzione che un evento si verificherà. Questa interpretazione fondamentalmente considera il caso come una misura di ignoranza.
Una branca della statistica che si basa su probabilità soggettive è la statistica bayesiana. Il nome “bayesiano” deriva da Thomas Bayes, reverendo inglese vissuto nel XVIII secolo che propose il teorema su cui si basa questo ramo della statistica.
Mentre le probabilità di tipo classico o frequentista sono concepite per consentire di prendere decisioni unicamente sulla base dei dati raccolti (da cui la statistica inferenziale), i metodi bayesiani utilizzano concetti noti come probabilità a priori e probabilità a posteriori.
In altre parole, secondo l’approccio bayesiano più dati vengono raccolti, più è possibile conoscere la “vera” probabilità di un evento.
Probabilità Logica
E’ un’estensione della comune logica, in cui le risposte sì/no sono sostituite da numeri intermedi di attendibilità. Questa probabilità è anche detta attendibilità, grado razionale di credibilità e grado di conferma.
Probabilità propensionale
Si basa sulla tendenza che gli oggetti hanno a comportarsi in determinati modi. Per certi versi, è simile al concetto di fragilità: la fragilità di un piatto è la sua propensione a rompersi quando lo si lascia cadere.
Probabilità statistica in pratica
In genere la probabilità statistica si indica con la lettera p e viene espressa da un numero decimale compreso tra 0 ed 1:
- Al valore 0 corrispondono gli eventi impossibili. E, siccome niente è più improbabile dell’impossibile, non esistono valori di probabilità negativi.
- Al valore 1 corrispondono gli eventi certi. Niente è più probabile della certezza, e questo è il motivo per cui non esistono valori di probabilità maggiori di 1.
Quando fai riferimenti alla probabilità statistica, ricordati sempre questi estremi. Se ottieni un numero negativo, o superiore ad 1, certamente c’è qualche errore nei calcoli. E lo stesso vale se scegli di esprimere la probabilità statistica in termini percentuali: non esistono probabilità inferiori allo 0% e neanche probabilità maggiori del 100%. Le probabilità sono quindi un caso particolare delle percentuali, che invece di per sé possono essere sia negative (pensa agli sconti) o superiori al 100% (pensa agli aumenti).
In realtà questi due estremi, eventi certi (p=1) ed eventi impossibili (p=0) sono, almeno da un punto di vista statistico, i meno interessanti. Tutto quello che possiamo fare è prepararci a quando si verificheranno i primi ed accettare di vivere in un mondo in cui i secondi non si verificheranno mai.
Ma tutto quello che c’è nel mezzo, le probabilità maggiori di 0 ma minori di 1, contengono invece un grado di incertezza che è alla base di gran parte delle scienze statistiche. Riguardano infatti eventi che potrebbero verificarsi o non verificarsi.
Nell’esempio precedente del dado, la probabilità che esca esattamente 6 è pari a p=1/6. I possibili esiti sono infatti 6 e solo 1 è quello che interessa a noi. In altre parole, potrebbe succedere che lanciando un dado esca proprio 6, oppure che esca un altro numero e noi non abbiamo modo di saperlo con sicurezza.
- Quanto più un evento ha un valore basso di probabilità (cioè vicino allo 0), tanto meno è probabile che accada.
- Quanto più un evento ha un valore alto di probabilità (cioè vicino all’1), tanto più è probabile che accada.
Come abbiamo già detto, la probabilità che lanciando un dato esca il 6 è pari a p=1/6. La probabilità invece che esca un numero pari è pari a p=3/6=1/2. Questo perché l’evento si verificherebbe sia se esce 2 che 4 che 6. E, dal momento che 3/6 è maggiore di 1/6, possiamo affermare che l’ottenere un numero pari lanciando un dado è più probabile (cioè ha una probabilità maggiore) che l’ottenere esattamente uno specifico numero (come il 6).
E adesso?
Ti consiglio di leggere il libro “Il caso non esiste” di David J. Hand. Una lettura non tecnica che ti permetterà di approfondire il concetto di probabile ed improbabile e di comprendere meglio il perché anche eventi all’apparenza inverosimili in realtà di verificano continuamente.