IL CASO E LA STATISTICA: MATEMATICA E OMICIDI

Il "caso" – del 1996 – è quello di Kristen Gilbert, trentatreenne, infermiera nel reparto “C” del Veteran’s Affaire Medical Center di Northampton, nel Massachusetts (U.S.A.).

Il caso è – forse – anche il “soggetto” al quale attribuire un elevato numero di morti sospette nel reparto “C”, durante i turni di lavoro di Gilbert.

La Statistica è la scienza (dell’incertezza) che può aiutarci a capire se un determinato fenomeno – ad es. morti di infarto – sia effettivamente frutto del caso.

Lo spunto per questo articolo deriva dalla serie TV "Numbers", nella quale un detective risolve i crimini grazie all’aiuto di un matematico, e dal libro "Il matematico e il detective" di Keith Devlin e Gary Lorden, nel quale si abbandonano le necessarie licenze poetiche del film per spiegare come i numeri possono risolvere un caso poliziesco.

L’obiettivo dell’autore di questo articolo è partire dai dati presentati nel testo citato, per giungere naturalmente ad una conclusione, ma entrando nello specifico della tecnica statistica chiamata test chi-quadro.

In questo modo si intende consentire a tutti di vederci chiaro nella nebbia che sempre avvolge i fenomeni casuali.

Esistono numerose tecniche statistiche, non tutte – però – applicabili in qualunque circostanza. Il nostro caso è caratterizzato essenzialmente da due variabili qualitative:

la presenza di Kristen Gilbert, in quanto ci interessa sapere se essa sia in grado di influenzare il numero di morti. Tale variabile può essere definita “Gilbert presente”: essa può assumere soltanto due modalità, sì o no;
se i pazienti muoiono oppure vivono, in quanto si tratta di una possibile conseguenza della presenza o assenza di K. Gilbert. Tale nuova variabile può essere definita “morti durante il turno” e può assumere – anch’essa – soltanto due modalità: sì o no.

Fra due variabili qualitative (cioè espresse con parole – sì, no – e non con numeri, altrimenti di chiamerebbero “quantitative”) è possibile studiare la connessione. In sostanza possiamo affermare che due variabili sono indipendenti se non esiste alcuna relazione tra di esse. Se due variabili qualitative non sono indipendenti (cioè sono dipendenti) allora sono connesse (in altri termini, fra di esse, sussiste un legame).

I dati di cui disponiamo sono riepilogati in una tabella delle frequenze osservate, riferita ad un periodo di 18 mesi, fino a febbraio 1996, quando la Gilbert si assentò dal lavoro per malattia.

Frequenza significa semplicemente quante volte si ripete una determinata modalità di una certa variabile.

Ad es. 40, che è una “frequenza congiunta” (in quanto si riferisce contemporaneamente a due modalità provenienti da due modalità differenti) ha questo significato: durante i turni di lavoro della Gilbert sono morte 40 persone. Ma ne sono sopravvissute 217. Ed in totale – quindi – durante i turni di K. Gilbert sono “passati” 257 pazienti (= 40 + 217).

Il numero complessivo dei pazienti è 1641, suddivisi fra 257 passati sotto Gilbert e 1384 passati sotto le mani di altre infermiere. Su 1641 pazienti è stato osservato (da qui il termine “frequenze osservate”) un numero di morti pari a 74, cioè circa il 4,51% [= (74 / 1641) x 100. Risultato arrotondato]. Se applichiamo questa percentuale di normalità ai 257 pazienti curati durante i turni della Gilbert, otteniamo 12 morti [= 257 x (4,51 / 100). Risultato arrotondato; il risultato effettivo è 11,59]. Come mai i morti sono stati 40 ? Come si spiegano i 28 morti in più?

Procediamo con l’elaborazione della tabella delle frequenze attese in caso di indipendenza, vale a dire determiniamo – per ciascuna frequenza osservata – la corrispondente frequenza che si sarebbe dovuta verificare se le due variabili in oggetto fossero state indipendenti.

Per ottenere una frequenza attesa è sufficiente eseguire il seguente calcolo:
[(totale di riga x totale di colonna):totale generale].

Ad es. (257 x 74) : 1641 = 11,59. Ciò conferma che, se non ci fosse alcuna relazione fra la presenza in turno della Gilbert e il numero di morti, i morti dovrebbero essere circa 12 e non 40.
Basta che soltanto una frequenza attesa sia diversa dalla corrispondente frequenza osservata, per affermare che esiste un certo grado di dipendenza fra le due variabili (nel nostro caso tutte le frequenze attese differiscono dalle corrispondenti osservate), ma il punto è: quanto deve essere grande la dipendenza per accusare la Gilbert ? Posto che l’Universo è nato dal Big Bang, allora tutti i soggetti, gli oggetti e i fenomeni sono in qualche misura fra loro collegati. Dunque, occorre cercare una forte dipendenza.

Calcoliamo allora l’indice di contingenza chi-quadro di Pearson, come somma di tutte le differenze (al quadrato, per eliminare i segni algebrici negativi) fra le frequenze osservate e quelle attese.

Quanto più è grande il valore dell’indice, tanto più è rilevante la distanza fra frequenze osservate e frequenze attese, cioè tanto più è forte la dipendenza fra le due variabili.

Purtroppo – giunti a questo punto – il nostro ragionamento non può essere conclusivo, in quanto – in realtà – i nostri dati sono campionari. Nel senso che dipendono dal campione estratto. Se provassimo ad estrarre un altro campione potremmo benissimo ottenere numeri diversi. Ad es. se nei 18 mesi presi in esame fossero passati in quell’ospedale degli altri pazienti, diversi dai 1641 schedati, quali sarebbero le nostre conclusioni ? Potremmo ancora affermare che le morti sospette non sono frutto del caso?

Esiste una tecnica statistica che serve per cautelarsi da problemi di questo tipo. Si tratta di un procedimento che ci consente di estendere i risultati ottenuti dal campione alla popolazione di riferimento, naturalmente non con assoluta certezza, ma con un ragionevole grado di fiducia. La tecnica in questione si chiama test chi-qudro e prevede innanzitutto la definizione di due ipotesi:

ipotesi nulla H0 : le due variabili sono indipendenti;
ipotesi alternativa o di ricerca H1 : le due variabili sono dipendenti.

L’ipotesi di ricerca è quella che spinge appunto il ricercatore ad effettuare tutta una serie di elaborazioni statistiche: proprio perché egli è intimamente convinto che esista un qualche tipo di legame fra le due variabili. L’ipotesi nulla è invece quella che “annulla” la convinzione del ricercatore, che statuisce quindi che non esiste alcun legame (fra le due variabili) dotato di significatività statistica.

Il passo successivo consiste nello stabilire a priori quanto il ricercatore intenda rischiare: possiamo ipotizzare il 5%, poiché è un grado di rischio ragionevolmente piccolo.
A questo punto il gioco è fatto: è sufficiente confrontare il valore del chi-quadro calcolato, pari ad 86,47, con il valore del chi-quadro tabulato, cioè riportato su apposite tavole statistiche (che si trovano in appendice a quasi tutti i testi di statistica). Il valore tabulato dipende da due elementi:

il grado di rischio (5%);
il numero dei gradi di libertà, che si ottiene moltiplicando il numero di righe della nostra tabella meno 1 per il numero delle colonne, sempre meno 1. Dato che la nostra tabella è una 2 x 2 (cioè due righe per due colonne), i gradi di libertà saranno pari ad 1 (= 1 x 1).

Tale valore è pari a 3,84. Se il chi-quadro fosse inferiore a tale soglia, si dovrebbe accettare l’ipotesi nulla, se è invece superiore occorre rifiutare l’ipotesi nulla e di conseguenza accettare l’ipotesi alternativa. Quest’ultimo è proprio il nostro caso, in quanto risulta 86,47 > 3,84. Con la fiducia del 95% (cioè il complemento del grado di rischio, fissato arbitrariamente nella misura del 5%) accettiamo quindi che esista un legame di dipendenza (statisticamente significativo) fra le due variabili. In particolare, su 100 campioni estratti 95 danno evidenza del legame di dipendenza.

Purtroppo la tecnica applicata non è in grado di stabilire quale sia la direzione del legame causa – effetto e dunque non basta per accusare la Gilbert. La quale fu condannata all’ergastolo sulla base di prove più dirette.

Nonostante ciò questo mio lavoro (che riproduce quello che venne fatto durante il processo) è utile per capire quanto la statistica serva a trasformare i dati in informazioni e a fornire quindi un buon supporto a chiunque debba prendere decisioni.

5 commenti

Zoo-Stat ha detto...: Ottimi i tuoi post, complimenti.
Solo mi chiedo una cosa che spero tu possa spiegarmi.
L'indice di connessione non andrebbe normalizzato dividendolo per il numero totale dei casi moltiplicato il minimo tra il numero di righe della tabella meno uno e il numero di colonne della tabella meno uno? In questo caso otterrei 0,052 quindi molto più vicino a 0 che a 1 facendomi propendere che l'entità di dipendenza tra i due fenomeni sia irrilevante. Ed inoltre nel test di verifica delle ipotesi quale valore va confrontato con il valore del chi-quadro tabulato, il 86,47 o il valore del p-value che è 2.2? Scusa per le banalità, ma vorrei comprendere bene questa analisi di dipendenza. Grazie; 16 luglio 2009 alle ore 22:03
Walter Caputo ha detto...: Grazie Pino per i complimenti. E' vero che l'indice di connessione andrebbe normalizzato come dici, ma ciò servirebbe ad un'analisi limitata al campione. Se invece si intende studiare la dipendenza estesa all'intera popolazione da cui è tratto il campione, occorre effettuare il test, così com'è descritto nell'articolo. In generale non ci sono differenze se si usa 86,47 o il p-value: in entrambi i casi si sta facendo un test e si ottengono gli stessi risultati di dipendenza o indipendenza. Solo che gli americani tendono maggiormente ad usare il p-value (addirittura è stato citato nella serie ER!!!), così come i software statistici.
Grazie ancora per il tuo intervento, decisamente di ottimo livello.
Walter; 18 luglio 2009 alle ore 14:16
Zoo-Stat ha detto...: Grazie a te delle delucidazioni.
Quindi se ho ben capito il chi-quadro ed il p-value sono complementari tra loro nel senso che con p-value < chi-quadro_tabulato (chi-quadro > chi-quadro_tabulato) rifiuto H0 e di conseguenza con p-value > chi-quadro_tabulato (chi-quadro < chi-quadro_tabulato) non rifiuto H0.

Ciao e buone vacanze.; 21 luglio 2009 alle ore 13:05
Walter Caputo ha detto...: No, i risultati sono analoghi, ma i meccanismi sono diversi. Se consideri un test a 2 code, quindi con ipotesi alternativa bilaterale, e un rischio del 5% (cioè un livello di confidenza del 95%), sulle tavole della normale standardizzata troverai, come valori “spartiacque”, -1,96 e +1,96. La regione centrale (sotto la curva normale), compresa tra –1,96 e +1,96, è l’area di accettazione di Hzero. Le code di destra (a destra di +1,96) e di sinistra (a sinistra di –1,96) sono le regioni di rifiuto di Hzero.
Ti faccio un esempio di calcolo con il metodo tradizionale e con il p-value. Ammettiamo che la statistica test calcolata sui dati campionari sia +2,05. Ora, il metodo tradizionale dice che si trova a destra di +1,96, quindi si rifiuta Hzero. Il p-value è la somma dell’area a destra di +2,05 e di quella a sinistra di –2,05, quindi risulta pari a (1-0.9798) x 2 = 0,04. Tale calcolo implica il complemento a 1 dell’integrale della normale standard da meno infinito a +2,05; il risultato ottenuto va moltiplicato per 2 perché occorre considerare entrambe le code (ed è possibile grazie alla simmetria della normale). Dato che il p-value, pari a 0,04 è inferiore a 0,05 (5% di livello di rischio), allora si rifiuta Hzero (così si ottiene lo stesso risultato che avevamo ottenuto con il metodo tradizionale).
Ammettiamo ora che la statistica test sia pari a 1,80. Dato che cade fra –1,96 e +1,96, secondo il metodo tradizionale, si accetta Hzero. Il p-value è l’area a destra di +1,80 più quella a sinistra di –1,80, cioè 1-0,9641 = 0,0359 x 2 = 0,0718 > 0,05. Ciò implica che si accetta Hzero (così come risultava col metodo tradizionale).
In sostanza, i risultati del metodo tradizionale e del p-value sono analoghi perché se le code sono grandi significa che la statistica test cade nella zona centrale e quindi si accetta Hzero. Se le code sono piccole, la statistica test cade all’esterno rispetto alla zona centrale e quindi si rifiuta Hzero.
Walter; 21 luglio 2009 alle ore 20:50
Zoo-Stat ha detto...: Ho letto solo ora la tua risposta, e volevo ringraziarti. ottimo esempio. Lo conserverò con cura.

Ciao Pino; 30 settembre 2009 alle ore 18:51