Il libro
2   INTRODUZIONE ALLA BIOSTATISTICA
2.3   I PARAMETRI DELLA POPOLAZIONE E LE IPOTESI



Nel precedente capitolo abbiamo visto perché è utile estrarre un campione da una popolazione. Lo scopo che ci si prefigge ottenendo campioni di una popolazione è quello di fare stime o inferenze sulla natura della popolazione senza dover ricorrere alla collezione completa delle misure possibili nella popolazione stessa. I campioni statistici sono utilizzati per fare stime numeriche sui parametri della popolazione di cui il campione è considerato rappresentativo o per testare ipotesi (fare cioè inferenze), sulla popolazione stessa. Per esempio, nel primo caso possiamo essere interessati a sapere qual è l'età media di una certa popolazione (stima). Nel secondo caso possiamo essere interessati a testare l'ipotesi che un certo farmaco riduce la pressione arteriosa (inferenza). Esaminiamo prima il problema della stima e quindi quello dell'inferenza.


2.3.1   Stima dei parametri della popolazione

In teoria per ottenere la vera misura di un certo parametro in una popolazione dovremmo misurare quel parametro (per es. il peso) di tutti i soggetti che compongono quella popolazione. Una rilevazione di dati così estensiva in genere non è possibile (nota 4), si ricorre pertanto a una stima statistica di quel parametro. Per convenzione i parametri di una popolazione sono designati con simboli dell'alfabeto greco ( per la media e per la deviazione standard) mentre la stima statistica dei parametri (nel campione) della popolazione da lettere dell'alfabeto latino (per esempio la deviazione standard è definita da s). Le dimensioni della popolazione (numero d'osservazioni) sono definite dalla lettera N (maiuscola) mentre le osservazioni effettuate nel campione sono designate con la lettera n (minuscola).

La media di una popolazione stimata in base a un campione (o stima campionaria della media) non è altro che la somma () dei singoli dati divisa per il numero di dati del campione. La relativa formula è identica a quella della media della popolazione () calcolata sulla base dell'intera collezione dei dati della popolazione:



dove rappresenta la media del campione e le osservazioni (da 1 a n).

Il calcolo della stima della varianza della popolazione in base al campione (o stima campionaria della varianza) differisce invece leggermente dal calcolo della varianza della popolazione. Come abbiamo visto nel capitolo precedente descrivendo la popolazione, nell'equazione che definisce la varianza, da ciascun valore (Y1....Yn) si sottrae il valore medio. Si ottengono così gli scarti di ciascun valore rispetto alla media. Ciascuno scarto è elevato al quadrato. Si procede quindi a sommare gli scarti quadratici. Gli scarti quadratici sono infine divisi per il numero delle osservazioni. Il numero di osservazioni lì coincide con i gradi di libertà. Quando la varianza della popolazione è stimata da un campione della popolazione, al denominatore si sottrae un'unità al numero di osservazioni. Nella stima campionaria della media i gradi di libertà sono quindi n-1.

( )


dove rappresenta la stima campionaria della popolazione.

La ragione per cui la sommatoria degli scarti quadratici è divisa per il numero delle osservazioni meno uno anziché per il totale delle osservazioni (come nel calcolo della varianza della popolazione) dipende dal fatto che nella popolazione i dati che contribuiscono di più alla varianza sono i dati estremi. Questi dati sono quelli che più si discostano dalla media e quindi sono i più alti in valore assoluto. L'influenza di questi è anche amplificata dal fatto che gli scarti vengono elevati al quadrato. In un campione della popolazione i valori estremi (essendo rari) sono raramente inclusi e la probabilità che in un campione non siano rappresentati i valori estremi è tanto più alta quanto più piccolo è il campione. Se nei campioni (specialmente in quelli di piccole dimensioni) sono poco rappresentati i valori più alti, la media è necessariamente più bassa: per questo la stima campionaria della media tende a sottostimare quella della popolazione. Una maniera per compensare questo fenomeno è proprio quella di ridurre il denominatore del campione. Calcoli matematici basati sulla teoria statistica indicano che sottrarre un'unità alla numerosità del campione (sottrarre cioè 1 grado di libertà) è una soluzione soddisfacente al problema.

La media (come la varianza e la deviazione standard) è una stima puntiforme della popolazione perché riassume in singolo punto o numero la stima del relativo parametro della popolazione. In realtà esiste un numero virtualmente infinito di campioni sulla base dei quali potremmo ottenere stime puntiformi della media della popolazione.

Se estraessimo una serie di campioni della stessa popolazione otterremmo una distribuzione di stime della media della popolazione. Il concetto di distribuzione della stima di un parametro della popolazione (come la media) è un concetto importante che vale la pena approfondire. Noi possiamo immaginare che una certa popolazione si può definire in base a due serie di distribuzioni. La prima è quella che abbiamo visto nel capitolo precedente ed è la distribuzione dei dati della popolazione (dell'intera collezione dei dati della popolazione). Abbiamo visto che quando la distribuzione di questi dati è Gaussiana, la popolazione può essere matematicamente descritta in base alla media e alla varianza (mentre dobbiamo ricorrere ad altri parametri per le distribuzioni non Gaussiane). La seconda distribuzione è invece la distribuzione delle stime di un parametro della popolazione a partire dalla serie di tutti i possibili campioni di una certa numerosità (per esempio, tutti i possibili campioni in cui n = 20) di quella stessa popolazione. È interessante rilevare che questa seconda distribuzione è sempre e comunque una distribuzione Gaussiana, anche se la distribuzione dei dati dei campioni in base ai quali le stime vengono fatte non è Gaussiana! (Figura 2.11). Anche questa seconda distribuzione può essere definita in base a parametri. In altri termini la distribuzione delle stime della media della popolazione in base a campioni di una certa numerosità può esser definita in base a una media e una varianza. La media sarà:



Nell'equazione rappresenta la media di tutte le possibili medie dei campioni della popolazione; il numero di tutti i possibili campioni di numerosità n; il numero di dati della popolazione (le osservazioni); rappresenta i dati della popolazione (cioè Y1....Yn).

La formula fa vedere chiaramente che la media delle possibili medie dei campioni della popolazione coincide con la media della popolazione stessa calcolata a partire dai dati individuali.

Consideriamo ora la dispersione di una distribuzione di medie stimate in base a campioni di una certa numerosità (per esempio tutti i campioni comprendenti 20 osservazioni). È intuitivo pensare che se i dati individuali della popolazione sono molto dispersi (cioè distribuiti in range molto largo) anche la dispersione delle medie dei campioni della popolazione mostrerà un'importante dispersione. Tuttavia la dispersione delle medie sarà sempre più contenuta rispetto alla dispersione dei dati. Questo dipende dal fatto che la media riduce il peso dei valori estremi: i valori estremi più alti vengono bilanciati dai valori estremi più bassi e dai valori intermedi. La dispersione delle medie sarà per questo più bassa (più stretta) rispetto alla dispersione dei dati della popolazione (Figura 2.12).

È interessante notare che la dispersione delle medie diviene tanto più contenuta quanto più alta è la collezione di dati dei relativi campioni. Man mano che le dimensioni dei campioni aumentano la precisione con cui vengono calcolate le medie cresce e questa progressiva precisione riduce la dispersione. D'altra parte si era già affermato che quanto minore è la dispersione dei dati nella popolazione tanto minore è la dispersione delle medie dei campioni della popolazione. Quest'influenza matematica della numerosità del campione sulla dispersione delle medie si riassume nella formula:



Quindi la varianza della distribuzione delle medie (a sinistra nell'equazione) è uguale alla varianza dei dati individuali del campione divisa per la numerosità del campione ed esprime la variabilità delle medie di tutti i possibili campioni di una data numerosità.

Questo concetto di varianza delle medie dei campioni è analogo a quello di varianza dei dati della popolazione. Così come esiste una deviazione standard dei dati esiste anche una deviazione standard delle medie che è la radice quadrata della varianza delle medie dei campioni della popolazione. La stima della deviazione standard della media viene definita errore standard:



Ma qual è l'importanza di queste nuove stime (varianza ed errore standard della media)? Cerchiamo di vedere perché queste stime sono utili e importanti.

Dal punto di vista della teoria statistica la probabilità di osservare un particolare valore o dato di una distribuzione continua è esattamente uguale a quella di osservare un qualsiasi altro valore della stessa distribuzione. Poiché le popolazioni sono collezioni virtualmente infinite di valori, la probabilità di osservare un particolare valore tende a essere uguale allo zero. Allo stesso modo la probabilità che la media di un certo campione della distribuzione coincida con la media della popolazione è uguale a quella della media di un qualsiasi altro campione della stessa distribuzione. Poiché i possibili campioni sono in teoria infiniti, la probabilità che la media del nostro campione coincida con quella della popolazione è vicina allo 0! Questo può sembrare paradossale (e potrebbe incrinare la nostra fiducia nella statistica) perché noi stimiamo la media della popolazione proprio sulla base della media di un campione della popolazione. Il problema può tuttavia essere facilmente risolto. A questo scopo possiamo stimare la media della popolazione non con un singolo valore (la media del campione) ma con un ambito di valori. Per esempio possiamo immaginare che se la media del campione è 10, la media della popolazione da cui il campione è stato estratto si collochi nell'intervallo tra 7 e 13. Quest'intervallo è definito intervallo di confidenza. L'intervallo di confidenza più largamente usato è quello che ha il 95% di possibilità di includere la media della popolazione. Quest'intervallo è definito intervallo di confidenza al 95% o 95% IC. Ovviamente possono essere usati altri intervalli per esempio al 90% o al 99%. Comunque nella maggior parte dei casi l'intervallo al 95% fornisce una stima adeguata della media della popolazione.

Per calcolare l'intervallo di confidenza dobbiamo prima di tutto avere una distribuzione normale standardizzata delle medie dei campioni della popolazione. Anche qui il concetto è sovrapponibile a quello che avevamo visto a proposito della distribuzione standardizzata dei dati. Così come i valori standardizzati dei dati altro non erano che la differenza tra ciascuno di essi con la media della popolazione divisa per la deviazione standard, i valori standardizzati delle medie altro non sono che la differenza tra ogni singola media e la media della popolazione divisa per l'errore standard:



dove rappresenta la deviazione standardizzata di una particolare media () rispetto alla media delle medie (che coincide con la media della popolazione, ) e dove è l'errore standard.

Come abbiamo visto nel capitolo precedente il calcolo della deviazione normale standardizzata trasforma i dati della popolazione rendendoli indipendenti dall'unità di misura in quanto l'unità di misura diviene la deviazione standard (il denominatore). Allo stesso modo la deviazione normale standardizzata delle medie rende le medie indipendenti dall'unità di misura. Abbiamo anche visto nel capitolo precedente che esprimere i dati in deviazioni standardizzate consente (con l'aiuto di una tabella) di calcolare la probabilità di un certo intervallo di valori. Estendendo il concetto alle medie, l'uso di z ci permette di calcolare l'intervallo di confidenza della media.

Nella Figura 2.13 è disegnata la classica curva a campana della distribuzione normale e i dati sono espressi in deviazioni normali standardizzate. Si vede che la media ± 1.96DS (poco meno di due DS) include il 95% dei dati della distribuzione.

Al di fuori di quest'area rimane solo il 5% dei dati, il 2.5% nella coda di destra e il 2.5% nella coda di sinistra. Il 5% dei dati rappresenta il complemento all'intervallo di dati espresso dalla media ± 1.96DS. Questo 5% rappresenta anche la probabilità che abbiamo di osservare valori al di fuori dell'intervallo al 95% e viene identificato con la lettera greca alfa (). La probabilità è collocata per metà () nella coda di destra della distribuzione e per l'altra metà () nella coda sinistra. Cercando infatti nella Tabella della deviazioni normali standardizzate (vedi Tabella A in Appendice) il valore di 0.025 (cioè quello che corrisponde ad , cioè a una delle due code), vediamo che questo coincide con una deviazione standardizzata z di 1.96. Nella stessa tabella possiamo trovare tutti i valori di che c'interessano, per esempio se volessimo identificare l'area al di fuori dell'intervallo al 90%, dovremmo cercare un valore di = 0.05 (5%) (nota 5). Questo valore corrisponde a una deviazione media standardizzata z di 1.64. Ricordiamo che il nostro problema era quello di calcolare un intervallo di confidenza. Noi abbiamo la possibilità di calcolare l'intervallo di confidenza per una coda della distribuzione o per entrambe. In qualche caso può essere per noi utile calcolare l'intervallo a una coda: per esempio se siamo interessati a conoscere la probabilità che una certa media si collochi nel versante sinistro (quello dei valori inferiori alla media della popolazione) della distribuzione delle medie della popolazione, l'assunzione di principio che essa possa essere superiore o inferiore alla media della popolazione viene a cadere. E' tuttavia estremamente raro avere questo tipo di esigenze analitiche, quindi l'intervallo di confidenza viene in genere calcolato su due code. L'intervallo di confidenza può essere calcolato facilmente ritrasformando i dati espressi in deviazioni standardizzate in dati numerici riferiti alle tradizionali unità di misura utilizzando la formula:

media del campione ± ( x ES)


Per esempio se vogliamo trovare l'intervallo di confidenza al 95% (a due code) di una media corrispondente al valore di 128 mg/dl e con un errore standard della media di 7 mg/dl, procederemmo così:
  1. troveremmo il valore di z che corrisponde a un valore di 0.025 (cioè corrispondente alla probabilità del 2.5%). Abbiamo già trovato questo valore che abbiamo visto essere = 1.96 (vedi sopra)
  2. il passo successivo è semplice. La media - ( x ) è nel nostro caso: 128-(1.96 x 7) e la media + ( x ) è: 128 + (1.96 x 7). L'intervallo di confidenza al 95% della media è quindi 114.3 - 141.7 mg/dl.
Una distribuzione analoga alla distribuzione normale standardizzata (z) è la distribuzione di t. Infatti t si calcola in maniera sovrapponibile a z, e come z, ha una media = 0 e una varianza = 1.



La differenza fondamentale della distribuzione di t rispetto alla distribuzione normale standardizzata è che questa distribuzione è messa in rapporto alla numerosità del campione, cioè ai gradi di libertà. L'interesse di questa distribuzione, che è molto più usata rispetto alla distribuzione z, sta nel fatto che essa riflette il grado di informazione insito nelle stime campionarie. Si è più volte sottolineato che tanto più numeroso è un campione tanto più verosimile è la stima che esso consente di fare dei parametri della popolazione. Nella consultazione delle tavole della distribuzione di t ci si riferisce quindi alla distribuzione che ha il grado di libertà del campione che ci interessa. Come a ogni valore di z corrisponde una probabilità, anche a ciascun valore di t ne corrisponde una.

Una volta effettuato il calcolo del valore di t a partire dai dati (applicando la formula soprariportata) si può pertanto stabilire la relativa probabilità consultando la tavola dei valori di t. Queste tavole (denominate anche tavole della distribuzione di student) sono risportate in tutti i manuali di statistica.


2.3.2   Testare ipotesi: la statistica inferenziale

Nella ricerca scientifica si producono ipotesi (si generano cioè "inferenze") che devono essere sottoposte alla verifica sperimentale (aspetto tecnico) e devono essere quindi valutate con l'analisi statistica. Lo scopo della statistica inferenziale è proprio quello di valutare le ipotesi. Un ricercatore può essere interessato a stabilire se un certo farmaco riduce o no la pressione arteriosa (ipotesi: il farmaco ha un'azione ipotensiva). Per testare questa ipotesi egli effettua un esperimento articolato su due periodi: uno nel quale somministra al paziente un placebo (controllo) e un periodo nel quale somministra invece il farmaco. Per rispettare le buone regole della sperimentazione (vedi Capitolo 5) l'ordine dei due periodi è casuale (random), scelto cioè lanciando in aria una moneta (una delle due facce della moneta è il controllo, l'altra il farmaco). Ottenuti i risultati (i "dati") dell'esperimento, il ricercatore deve quindi stabilire se il farmaco è efficace o no. Per far questo egli mette a confronto le variazioni pressorie riscontrate quando veniva somministrato il placebo con le variazioni indotte dal farmaco. Per dimostrare che il farmaco è efficace si deve provare che la cosiddetta "ipotesi nulla" è falsa. In questo caso l'ipotesi nulla è che la variazione pressoria è uguale a zero sia con il placebo sia con il farmaco. In altri termini secondo l'ipotesi nulla le variazioni pressorie nei due periodi di studio (placebo e farmaco) fanno parte di un'unica distribuzione di valori che ha una media = 0 (nota 6). Con il calcolo delle variazioni pressorie nel periodo di controllo (placebo) noi abbiamo stimato la media delle differenze pressorie che si possono osservare nella popolazione in assenza di terapia. L'ipotesi alternativa all'ipotesi nulla è che il farmaco è efficace e che pertanto esso abbassi la pressione. In altri termini l'ipotesi alternativa prospetta che la variazione pressoria quando si somministra il farmaco sia diversa da zero e si collochi al di fuori dei limiti di confidenza della media delle variazioni pressorie riscontrate nella popolazione in assenza di terapia farmacologica. Anche qui dobbiamo definire il grado di certezza che ci interessa.
Se per l'intervallo di confidenza della media abbiamo fissato un grado di certezza al 95%, quando testiamo l'ipotesi che il farmaco abbassi la pressione possiamo stabilire che vogliamo una certezza della stessa entità. Accetteremo quindi come prova di efficacia del farmaco il fatto che la media delle variazioni pressorie durante la terapia con quel farmaco si collochi nella coda bassa della distribuzione Gaussiana che sottende il 2.5% dei valori estremi del versante sinistro. Consideriamo tuttavia anche la possibilità che la media si collochi nel 2.5% dei valori estremi del versante destro in quanto non possiamo escludere pregiudizialmente che il farmaco faccia aumentare la pressione (si tratta di un nuovo composto testato solo in pochi esperimenti e potrebbe rivelarsi anche dannoso in esperimenti più approfonditi: la farmacologia sperimentale potrebbe fornire molti esempi di questo genere). Affermare che un farmaco è efficace equivale ad affermare che la media delle variazioni pressorie durante la terapia si colloca al di fuori dei limiti di confidenza della media delle variazioni pressorie nella popolazione in assenza di trattamenti farmacologici, esattamente nella coda di sinistra della distribuzione (Figura 2.14). Se vogliamo “formalizzare” in termini statistici queste considerazioni, possiamo dire che accettiamo la probabilità a (= 0.05 o 5%) di rigettare l'ipotesi nulla (farmaco inefficace) quando essa è vera (nota 7). Questo tipo di errore che accettiamo di commettere è l'errore di tipo I o .

P (errore di tipo I) = = p (rigettare Ip.Nul. | Ip.Nul.vera)


L'errore opposto all'errore di tipo I è l'errore di tipo II o . Quest'errore è la probabilità di accettare l'ipotesi nulla quando essa è falsa, quindi:

P (errore di tipo II) = = p (accettare Ip.Nul. | Ip.Nul.falsa)


Per esemplificare, l'errore di tipo II sarebbe quello che commetteremmo affermando che il farmaco è inefficace (non abbassa la pressione arteriosa) quando invece esso è efficace. Anche in questo dobbiamo stabilire che probabilità di errore accettiamo. Poniamo di accettare una percentuale di errore del 5% (0.05). Se troviamo che la media delle differenze pressorie riscontrate durante l'uso del farmaco si colloca nei limiti di confidenza al 95% della popolazione, corriamo il rischio del 5% di affermare che il farmaco non abbassa la pressione quando in realtà esso la abbassa.

Con un piccolo passo ulteriore possiamo estendere il concetto e chiarire che cosa s'intende per potere di uno studio. Se noi accettiamo un errore di tipo II o del 5%, abbiamo per converso una certezza al 95% (95% è il complemento di 5%) che etichettando come inefficace il farmaco esso sia realmente inefficace. Il grado di certezza che si ha per affermare che un trattamento sia inefficace quando esso è realmente inefficace è il potere dello studio. è intuitivo che il potere dello studio dipende dalla numerosità delle osservazioni e anche dalla variabilità dei dati. Abbiamo infatti visto che la precisione della stima della media della popolazione a partire da un campione aumenta con la numerosità del campione ed è tanto più precisa quanto più bassa è la variabilità dei dati del campione. Dati dispersi e rari danno una stima incerta, dati numerosi e raggruppati in un range stretto danno una stima affidabile. Esistono tavole statistiche per calcolare il potere di uno studio in base alla numerosità dei campioni e alla DS (che è il parametro che misura la variabilità dei dati), ma è più agevole farlo direttamente utilizzando un software statistico (per esempio utilizzando il programma incluso in ArcWin, vedi Capitolo 7).

Lo scopo di questo libro non è quello di entrare nei dettagli di questa statistica inferenziale. Non affronteremo pertanto il problema dei test di significatività statistica (come l'analisi della varianza, il t test e altri). Questo problema è trattato in maniera molto chiara e dettagliata in vari manuali, alcuni dei quali sono riportati nella bibliografia di questo capitolo. La logica con cui funzionano i test di significatività è comunque quella presentata in quest'ultima parte del capitolo.


Letture consigliate

Gli argomenti possono essere approfonditi su un testo di biostatistica di livello introduttivo come:
  1. Glantz S. A primer of Biostatistics. Mc Graw Hill, 1981.
o su un manuale di livello intermedio specificamente scritto per medici impegnati nella ricerca scientifica:
  1. Altman DG. Practical Statistics for Medical Reseach. Chapman & Hall, 1991.


Note

4 Un’eccezione a questo sono i registri che sono collezioni spesso complete di un certo numero di parametri di una popolazione. Per esempio l’USRD, United States Renal Data System raccoglie dati per oltre il 90% dei pazienti che sono in trattamento dialitico negli USA. Parleremo più diffusamente dei registri nel Capitolo 7.

5 In quanto , il complemento dell’intervallo al 90%, è 10% o 0.10, distribuito metà nella coda destra (0.05) e metà nella coda sinistra (0.05).

6 La media potrebbe essere anche uguale a un valore diverso da 0. Per esempio l’effetto placebo (vedi Capitolo 5.1) potrebbe indurre una modesta caduta pressoria (-3 mmHg). Se il farmaco è inefficace la caduta pressoria è dello stesso ordine di grandezza di quella indotta dal placebo. In questo caso l’ipotesi nulla sarebbe che la distribuzione dei valori pressori nei due periodi faccia parte di un’unica distribuzione con media -3 mmHg.

7 Questa è una probabilità condizionale: la probabilità cioè di considerare falsa l’ipotesi nulla nella condizione in cui essa è vera. Per questo si usa la notazione (|) che abbiamo usato nel Capitolo 2.1.


Indietro   Inizio pagina   Avanti