Il libro
2   INTRODUZIONE ALLA BIOSTATISTICA
2.2   COME RIASSUMERE I DATI STATISTICI



2.2.1   Importanza del campione e del campionamento

L'importanza della statistica nella ricerca biomedica sta principalmente nel fatto che essa permette di trarre conclusioni o fare previsioni limitando l'osservazione solo a un gruppo dei soggetti che compongono l'insieme maggiore nel quale una certa conclusione o previsione può essere utilizzata. Per esempio, se riteniamo che la massa corporea sia in rapporto alla pressione arteriosa negli italiani adulti, noi possiamo testare l'ipotesi misurando la massa corporea e la pressione arteriosa solo in una piccola proporzione dei nostri connazionali. In altri termini, se i soggetti rappresentativi dell'insieme sono ben scelti, le conclusioni deducibili da questo sottoinsieme sono generalizzabili all'insieme maggiore.

In statistica si definisce "popolazione" l'insieme maggiore e il gruppo scelto come rappresentativo della popolazione, "campione" della popolazione (Figura 2.3).
In genere la parola popolazione identifica un gruppo di persone appartenenti a una certa comunità geopolitica (per es. la popolazione della provincia di Milano). Nella terminologia statistica popolazione ha un significato più largo in quanto definisce tutte le possibili misure (o dati) che possono essere usati per studiare un certo problema. Nell'esempio precedente del rapporto pressione arteriosa-massa corporea, i dati che compongono la popolazione (in termini statistici) sono le frequenze della massa corporea (per es. 1000 soggetti con massa corporea compresa tra 15 e 20 Kg/m2, 2000 con massa corporea tra 21 e 25 Kg/m2, ecc.) e della pressione diastolica (1000 soggetti con pressione diastolica tra 60 e 80 mmHg, 2000 con diastolica tra 81 e 90 mmHg, ecc.) tra tutti i possibili membri che compongono quella comunità.

Lo scopo che ci si prefigge quando si ottengono campioni di una popolazione è quello di fare stime e/o inferenze (cioè testare ipotesi) sulla natura della popolazione senza dover ricorrere alla collezione completa delle misure possibili nella popolazione stessa. Così non è necessario misurare massa corporea e pressione arteriosa in tutti gli italiani per studiare il rapporto tra queste due variabili: stime sufficientemente accurate si possono ottenere limitando l'osservazione a poche migliaia di individui. Nel nostro caso il campione dovrà riflettere la distribuzione geografica del paese (soggetti campionati da ogni regione in rapporto alla popolazione relativa), il sesso, le caratteristiche socio-economiche (campionamento in rapporto al reddito), lo stile di vita/abitudini (alcool, fumo, ecc.) della popolazione italiana. Per ottenere un campione rappresentativo è fondamentale che la scelta sia fatta casualmente (o random). Se la scelta del campione non viene fatta con criteri casuali è pressoché inevitabile che il campione sia viziato e che si introduca un errore pregiudiziale (bias) che distorce l'interpretazione dei dati in maniera sistematica. Per esempio, i rapporti tra massa corporea e pressione arteriosa sono influenzati dall'età, se il campione scelto ha una più larga rappresentazione di soggetti giovani rispetto a quello della popolazione italiana (perché è stato ottenuto in una comunità con età media inferiore alla media nazionale), le conclusioni tratte da questo campione non possono essere applicate alla comunità nazionale. Il problema può sembrare banale, ma in realtà l'errore di campionamento è uno dei più frequenti che si osservano nella ricerca biomedica.

Quindi, in termini statistici la popolazione è definita dall'insieme di tutti i possibili dati o misure che si possono ottenere per studiare un certo problema. Prima di procedere oltre è necessario definire meglio i tipi di dati utilizzati nella ricerca biomedica.

Nei Capitoli 5.1 e 6.1 torneremo sul problema del campionamento e sulla distorsione delle stime e delle inferenze che gli errori di campionamento possono provocare.


2.2.2   Dati, misure e variabili statistiche

Esistono tre tipi di dati. Questa distinzione è essenziale per la comprensione delle procedure statistiche e su questo punto discuteremo in qualche dettaglio.

I dati continui sono quelli caratterizzati dall'avere un numero infinito di valori possibili tra due valori. Il peso corporeo è un dato continuo: tra un peso di 70 Kg e uno di 80 Kg noi possiamo avere un numero infinito di valori. Il numero dei dati intermedi dipende solo dalla precisione della nostra misura, 1 chilogrammo, 1 ettogrammo, 1 grammo, 1 decigrammo, un centigrammo e via di seguito. Analogamente, anche l'età è un dato continuo.

I dati ordinali sono invece quelli caratterizzati dal fatto che tra due valori ci può essere solo un numero limitato di valori. Per esempio il numero di medici in una certa unità operativa è un dato ordinale: tra quattro e sei medici c'è uno e un solo valore possibile, cioé cinque. Una caratteristica dei dati ordinali è che essi, a differenza dei dati continui, possono non essere equispaziati. In medicina i dati ordinali più frequentemente usati sono quelli che si riferiscono a stadi di malattia. Per esempio se noi adottiamo la classificazione in stadi I–IV della nefropatia lupica, noi non possiamo affermare che la distanza tra gli stadi I e II equivale a quella tra gli stadi II e III (in altre parole i dati non sono “equispaziati”). Gli stadi identificano semplicemente una gravità crescente: riflettono un “ordine”.

I dati nominali (o categorici) non implicano alcun ordine. Il sesso (maschio/femmina), la razza (bianco, negro, asiatico) sono tipici dati nominali. Essere maschio o femmina, bianco o negro non implica alcun “ordine”. I dati nominali, come quelli ordinali, raggruppano solo un ben definito numero di valori possibili. Per questo motivo, i dati ordinali e quelli nominali sono anche definiti dati discreti.

La distinzione tra dati continui e dati ordinali sotto certi aspetti e in certi contesti è più teorica che reale. Per esempio, il peso corporeo è sì una variabile continua, ma in realtà quando pesiamo i nostri pazienti noi adottiamo misure precise all'ettogrammo. Per questo motivo in realtà abbiamo un numero definito (discreto) di valori possibili. Ciononostante, ai fini statistici consideriamo il peso come una variabile continua. Se noi andiamo a contare i globuli rossi, indipendentemente dallo strumento che usiamo, il nostro conteggio sarà un numero ben definito per esempio 4560000 e tra il 4559999 e il 4560000 globulo rosso è impossibile trovare un ulteriore valore (i globuli rossi non sono “frazionabili”). Questi dati sono indubbiamente dati ordinali. Tuttavia la numerosità del conteggio è talmente alta che considerare questi dati come dati continui non introduce alcuna distorsione nell'analisi statistica. Noi possiamo considerare alla stregua di dati continui anche una collezione di dati ordinali molto ricca nella quale i dati sono equispaziati (i globuli rossi, a differenza degli stadi di malattia, possono considerarsi equispaziati, nel senso che passare da 10 a 11 globuli rossi è la stessa cosa che passare da cinque milioni a cinque milioni e un globulo rosso).

In termini generali il ricercatore altro non è se non un collezionista di dati. I dati sono una collezione di misure sperimentali o di rilevazioni epidemiologiche. Gli statistici tuttavia immaginano questa collezione di dati in maniera leggermente diversa rispetto ai ricercatori. Per gli statistici, i dati sono “variabili”. Questo perché alcuni dati non sono sottoposti all'analisi necessariamente nella stessa forma nella quale sono stati raccolti. Variabili sono quindi i dati nella forma che permette la loro analisi statistica. Per i dati continui e i dati ordinali in genere non c'è alcun problema: lo statistico utilizza direttamente i dati nella forma in cui essi sono stati raccolti dal ricercatore. Tuttavia per i dati nominali, la trasformazione in variabili può non essere immediata (e intuitiva). Per esempio, dati nominali dicotomici (si o no) come il sesso possono essere rappresentati da una sola variabile nominale. Possiamo cioè usare una variabile che indica la presenza/assenza del sesso maschile. Per i dati nominali che si riferiscono a due o più categorie, come i dati che si riferiscono alla razza (bianca, negra, asiatica, altre razze), noi possiamo creare tre variabili che rappresentano la razza: la prima variabile rappresenta l'essere o il non essere di razza negra, la seconda essere o non essere di razza asiatica e la terza essere o no di razza bianca. E' da sottolineare che non è necessario creare una quarta variabile per le “altre” razze. Infatti, il non essere, bianco, negro o asiatico implica l'appartenenza a un'altra” razza. In generale, i dati nominali che includono n categorie di una certa caratteristica possono essere rappresentati da n– 1 variabili nominali.


2.2.3   La distribuzione dei dati

Abbiamo definito il campione come un sottoinsieme di soggetti nel quale noi effettuiamo una serie di misurazioni per stimare alcune caratteristiche della popolazione che lo stesso campione rappresenta. Analogamente analizzando la distribuzione dei dati nel campione possiamo stimare la distribuzione dei dati nella popolazione corrispondente. La distribuzione è la frequenza (assoluta o relativa) con la quale si verificano certi valori di una certa misura nella popolazione. Le distribuzioni possono essere rappresentate con equazioni matematiche o graficamente. La rappresentazione grafica è particolarmente utile e istruttiva ed è lo step preliminare di ogni analisi statistica.

I dati nominali e quelli ordinali sono dati discreti (cioè rappresentano una collezione di valori finita). La distribuzione dei dati discreti si può esprimere graficamente con i grafici a barre (Figura 2.4).
Nella Figura è rappresentata la frequenza relativa (espressa in termini %) dei centri dialisi (con un numero di pazienti >40) in rapporto al numero dei nefrologi in una regione italiana. Sull'asse delle ascisse, l'asse delle x, è indicato il numero dei nefrologi e sulle ordinate, l'asse delle y, la frequenza relativa dei centri che hanno quel numero di nefrologi. E' bene rilevare che in questo particolare grafico noi rappresentiamo le barre separate l'una dall'altra per rilevare che stiamo trattando dati discreti. Infatti, non esistono valori intermedi tra 3 e 4 o tra 4 e 5 (numero di nefrologi).

Come abbiamo rilevato in precedenza noi possiamo considerare i dati come "dati continui" quando essi sono numerosi ed equispaziati. Un esempio di dati continui frequentemente usato è quello dei dati della pressione arteriosa. I dati continui si rappresentano con istogrammi. L'istogramma è molto simile al grafico a barre (Figura 2.5a).

La differenza tra i due sta nel fatto che l'istogramma rappresenta non singoli valori bensì intervalli di valori (per esempio la pressione sistolica tra 101–110 mmHg, tra 111 e 120 mmHg e così via). Nell'istogramma ogni barra deve essere proporzionale all'estensione dei valori che essa comprende, per esempio se la barra successiva all'intervallo 101–110 è l'intervallo 111–130, questa barra deve avere una larghezza doppia rispetto alla precedente. Un altro modo di presentare i dati continui sono i poligoni di frequenza (Figura 2.5b). La costruzione di un poligono di frequenza è agevole. Basta congiungere i punti di mezzo superiori di ciascuna barra. Se abbiamo una serie di campioni di numerosità progressivamente crescente, possiamo adottare intervalli progressivamente più piccoli. Per esempio in una distribuzione della pressione arteriosa sistolica in un campione di 100000 persone l'intervallo potrà diventare di 1 mmHg. Man mano che l'intervallo diventa più piccolo il poligono di frequenza assume una morfologia a campana. In altri termini, la distribuzione dei dati assume una morfologia Gaussiana (Figura 2.5c).

La distribuzione dei dati nominali (come il sesso, la razza, ecc.) cioè la distribuzione binomiale, è diversa da quella adottata per i dati continui. Non tratteremo gli aspetti teorici della distribuzione binomiale. In biostatistica la distribuzione più frequentemente usata è la distribuzione Gaussiana.

Per la descrizione delle distribuzioni Gaussiane basta conoscere solo due parametri: il primo parametro è la misura del centro della distribuzione, il secondo è la misura della variazione dei dati di quella distribuzione.


2.2.4   La media e altre misure di localizzazione

La misura della localizzazione centrale di una distribuzione Gaussiana, vale a dire di dati continui è la media (). In termini matematici la media è:



dove rappresenta la media della popolazione, il dato ennesimo di una serie di valori e la sommatoria di tutti i dati () della popolazione, e il numero di dati.

La media può essere immaginata come il centro di gravità di una distribuzione. Questa proprietà fa sì che essa sia la misura di localizzazione più frequentemente impiegata in statistica biomedica. Tuttavia la media (specialmente nei campioni di piccole dimensioni) tende ad essere influenzata dai valori estremi.
Quando quest'influenza è evidente (Figura 2.6) si può utilizzare una misura di localizzazione che non risente dei valori estremi, vale a dire la mediana. La mediana è il punto di mezzo di una distribuzione. In altri termini il 50% dei valori è più alto della mediana e l'altro 50% è più basso della mediana. Mentre la media si può immaginare come il centro di gravità della distribuzione, la mediana può identificarsi con il centro fisico della distribuzione.

In una distribuzione Gaussiana e in tutte le distribuzioni simmetriche e unimodali (cioè con una sola moda, vedi dopo) la media e la mediana coincidono.

Una terza misura di localizzazione è la moda. La moda, come la mediana, non è influenzata dai valori estremi. Essa coincide col valore più frequente di una distribuzione.

La misura di localizzazione centrale più frequentemente usata è la media. Se in un certo campione la media appare molto influenzata dai valori estremi (come nel caso descritto nella Figura 2.6) si ricorre alla mediana. La moda non è quasi mai usata per la descrizione di una distribuzione. Il concetto di moda è invece utile per descrivere alcune distribuzioni nelle quali esiste più di un gruppo di valori ad alta frequenza (Figura 2.7).


Per esempio nelle distribuzioni bimodali esistono due valori, separati da un intervallo, all'incirca ugualmente frequenti. Quando si nota la presenza di due mode (Figura 2.7) bisogna sospettare che quella distribuzione sia il mix di due popolazioni anziché l'espressione di una popolazione unica. I rapporti fra media, mediana e moda sono descritti nella Figura 2.8.




2.2.5   Varianza, deviazione standard e altre misure della variabilità di una distribuzione

Abbiamo visto che la media è una misura della localizzazione centrale della distribuzione (il centro di gravità). La Figura 2.9 mostra come popolazioni con la stessa media possono avere un grado molto diverso di variazione dei dati. Una maniera per esprimere questa variazione è quello di utilizzare la media come punto di riferimento di ciascun valore, cioè di calcolare la deviazione di ciascun dato dalla media (il suo “scarto” dalla media). Le deviazioni saranno numeri positivi per tutti i valori al di sopra della media e numeri negativi per tutti i valori al di sotto della media. Se noi sommassimo queste deviazioni il risultato sarebbe 0 (i valori positivi sarebbero elisi dai valori negativi). Quest'approccio non ci consentirebbe pertanto di ottenere una misura della variabilità dei dati. Il problema si risolve elevando al quadrato le deviazioni dalla media (il quadrato di un numero negativo è un numero positivo). Se sommiamo i quadrati delle deviazioni (o “scarti”) dalla media e dividiamo questa somma per il numero delle osservazioni otteniamo la deviazione quadratica media (o scarto quadratico medio) o varianza. Per riportare i valori all'unità di misura di partenza possiamo estrarre la radice quadrata della varianza. La radice quadrata della varianza è la misura di distribuzione più usata ed è definita deviazione standard.


In termini matematici:

( )


dove è la varianza, () la sommatoria dei quadrati delle deviazioni della media, e il numero di dati.



dove DS è la deviazione standard.

La deviazione standard (DS) è una misura di grande utilità in quanto ci dice quanto i dati "mediamente" (DS = radice quadrata della deviazione quadratica media) si discostano dalla media: la media ±1DS include il 66% dei valori di una distribuzione Gaussiana. Se abbiamo tre distribuzioni con la stessa media, per esempio 10, e con tre DS diverse, per esempio tre, quattro e cinque, nella prima distribuzione il 66% dei valori saranno compresi tra 7 e 13, nella seconda tra 6 e 14 e nella terza tra 5 e 15. E' ovvio che la prima è quella che mostra la più bassa variabilità dei dati. La media ±2DS riunisce circa il 95% dei valori di una distribuzione.

Un altro modo di esprimere la variabilità di una distribuzione è quella di riferirsi al range di una distribuzione (il valore minimo e il valore massimo). Il range dipende esclusivamente dai valori estremi, perciò se il campione di dati è piccolo esso può dare una stima erronea del range della popolazione (questo perché i valori estremi sono rari e possono non essere rappresentati in un piccolo campione).

La misura della variabilità che è usata quando la localizzazione centrale dei dati è espressa dalla mediana è il range interquartile. Come abbiamo visto la mediana è usata quando la distribuzione include valori estremi che tenderebbero a influenzare in maniera eccessiva la media. Questi valori estremi tenderebbero a dare anche una stima erronea della variabilità (il range sarebbe troppo elevato). Abbiamo visto che la mediana è una misura centrale che divide in due una distribuzione. Il range interquartile si calcola dividendo in due ciascuna di queste due metà: la distribuzione è così suddivisa in quattro parti e il range interquartile identifica i valori compresi tra il 1° e il 3° quartile. Su una distribuzione di 16 valori ordinati in maniera crescente il range interquartile è chiaramente identificato nella Figura 2.6. Il range interquartile ha la proprietà di eliminare l'influenza dei valori estremi e (a differenza del range) di essere relativamente indipendente dalla numerosità del campione. Il range interquartile riunisce il 50% dei valori di una distribuzione, quindi è un'espressione più "raggruppata" della media ±1DS che raccoglie il 66% dei valori di una distribuzione ±1DS.


2.2.6   La distribuzione normale standardizzata

Una proprietà interessante delle distribuzioni Gaussiane è quella che esse permettono di calcolare la probabilità di un certo intervallo di valori utilizzando l'integrale della distribuzione compreso tra quei due valori. In altri termini la probabilità totale di una distribuzione Gaussiana (cioè l'area sotto la curva a campana) è uguale all'unità e i vari intervalli (in dipendenza della loro estensione) sono una frazione dell'unità. E' ovvio che per risalire alla probabilità di un certo intervallo dobbiamo effettuare il calcolo nella specifica distribuzione di quella particolare variabile. Per esempio i valori di pressione sistolica compresi tra 120 e 140 costituiscono circa il 30% della distribuzione di valori della pressione sistolica nella popolazione. Se ci riferiamo alla pressione diastolica (se cambiamo variabile) cambia anche la probabilità dell'intervallo che sarà del 5%. Questo perché la pressione sistolica e quella diastolica hanno due distribuzioni differenti. In altri termini, esse sono centrate su due medie diverse (circa 80 mmHg per la diastolica, circa 130 mmHg per la sistolica). Poiché l'intervallo 120–140 include la media della pressione sistolica avrà un'area (o densità di probabilità) più alta rispetto allo stesso intervallo riferito alla diastolica (Figura 2.10).
Per stabilire la probabilità di un certo intervallo di pressione diastolica non possiamo pertanto utilizzare la distribuzione della pressione sistolica. Il problema di calcolare la probabilità di un certo intervallo di valori può essere tuttavia risolto riferendosi a una distribuzione ideale nella quale i valori sono trasformati in deviazioni normali standardizzate. La deviazione normale standardizzata non è altro che la differenza tra un certo valore della variabile e la media della distribuzione divisa per la deviazione standard della stessa distribuzione. In altri termini:



dove è la deviata media standardizzata, la media della popolazione, la deviazione standard.

La "standardizzazione" elimina il problema dell'unità di misura in quanto la deviazione standard (che compare al denominatore) diviene essa stessa l'unità di misura dei dati (nota 3). Per esempio utilizzando una tabella che riporta la probabilità associata con varie deviazioni normali standardizzate si può calcolare esattamente la probabilità di quel certo valore. I valori della tabella sono costruiti in base alla proprietà della DS di identificare ben precise aree di probabilità della distribuzione normale (Tabella A in Appendice). Se abbiamo una serie di valori di glicemia con media 100 mg/dl e deviazione standard 25 mg/dl, la deviazione media standardizzata corrispondente a una glicemia di 125 mg/dl è 25/25 = 1. Nella nostra tabella una deviazione media standardizzata di 1 ha una probabilità di 0.1587, cioè circa il 16%. Partendo da due valori ben definiti possiamo calcolare la probabilità di un intervallo di valori, per esempio i valori compresi tra 75 e 125 mg/dl. Conosciamo già la probabilità associata a 125 mg/dl. Essendo la distribuzione simmetrica, la probabilità associata a 75 mg/dl è identica, cioè 1 (25/25 = 1). Quindi la probabilità dell'intervallo 75-125 è uguale alla probabilità totale della distribuzione, cioè 1, alla quale va sottratta la somma delle probabilità dei due valori, cioè 0.1587 x 2 o 0.3174. La probabilità dell'intervallo è quindi 1.000 - 0.3174 = 0.6826 (cioè circa il 68%).


Letture consigliate
  1. Altman DG. Describing Data. In: Practical Statistics for Medical Reseach. Chapman & Hall, 1991.
  2. Armitage P, Berry G. Sampling. In: Statistical Methods in Medical Research. Blackwell Scientific Publications, 1987.


Note

3 Possiamo così pensare il problema: i dati della glicemia possono essere espressi in mg/dl (per es. 128 mg/dl) o in deviazioni normali standardizzate dove la deviazione è lo scarto dalla media (numeratore) espresso in unità di deviazione standard (denominatore). Noi siamo abituati a definire la normalità dei valori dei parametri di laboratorio rispetto a un range (per esempio 128 mg/dl è 8 mg/dl oltre il limite superiore del range normale). Lo stesso valore espresso in deviazioni normali standardizzate, 2.1, vuole affermare che quella glicemia si colloca a 2.1 DS di distanza dalla media della popolazione. Poiché la media ±2DS comprende il 99% dei valori della distribuzione, quel valore si può considerare un valore molto raro e al di fuori della norma.


Indietro   Inizio pagina   Avanti