Il libro
2   INTRODUZIONE ALLA BIOSTATISTICA
2.4   CORRELAZIONE E REGRESSIONE, REGRESSIONE MULTIPLA, REGRESSIONE LOGISTICA



Spesso ci si pone il problema di stabilire il rapporto tra due osservazioni: che rapporto c'è tra pressione arteriosa e peso corporeo? C'è un legame tra peso corporeo e complicanze cardiovascolari? Che rapporto c'è tra sesso e rischio cardiovascolare? L'approccio a questi problemi dipende dal tipo di variabile che è in gioco. Il rapporto tra peso e pressione arteriosa è un rapporto tra due variabili continue mentre il rapporto tra peso corporeo e complicanze cardiovascolari è composto da una variabile continua (il peso) e una variabile nominale (infarto e/o incidente cerebro-vascolare: si/no). Il quesito sul sesso e il rischio cardiovascolare formalmente implica due variabili nominali (sesso: maschio/femmina; complicanza cardiovascolare: si/no).

2.4.1   Variabili continue

Nel caso in cui le due variabili sono entrambe continue (come spesso avviene) l'approccio analitico corretto è la correlazione.
Nella Figura 2.15a è mostrato il rapporto tra due variabili in un campione di 6 individui. L'asse orizzontale è l'asse delle x o ascissa, l'asse verticale è l'asse delle y o ordinata. E' chiaro che in questo esempio la variabile y è tanto più alta quanto maggiore è la variabile x. Questo rapporto è ben descritto da una semplice equazione nella quale a rappresenta l'intercetta o il valore che la variabile y assume quando la variabile x è = 0, e da b cioè dalla pendenza (slope) della retta che meglio interpola i dati (best fitting). In altri termini:

y = a + bx


è bene sottolineare che stiamo operando su un campione di dati della popolazione.

Il campione fornisce una stima (non una certezza) dei parametri della popolazione. Questo concetto è stato discusso in dettaglio nel Capitolo 2.3 e va esteso anche alla correlazione. Possiamo pensare che nel nostro grafico per ogni valore della x ci sia una vasta collezione di possibili valori della y che hanno una distribuzione Gaussiana (Figura 2.15b).

Torniamo alla retta: se abbiamo una serie di dati come quelli descritti nella Figura 2.15, il problema è trovare una intercetta e una pendenza della retta tali da minimizzare la distanza di ciascuno dei punti dalla retta. Questo processo è l'interpolazione o “fitting”. Come abbiamo già visto discutendo della varianza (Capitolo 2.3), poiché le deviazioni dei singoli punti rispetto alla retta possono essere positive (i punti sono più in alto della retta) o negative (i punti sono più in basso della retta) è conveniente elevare al quadrato le deviazioni dei punti rispetto alla retta. Abbiamo ora un criterio per interpolare i dati: la retta ideale è quella che minimizza la somma dei quadrati delle deviazioni dalla retta stessa (il c.d. metodo dei “minimi quadrati” o least squares method).

Le deviazioni dei singoli punti dalla retta sono definite residui (Figura 2.15c). Questa definizione è stata scelta per differenziarla da un'altra importante misura della variabilità dei dati, cioè dalle deviazioni dovute alla regressione (Figura 2.15d). Le deviazioni dovute alla regressione non sono altro che la distanza delle singole y dalla y media (cioè dalla linea orizzontale del grafico). Anche qui i dati vengono trasformati in quadrati per risolvere il problema dei numeri negativi. Abbiamo quindi due stime della variabilità dei dati: la somma dei quadrati dei residui e la somma dei quadrati delle deviazioni dovute alla regressione.
Nella Tabella 2.1 sono riportati i residui (Figura 2.15c) e le deviazioni dalla regressione (Figura 2.15d) della Figura 2.15, i relativi quadrati e le loro sommatorie.

I punti possono essere più o meno distanti dalla retta. Se i punti sono tutti molto vicini noi pensiamo che il rapporto tra le due variabili è un rapporto stretto, viceversa se sono lontani pensiamo che il rapporto è debole. La misura del rapporto tra due variabili è data da un coefficiente definito coefficiente di correlazione (r) o coefficiente di Pearson che si calcola utilizzando le due misure di variabilità che abbiamo appena visto:

r quadrati regressione
quadrati regressione + quadrati residui


Nel nostro esempio r = 23.43/30.83 = 0.76.


I rapporti tra due variabili possono essere, oltre che consensuali e ascendenti come abbiamo visto nell'esempio della Figura 2.15a (sale il valore delle x e sale il valore delle y), anche discordanti e discendenti (sale il valore delle x, diminuisce il valore delle y). Nel primo caso si parla di rapporto diretto e la r sarà un numero positivo compreso tra 0 (nessun accordo) e 1 (massima consensualità possibile), nel secondo caso di rapporto inverso e la r sarà un numero negativo compreso tra 0 e -1 (Figura 2.16).

Nessuno ormai fa il calcolo manualmente in quanto questo tipo di analisi si può fare facilmente utilizzando i software di analisi statistica elementare. Questi software assieme alla r, forniscono le altre informazioni che ci servono, cioè l'intercetta e la pendenza con i relativi errori standard e la probabilità associata alla r (p). L'errore standard dell'intercetta e della pendenza indicano la precisione di queste stime (come l'ES della media indica la precisione di una certa media campionaria come stima della media di una popolazione).
Se per esempio mettiamo in rapporto due variabili come la pressione arteriosa media e il peso in un gruppo di 14 soggetti, una tipica risposta del computer è riportata nella Tabella 2.2.


2.4.2   Variabili ordinali e altre combinazioni di variabili

Quando le due variabili sono di tipo ordinale (gli stadi di malattia, il numero di individui affetti da una certa malattia, ecc.) si usa un approccio diverso dal metodo dei minimi quadrati. Questo metodo è basato sui “ranghi”. In altri termini le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico. L'accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via per il secondo valore di x, il terzo, ecc. fino ad arrivare ai valori massimi. Il coefficiente che esprime questo accordo è il coefficiente di correlazione di Spearman. Per serie di dati >20, il coefficiente di Spearman tende a coincidere con il coefficiente di correlazione.

Esistono altre possibilità di rapporto tra due variabili: tra una variabile continua e una ordinale, tra due variabili nominali, tra una nominale e una continua, ecc. Non tratteremo in dettaglio questi rapporti. Alcuni di essi saranno tuttavia presentati in altre sezioni del libro.


2.4.3   Correlazione e regressione: stima della forza di un'associazione e stima della variabile y

L'esempio precedente illustra come noi possiamo fare un'analisi dettagliata dei rapporti tra due variabili stabilendo in che misura la variabilità dell'una influenza la variabilità dell'altra (cioè la loro covarianza), quantificando questo rapporto con il coefficiente di correlazione r, e descrivendo anche un'equazione per disegnare la retta che meglio interpola i dati. Le informazioni (gli "output") che il computer ci offre per questo tipo di calcoli sono identiche sia che noi chiediamo di effettuare un'analisi di correlazione o un'analisi di regressione dei dati. Tuttavia i due concetti non sono sovrapponibili, ma complementari.

Correlazione: quando siamo interessati a quantificare la forza dell'associazione tra due variabili continue e la direzione del loro accordo, dobbiamo calcolare la loro correlazione. La correlazione tra due variabili è espressa da r. Se vogliamo ottenere una stima percentuale dell'associazione, basta elevare il coefficiente r al quadrato. R2 o coefficiente di determinazione, esprime in che misura la variabilità di una certa variabile y si associa a quella di un'altra, x. Se un ipotetico coefficiente di correlazione è = 0.70, l'R2 è = 0.49 (cioè 0.70 x 0.70). Questo vuol dire che il 49% della variabilità di y è spiegato dalla concomitante variabilità di x. E' bene sottolineare che queste considerazioni e queste stime sono valide solo e soltanto se i valori di x sono una collezione casuale (random) dei possibili valori della variabile x nella popolazione (questo tipo di campione è anche definito una collezione naturale). Quando non siamo certi che i dati della variabile x sono una serie casuale, non ha alcun senso applicare questi calcoli in quanto con procedimenti di selezione (consapevoli o inconsapevoli) è possibile creare rapporti tra x e y di grado anche molto elevato ma privi di senso. Per esempio se si decide di scegliere valori di x crescenti ai quali corrispondono valori di y anche crescenti l'associazione non riflette un'associazione reale esistente nella popolazione ma un'associazione fittizia creata dalla procedura di selezione delle x.

Regressione: quando siamo interessati a prevedere che valore assume la variabile y in coincidenza di un certo valore di x, il nostro problema non è tanto la forza dell'associazione tra le due variabili quanto la stima (che sarà ovviamente più o meno precisa in dipendenza della forza della loro correlazione) di una variabile essendo nota l'altra. Per esempio, se i rapporti tra peso e altezza sono descritti dall'equazione:

peso (cioè la variabile y) = 10 Kg + 0.3 Kg x altezza (cm)


In base a questa equazione possiamo stimare che un soggetto alto 150 cm ha un peso di 55 kg e uno alto 200 cm, pesa 70 Kg. Certamente ci fideremo poco di questa stima se il coefficiente di correlazione è basso, per esempio 0.3 (R2 = 0.09, il che indica che solo il 9% della variabilità del peso è spiegata dalla variabilità dell'altezza). Viceversa daremmo valore alla stima se l'r fosse elevato, per esempio 0.80 o 0.90 (R2 = 0.64 e 0.81).

Quindi correlazione e regressione non sono la stessa cosa. Noi possiamo trovare un'identica correlazione tra due serie di valori senza che questo implichi che le due serie di valori siano descritte da rette identiche (cioè con la stessa intercetta e la stessa pendenza), viceversa noi possiamo comunque essere interessati a stimare un certo valore di y a partire da un valore dato di x (cioè la regressione di y su x), anche se la forza della loro associazione non è elevata.


2.4.4   Regressione multipla

Nella regressione lineare usata nell'esempio precedente noi eravamo interessati a stimare la pressione arteriosa media a partire dal peso dei pazienti e a stabilire anche la forza di questa associazione (correlazione). Tuttavia oltre al peso corporeo, molti altri fattori possono influenzare la pressione arteriosa, per esempio il numero di sigarette fumate, l'apporto di sale, ecc. Tutte queste informazioni aggiuntive indubbiamente potrebbero arricchire la precisione della nostra stima e pertanto sarebbe riduttivo escluderle dall'analisi. Quando una variabile (definita variabile dipendente) è influenzata da più variabili indipendenti essa può essere stimata con la regressione multipla.

A questo scopo possiamo immaginare un'equazione analoga alla regressione lineare ma fondata su più variabili. Utilizzando l'esempio precedente, immaginiamo un'equazione che predica la pressione arteriosa media, PAM (variabile dipendente) in base al peso e al fumo (variabili indipendenti):

PAM = a + b(peso) + c(n° sigarette)


a è l'intercetta della regressione multipla, b e c sono i coefficienti del peso corporeo e del numero di sigarette.

Potremmo rappresentare questa equazione su tre dimensioni, sul piano di base collocheremmo le due variabili indipendenti (peso e fumo) e sulla terza dimensione la variabile dipendente (la PAM). I due coefficienti b e c consentono di disegnare una retta che si dispone nello spazio tridimensionale (Figura 2.17).

Se a = 90 mmHg, b = 0.6 Kg e c = 0.5 sigarette, un soggetto che pesa 100 Kg e fuma 20 sigarette al giorno avrà una PAM = 90 + 0.6 x 100 + 0.5 x 20 = 160 mmHg.

Le equazioni multiple possono avere molte variabili indipendenti e altrettanti coefficienti (b, c, d, e...). Questi coefficienti sono designati come coefficienti di regressione e sono indicati con la lettera B negli output dei più comuni pacchetti statistici, per es. con l'SPSS (vedi Capitolo 7). Quando le variabili sono >3, non è possibile fare una rappresentazione grafica. Potremmo immaginare che la retta descritta dall'equazione multipla basata su 7 variabili indipendenti e 1 variabile dipendente si disponga in uno spazio a 8 dimensioni (!).

Così come la forza dell'associazione tra due variabili è descritta dal coefficiente di correlazione (r) e dal coefficiente di determinazione (R2), nella regressione multipla la forza dell'associazione tra la variabile dipendente e le variabili indipendenti è espressa dal coefficiente di regressione multipla (R) e dal relativo coefficiente di determinazione (R2). Anche ai singoli coefficienti di regressione che compongono l'equazione si può attribuire una significatività. Il metodo è semplice: basta paragonare di volta in volta il coefficiente di determinazione (R2) del modello (full model) con un secondo coefficiente di determinazione calcolato escludendo la variabile corrispondente al coefficiente di regressione che vogliamo testare, cioè con un modello ridotto (reduced model). Se l'R2 non si modifica vuol dire che il coefficiente non è significativo, viceversa sarà tanto più significativo quanto più si abbassa l'R2.

I valori espressi nei coefficienti di regressione ci consentono di predire la variabile dipendente ma non ci danno alcuna informazione sul loro peso relativo: per predire la pressione è più importante il peso o il fumo? I coefficienti di regressione sono espressi in unità di misura differenti e i loro valori non possono essere paragonati. Per rendere paragonabili i valori dei coefficienti di regressione possiamo adottare l'artificio di standardizzarli adottare cioè un procedimento analogo a quello descritto nel Capitolo 2.2.6 quando abbiamo trasformato i dati di una distribuzione in deviazioni standardizzate. Una volta trasformati i coefficienti di regressione in coefficienti di regressione standardizzati (o beta) possiamo metterli a confronto e stabilire l'importanza relativa di ciascuna variabile indipendente. Così se il coefficiente standardizzato del peso corporeo è 0.2 e quello del fumo è 0.1, il peso è un determinante della pressione arteriosa media 2 volte più importante del fumo.

La conoscenza dei coefficienti standardizzati è importante in quanto ci stimola ad identificare il modello statistico più efficiente per predire la variabile dipendente. Un modello statistico è tanto più efficiente quanto minore è il numero di variabili indipendenti (explanatory variables) che utilizza per predire (con adeguata accuratezza) la variabile dipendente. In altri termini se abbiamo 7 variabili indipendenti ci possiamo chiedere quali di queste 7 vale la pena introdurre nell'equazione. Una variabile indipendente con una coefficiente standardizzato basso contribuisce poco alla stima della variabile dipendente e complica inutilmente l'equazione multipla. Per costruire un modello multiplo possiamo partire da una sola variabile indipendente e quindi aggiungerne una seconda. Se il coefficiente di determinazione (R2) aumenta possiamo giudicare opportuno utilizzare anche la seconda variabile indipendente. Procediamo quindi con una terza variabile e ripetiamo la stessa verifica e così via. Questo modo di procedere introducendo una variabile per volta è la tecnica stepwise.

I dati vengono in genere presentati come nella Tabella 2.3.

Introducendo la seconda variabile l'R2 passa da 0.32 a 0.48 (cioè l'equazione predice con accuratezza del 16% più alta la variabile dipendente) e questo aumento dell'R2 è significativo.

La procedura di selezione delle variabili da introdurre nell'equazione (il modello multiplo) si arresta quando non c'è più guadagno in significatività. L'aggiunta dell'apporto alimentare di sale è poco influente in quanto non aggiunge significatività (poiché l'R2 passa dallo 0.48 allo 0.49, il guadagno è solo dell'1%).

Tuttavia il problema qui si complica: quale sequenza è opportuno seguire quando si introducono le variabili nel modello? Noi possiamo procedere in due modi: utilizzare una gerarchia predeterminata che abbiamo stabilito in base alla nostra conoscenza dei fenomeni oppure lasciarci guidare dal computer. La prima soluzione (l'approccio gerarchico alla regressione multipla o la regressione gerarchica) è la più saggia. Nel nostro esempio possiamo decidere di introdurre prima il peso perché il rapporto tra peso e pressione è stato largamente confermato mentre il rapporto fumo/pressione è meno certo (acutamente il fumo fa aumentare la pressione ma in più di un studio è stato trovato che i fumatori abituali non sono più ipertesi dei non fumatori). Se ci lasciamo guidare dai software statistici la situazione si complica. Se abbiamo 7 variabili indipendenti il computer inizialmente le prende tutte in considerazione. Il software comincia quindi a scegliere (in base ai coefficienti standardizzati) quello che ha il coefficiente più basso e ripete la procedura, di volta in volta escludendo la variabile con coefficiente standardizzato più basso. La procedura si arresta quando l'esclusione di una certa variabile causa una perdita significativa del potere predittivo del modello. Bisogna tuttavia considerare che la forza dell'associazione espressa da un certo coefficiente standardizzato è influenzata dalle oscillazioni casuali dei dati; per esempio la variabile indipendente x5, potrebbe aver un coefficiente standardizzato più elevato di quello della variabile x6 semplicemente per l'oscillazione random dei dati. Questo fa sì che la gerarchia stabilita con questo approccio spesso non è confermata su un'altra serie di dati della stessa popolazione. La possibilità di un errore di questo genere è tanto più alta quanto più alto è il numero di variabili indipendenti del modello. L'approccio gerarchico è quasi sempre preferibile, ammesso che ci siano le premesse conoscitive necessarie.

Val la pena accennare infine al fatto che talora una variabile indipendente che da sola è molto correlata alla variabile dipendente ci delude quando viene inserita nella regressione multipla. Questo fenomeno è dovuto al fatto che questa variabile si correla anche alle variabili precedentemente introdotte (la cosiddetta "multi-collinearità") e per questo aggiunge poche informazioni all'equazione. Per esempio potrebbe darsi che l'apporto alimentare di sale e la pressione arteriosa siano correlati tra loro e che l'r sia elevato, 0.5. Se introducendo l'apporto di sale nel modello multiplo l'R2 varia poco (solo 1% di guadagno) è perché evidentemente i pazienti che introducono più sale sono anche più grassi e fumano molto e viceversa. Essendo le informazioni relative al peso e al fumo già incluse nel modello, il sale finisce con l'essere ininfluente per la stima della pressione arteriosa nel modello multiplo.


2.4.5   Regressione logistica

Una delle applicazioni più utili della regressione multipla potrebbe essere quella di predire la mortalità o la morbilità (per es. gli incidenti cerebrovascolari, l'infarto, il cancro o altre malattie). Tuttavia la regressione multipla non può essere applicata a dati categorici come la morte o l'infarto miocardico. Queste variabili infatti hanno due sole possibilità 0 o 1 (vivo o morto, infarto o non infarto, ecc.). Per analizzare queste variabili con un approccio multivariato, esse devono essere trasformate. La trasformazione da utilizzare è quella in “logit” e il modello analitico è la regressione logistica. Arriveremo gradualmente a definire cos'è una funzione logistica e come si interpreta la regressione logistica.

  • La likelihood nei modelli binari


  • Questa breve digressione è finalizzata a chiarire il metodo che si adotta per la costruzione dei modelli logistici, cioè il metodo della probabilità più verosimile o maximum likelihood.

    Se seguiamo un campione di 10 pazienti per un certo periodo di tempo e siamo interessati a stabilire la mortalità, abbiamo due possibili esiti, vivo o morto. Definiamo la probabilità di morte con p e quella di sopravvivere con il suo complemento 1-p. Nella nostra serie per esempio possiamo trovare la situazione riportata nella Tabella 2.4.

    Dalla Tabella risulta che 3 pazienti sono deceduti (p) nel periodo di osservazione e 7 sono sopravvissuti (1-p). Le osservazioni sono indipendenti (un paziente può vivere o morire indipendentemente dagli altri) quindi noi possiamo utilizzare la regola moltiplicatoria della probabilità (Capitolo 2.1) per stimare la probabilità della nostra osservazione.

    Quindi il nostro modello è:

    p x (1-p) x (1-p) x p x (1-p) x (1-p) x (1-p) x p x (1-p) x (1-p)

    cioé       (p)3 x (1-p)7       (nota 8)


    Nel modello possiamo attribuire varie probabilità al rischio di morte (p). Per esempio un rischio del 10% (0.10) o 20% (0.20) o altri valori. La domanda che ci poniamo è: quanto verosimile (likely) è un certo rischio (per esempio: mortalità 10%, sopravvivenza 90%) tenuto conto che noi osserviamo una mortalità del 30% (e una sopravvivenza del 70%)? Utilizzando la stima emersa dalla nostra osservazione possiamo calcolare la verosimiglianza delle varie ipotesi di rischio, per esempio quella del 10%:

    (0.10)3 x (0.90)7 = 0.001 x 0.478 = 0.000478 (o 4.78 x 10-4)


    Possiamo ripetere il calcolo per altri valori ipotetici del rischio per esempio per un rischio del 30% (sopravvivenza 70%):

    (0.30)3 x (0.70)7 = 0.027 x 0.082 = 0.002214 (o 22.14 x 10-4)


    o per un valore del 20%:

    (0.20)3 x (0.80)7= 0.008 x 0.209715 = 0.001677 (o 16.77 x 10-4)


    La probabilità più alta è quella che coincide con un rischio del 30%. Ripetendo il calcolo (calcolo iterativo) per ulteriori valori di rischio troviamo che la più alta probabilità rimane proprio quella che coincide con la percentuale da noi effettivamente osservata nel campione, appunto il 30%. Noi diciamo che l'ipotesi di rischio del 30% è quella che è meglio supportata dai nostri dati. Siamo arrivati a questa conclusione applicando il calcolo iterativo, cioé testando tutti i possibili valori di rischio che p può assumere. La conclusione è abbastanza logica in quanto una certa ipotesi di rischio è tanto più verosimile quanto più è simile al rischio effettivamente osservato. Il rischio che ha la verosimiglianza più alta è definito il valore più verosimile (maximum likelihood). Questo valore coincide con la proporzione osservata dell'outcome dicotomico (morto/vivo) nel campione. Qualsiasi altro valore di rischio fornisce stime meno credibili rispetto a quella del valore più verosimile.


  • L'equazione logistica: prevedere l'esito (outcome) in base ai determinanti del rischio


  • Nell'esempio precedente l'esito (vivo/morto) è stato previsto sulla base dell'osservazione di 10 soggetti e sulla base di una serie di stime teoriche del rischio (20% o 30%, ecc.). In base al calcolo iterativo avevamo scoperto che il rischio che coincideva con l'esito osservato era quello che aveva la massima verosimiglianza (maximum likelihood). Se oltre a registrare l'esito (vivo/morto) misuriamo anche una o più variabili che riteniamo possano influenzarlo (nel nostro esempio l'ipertrofia ventricolare sinistra, la pressione arteriosa media) possiamo costruire un modello più complesso che cerca di predire l'esito a partire dalle variabili indipendenti. Per esempio:

    mortalità = a + b (massa ventricolare) + c (pressione arteriosa media)

    o in termini generali:       y = a + bx1 + cx2       (nota 9)


    In questo caso il metodo deve massimizzare la probabilità di ottenere i valori osservati della variabile dipendente (vivo/morto) in base a un'equazione costruita con i dati relativi alla pressione arteriosa media e alla massa ventricolare sinistra. La likelihood sarà massima quando i coefficienti dell'equazione saranno tali da predire il più accuratamente possibile l'esito caso per caso. Nell'esempio precedente il rischio teorico che aveva la massima verosimiglianza era stato cercato con il calcolo iterativo. Qui si procede allo stesso modo cercando i coefficienti di correlazione dell'equazione con lo stesso metodo. Riepilogando, se vogliamo stimare la probabilità di morte a partire da una o più variabili indipendenti, generiamo un modello a partire dai nostri dati [variabile dipendente: morto/vivo (0/1); variabili indipendenti: massa ventricolare sinistra, pressione arteriosa]. Il modello potrà risultare efficace o inefficace. E' ovvio che il modello sarà efficace - riuscirà cioè a predire la mortalità realmente osservata - solo se le variabili considerate influenzano la mortalità. In questo caso noi attribuiamo alla mortalità la probabilità prevista dal modello e concludiamo che le variabili indipendenti determinano la mortalità. Se invece i dati di mortalità (0/1) previsti dal modello non coincidono con i dati di mortalità osservati, il modello è inefficace e concludiamo che le variabili indipendenti che abbiamo scelto non influenzano la mortalità. In un certo senso possiamo paragonare il metodo della maximum likelihood alla correlazione lineare. La retta di regressione è costruita in maniera tale da minimizzare la distanza di ciascun dato dalla retta, allo stesso modo la maximum likelihood è calcolata per minimizzare la differenza tra i dati di mortalità osservati e quelli previsti dal modello. Così come la retta predice perfettamente i dati se essi giacciono tutti sulla retta, allo stesso modo il modello basato sulla maximum likelihood predice perfettamente la mortalità quando dati previsti e dati osservati coincidono. Come ho più volte sottolineato, questo metodo si basa sul calcolo iterativo: il computer "testa" vari coefficienti di regressione e il calcolo si arresta quando i coefficienti di regressione (b e c dell'equazione del nostro esempio) massimizzano la previsione della variabile dipendente.

    L'equivalente del coefficiente di correlazione (r) nella regressione logistica è il likelihood ratio (LR). Il likelihood ratio è il rapporto tra la likelihood di ottenere i valori della variabile dipendente quando è vera l'ipotesi nulla (nota 10), cioè quando il modello non consente di predire la variabile dipendente (outcome), diviso per la likelihood calcolata sulla base dei dati del nostro campione. Quando il modello non predice la variabile dipendente la likelihood del denominatore sarà uguale a quella del numeratore e il rapporto sarà = 1, l'ipotesi nulla sarà cioè vera. Tanto più efficace è il modello tanto più basso sarà il likelihood ratio (che tenderà ad avvicinarsi sempre più allo 0). Per verificare se un certo valore di likelihood ratio è sufficientemente lontano dall'unità (cioè dall'ipotesi nulla) noi dobbiamo convertire il likelihood ratio in valori con la formula:

    = - 2ln LR         (nota 11)


    Consultando la distribuzione possiamo così stabilire se il nostro modello predice significativamente la variabile dipendente. Il likelihood ratio, il suo valore corrispondente di e la probabilità relativa sono tutti calcolati direttamente dal computer (vedi stampa dei risultati dell'esempio della Tabella 2.7 alla fine di questo capitolo).

    A questo punto possiamo fare un parallelismo tra regressione multipla e regressione logistica. Nella regressione multipla noi avevamo visto che era possibile stabilire se un certo coefficiente di regressione era significativo o meno paragonando il coefficiente di determinazione del modello con il coefficiente di determinazione di un modello ridotto che escludeva il coefficiente di regressione in questione. Allo stesso modo è possibile stabilire la significatività dei coefficienti di una regressione logistica paragonando il LR del modello con quello di un modello ridotto nel quale viene esclusa la variabile corrispondente al coefficiente che si vuol testare (così per la massa ventricolare andrà paragonato il full model con il reduced model che esclude la massa ventricolare).

  • La trasformazione dei dati in logit


  • La variabile dipendente dell'equazione che abbiamo visto nel paragrafo precedente (cioè la mortalità) si trasforma in una funzione logistica utilizzando la formula:

    p = ln ( p )
    1-p


    In questa funzione ln è il logaritmo naturale e il rapporto tra p (la probabilità di morte) e (1-p) la probabilità complementare, cioè la sopravvivenza, sono gli odds o probabilità a favore. Gli odds sono il tipico modo che gli scommettitori usano per quantificare la probabilità di vincere (nota 12). Gli odds quindi ci consentono di trasformare una variabile categorica (si/no) in una variabile che esprime la probabilità dell'evento. Quando la probabilità di morte è del 50% (o 0.5) gli odds sono uguali a 1 (perché 0.5/1–0.5 = 1) e la relativa funzione logistica (che coincide coi log odds) è uguale a 0 (perché il logaritmo di 1 è 0). Un vantaggio dei logit è che la probabilità ad essi corrispondente può variare da 0 a 1, cioè nell'ambito della stessa scala sulla quale è espressa abitualmente la probabilità di un evento. Questo rapporto tra logit e probabilità risulta chiaro dalla Tabella 2.5.

    Quando sono stati completati i calcoli e si è ottenuta la stima (in logit) dell'outcome (questo lavoro lo fa il computer) possiamo ritrasformare la variabile dipendente in termini di probabilità dell'evento (morte):

    ln ( p ) = a + bx1 + cx2+ ... equivale a:
    1-p

    p = 1/[1 + e-(a + bx1 + cx2 +...)]


    dove e rappresenta la base dei logaritmi naturali. Per interpretare questa ri-trasformazione dei dati è opportuno ricordare che gli esponenziali sono l'opposto dei logaritmi. Si rimanda all'Appendice per le modalità del calcolo con l'esponenziale e. I passaggi che dalla funzione logistica ci riconducono alla probabilità p sono riportati nella Tabella 2.6.

    Se la funzione logistica dell'equazione che predice la sopravvivenza in base alla massa ventricolare (LVM) e alla pressione arteriosa media (PAM) è –16.26 + 0.068 LVM + 0.065 MAP, la probabilità di morte per una massa ventricolare di 120 g/m2 e una MAP di 110 mmHg è:

    1/[1+e-(-16.26 + 0.068 x 120+0.065 x 110)] = 1/[1+ e-(-0.95)] = 1/[1 + 2.58] = 1/3.58 = 0.279


    Ripetendo lo stesso calcolo e variando solo la massa ventricolare, portandola cioè da 120 a 130 g/m2, la probabilità di morte diventa 0.432. Viceversa riducendola a 110 g/m2 la probabilità di morte si riduce a 0.164. Questo modo di procedere è particolarmente utile in quanto ci permette di stimare l'influenza della massa ventricolare sulla sopravvivenza indipendentemente dalla pressione arteriosa. Tuttavia la valutazione è più immediata con il calcolo degli odds ratio. Ricordando che un rapporto tra due esponenziali è un'esponenziale avente come esponente la differenza dei relativi esponenti (vedi Appendice) possiamo calcolare l'odds ratio (OR) di un aumento della massa ventricolare sinistra da 120 a 130 g/m2 con la formula:

    OR = e0.068(130-120) = 1.54


    Il che vuol dire che la probabilità di morte è 1.54 volte più alta quando la massa ventricolare sinistra aumenta da 120 a 130 g/m2. In questa formula 0.068 è il coefficiente della massa ventricolare sinistra e 130 e 120 i due valori di massa ventricolare che ci interessano.

    Allo stesso modo possiamo calcolare gli OR di un aumento della pressione da 110 a 120 mmHg:

    OR = e0.065(120-110) = 1.91


    Tuttavia non possiamo concludere che ai fini della sopravvivenza è più importante un aumento della pressione di 10 mmHg che un aumento della massa ventricolare di 10 g/m2. Non possiamo farlo perché non sappiamo se le due scale si equivalgono (10 mmHg è una misura ben diversa da 10 g/m2).

    Un tipico output del software STATA (vedi Capitolo 7) quando si calcola la regressione logistica è riportato nella Tabella 2.7. L'output ci dà il likelihood ratio del modello, il relativo e il valore di p corrispondente. Questi dati sono sufficienti per stabilire se il modello predice efficacemente i dati osservati. L'output include anche i coefficienti di regressione, il loro intervallo di confidenza e la loro significatività.

    I calcoli sono basati su un'analisi simulata di mortalità a 5 anni su 48 dati di pazienti in dialisi:

    N = 48

    (2) = 28.86

    Prob > = 0.0000

    Log Likelihood = -18.172894



    Letture consigliate

    Gli argomenti della prima parte del Capitolo 2.4 possono essere approfonditi su un testo di biostatistica di livello introduttivo come:
    1. Glantz S. A primer of Biostatistics. Mc Graw Hill, 1981.
    o su un manuale di livello intermedio specificamente scritto per medici impegnati nella ricerca scientifica:
    1. Altman DG. Practical Statistics for Medical Reseach. Chapman & Hall, 1991.
    La regressione multipla è ben spiegata nell'Altman ma per la regressione logistica è consigliabile un libro di livello un po' più alto:
    1. Kleinbaum DG. Logistic Regression. Springer-Verlag, 1996.
    Un libro che approfondisce l'approccio multivariato:
    1. Kleinbaum DG. Applied Regression Analysis and other multivariable methods. Duxbury Pr., 1997.


    Note

    8 p3 = p x p x p (vedi Appendice).

    9 Espressa come funzione logistica. Vedremo fra poco cosa vuol dire "funzione logistica".

    10 Vedi anche Capitolo 2.3 sul significato generale dell’ipotesi nulla. Il modello dell’ipotesi nulla in questo caso è solo composto dalla costante (a) in quanto nessuna delle variabili indipendenti entra nel modello stesso (le variabili indipendenti nell’ipotesi nulla non sono utili per predire l’esito).

    11 La distribuzione è una distribuzione analoga a quella della deviazione media standardizzata o alla distribuzione di student: essa consente di stabilire la probabilità di una differenza tra valori osservati e valori attesi per variabili categoriche (come la variabile dipendente della regressione logistica).

    12 Le probabilità di vittoria della nazionale italiana di calcio ai mondiali di Francia erano date dai bookmakers a 4:1. Questo equivale a dire che su una scala da 1 a 5, le probabilità di sconfitta (p) della squadra italiana erano considerate 4 volte più alte di quelle di una sua vittoria (1-p). La vittoria dell’Italia sarebbe stata pagata 4 volte la cifra scommessa.


    Indietro   Inizio pagina   Avanti