Il libro
3   IL RISCHIO E LA PROGNOSI
3.5   LA REGRESSIONE DI COX



In questo capitolo verranno trattati i metodi più comunemente impiegati nell’analisi dei dati della sopravvivenza. In particolare, verrà concentrata l’attenzione sul metodo di Cox; verranno inoltre descritti i test per il confronto delle curve di Kaplan-Meier. L’obiettivo è quello di illustrare le indicazioni all’uso di questi metodi ed i possibili limiti ed errori nella loro applicazione. Per evitare l’impatto con formule matematiche, che a molti medici potrebbero risultare ostiche, invece che sulla teoria statistica baseremo l’esposizione su esemplificazioni pratiche più familiari ai lettori.

Il capitolo è strutturato in tre parti: nella prima cercheremo di chiarire le peculiarità dell’analisi della sopravvivenza ed i problemi che ne derivano; nella seconda descriveremo il modello di Cox richiamando l’attenzione sugli errori che si possono commettere nella sua applicazione; nella terza illustreremo i test per il confronto delle curve di sopravvivenza.
Gli esempi di cui ci serviremo saranno basati su dati ottenuti da pazienti sottoposti ad intervento di trapianto renale da cadavere nell’Ospedale di Parma dal 1986 alla prima metà del 1998 (vedi Tab 3.8)


Ormai una quota sempre maggiore di reni da cadavere proviene da soggetti di età avanzata; nel corso dei primi mesi del ’98 i reni provenienti da donatori oltre i 65 anni sono stati oltre un terzo del totale. Vogliamo verificare quale sia l’impatto dell’età del donatore sulla sopravvivenza del trapianto. Naturalmente, molti altri fattori estranei, ed in relazione all’età del donatore possono esercitare una forte influenza sull’esito del trapianto, rappresentando, perciò, dei potenziali "confounder"; fra questi considereremo, per semplicità, solo il sesso del ricevente e l’epoca del trapianto.


3.5.1   La sopravvivenza ed il fallimento

L’obiettivo principale dell’analisi della sopravvivenza è l’evento denominato "fallimento", nel nostro caso la perdita del trapianto. Si tratta di un’analisi "binaria" poiché la risposta che noi andiamo a misurare può avere solo due possibili valori: "fallito" o "sopravvissuto".
Nel nostro caso è ragionevole ipotizzare che le riceventi femmine, in relazione a vari fattori , fra cui ad esempio le gravidanze pregresse, abbiano una maggiore reattività immunitaria nei confronti del trapianto: vogliamo pertanto verificare se le riceventi donne perdano più facilmente il trapianto.

L’approccio più immediato potrebbe essere calcolare la percentuale di fallimenti tra maschi e femmine, come nella tabella 3.9.
Dalla tabella si vede come, ad un anno dal trapianto, i fallimenti si sono verificati nel 15% (26/170) delle femmine e nel 7% (21/297) dei maschi. La percentuale misura la frequenza di un evento e si chiama incidenza cumulativa o, più semplicemente, rischio. Quando la si presenta occorre specificare la durata di osservazione a cui ci si riferisce (nel nostro caso un anno). Il rapporto tra queste due percentuali è 2:1 e si chiama rapporto di rischio (risk ratio): le femmine hanno un rischio doppio di perdere il trapianto rispetto ai maschi. Il rapporto di rischio esprime pertanto l’associazione tra il sesso femminile e la perdita del trapianto nel primo anno. Pensandoci bene, però, contare il numero dei fallimenti nei due gruppi può essere fuorviante. Questi pazienti, infatti, sono stati seguiti per periodi molto diversi di follow-up, da un solo giorno per alcuni, sino ad un anno per altri: sopravvivere un giorno è ben diverso dal sopravvivere un anno. A parità di percentuale di fallimenti, il tempo di sopravvivenza può fare la differenza clinicamente rilevante. Immaginiamo di avere due gruppi , ciascuno con dieci pazienti, tutti "falliti"; se il follow-up complessivo nel primo gruppo è durato 100 volte meno, vuol dire che questo è andato 100 volte peggio dell’altro. E’ pertanto chiaro che è il tempo di sopravvivenza l’oggetto dell’analisi e non la semplice percentuale di fallimenti. L’analisi della sopravvivenza è infatti rivolta a studiare l’effetto delle variabili esplicative sul tempo di sopravvivenza.
A questo punto potremmo pensare di confrontare i tempi di sopravvivenza nei due gruppi per verificare qual è il gruppo a maggior rischio: più corta è la sopravvivenza in un gruppo, maggiore è il rischio per quel gruppo. Purtroppo, però, come avviene quasi sempre in questo tipo di analisi, questo procedimento si scontra con la considerazione che l’evento in esame non si è ancora presentato in tutti i casi, perché non tutti i trapianti sono falliti, anzi, molti di essi, al momento in cui la raccolta dei dati è stata completata, erano ancora sotto osservazione. Alcuni pazienti hanno un follow-up di pochi giorni o poche settimane solo perché sono stati trapiantati poco prima che noi analizzassimo i dati. Non possiamo pertanto confrontare i tempi di sopravvivenza perché, per molti soggetti, la lunghezza di questi dipende da ragioni che nulla hanno a che fare con l’esito positivo o negativo del trapianto. Le osservazioni relative a questi soggetti vengono definite "censurate" (dall’inglese "censored ") perché non ci è dato di sapere quanto sarebbe stato lungo, con un periodo di osservazione sufficientemente prolungato, il tempo di sopravvivenza del trapianto. Altri soggetti ancora sono deceduti per varie cause, quando il loro trapianto era ancora perfettamente funzionante: anche questi li possiamo considerare censurati perché non sappiamo quanto sarebbe durato il loro trapianto.
L’analisi della sopravvivenza ha lo scopo di confrontare i tempi di sopravvivenza; deve però tenere conto che l’evento critico non si è ancora verificato in tutti i pazienti. Le osservazioni per questi pazienti vengono definite "censurate".


3.5.2   Metodi di analisi

Il modo più semplice per risolvere i problemi di cui abbiamo detto è quello di dividere il follow-up dei soggetti in segmenti fissi, per es, anni. Immaginiamo che i nostri dati si limitino a due pazienti, il primo paziente con trapianto ancora funzionante ed in osservazione da 4.5 anni ed un secondo paziente che ha perso il trapianto dopo un periodo di osservazione di un anno. A questo punto noi scomponiamo il follow-up dei pazienti in segmenti che definiamo "persona-anno", poiché ciascuno corrisponde ad unità di un anno di follow-up. Abbiamo pertanto in tutto 4.5+1=5.5 persone-anno di follow-up; nel corso di questo periodo abbiamo osservato un evento. Possiamo pertanto affermare che il tasso di incidenza (incidence rate) dei fallimenti è stato di 1/5.5=0.18 persone-anno. Questo vuol dire che, se il rischio si mantenesse inalterato nel tempo, dovremmo attenderci 18 eventi ogni 100 anni di follow-up. Si noti che non ha importanza alcuna la ripartizione tra i singoli individui di quel follow-up di 5.5 persone-anno: sarebbe stato lo stesso se fosse stato 2.5 anni per il trapianto censurato e 3 anni per il trapianto fallito (2.5+3=5.5 persone anno); un altro esempio può essere il seguente: avere un follow-up di 4 persone seguite ciascuna per un anno è lo stesso che avere un follow-up di 1 persona seguita per quattro anni.
Se ai due dati di prima aggiungiamo un paziente che ha perso il trapianto dopo un periodo di osservazione di una settimana ( una settimana =0.02 anni) l’incidenza dei fallimenti aumenterà (2/ (5.5+0.02) =0.35 persone-anno); se invece aggiungiamo un soggetto seguito per un anno senza fallire, l’incidenza diminuirà (1/ (5.5+1)=0.15 persone-anno).
Questo metodo ci permette anche di confrontare gruppi diversi di pazienti. Ritorniamo all’esempio della relazione fra sesso del ricevente e sopravvivenza del trapianto e limitiamoci ad analizzare il primo anno di follow-up dalla data del trapianto. I pazienti sopravvissuti oltre l’anno contribuiranno solo un anno al follow-up, gli altri contribuiranno per frazioni di anno, alcuni perché hanno perso il trapianto prima dell’anno, altri perché sono deceduti prima dell’anno ed altri ancora perché osservati per meno di un anno.
Si sono verificati 47 eventi su di un periodo di osservazione di 395 persone-anno (Tab 3.8). L’incidenza è pertanto 47/395=0.12/ persone-anno o, se preferite, 12 /100 persone-anno. Possiamo calcolarla separatamente per maschi e femmine. Nelle femmine è 18.8/100 persone anno e nei maschi è 8/100 persone anno. Il rapporto fra i due tassi di incidenza, detto rapporto di tassi di incidenza o rate ratio (RR ) nel primo anno è pertanto 18.8/8=2.3. Nel nostro caso il rapporto di tassi di incidenza ed il rapporto di richio sono molto vicini, probabilmente a causa della brevità del follow-up considerato; ci sono molte circostanze, tuttavia, in cui i valori possono divergere ampiamente.
Il tasso di incidenza (incidence rate) rappresenta la densità con cui l’ evento si verifica nella durata totale dell’osservazione. Il numeratore è il numero di eventi, il denominatore il periodo di osservazione, espresso come "persone-tempo".
Il rate ratio (RR) è il rapporto di due tassi di incidenza ed esprime l’associazione tra il determinante (ad esempio il sesso femminile) e l’evento. Il tasso di incidenza si preferisce all’incidenza cumulativa per
  1. popolazioni dinamiche, in cui nel corso dell’osservazione nuovi soggetti ne entrano a far parte (ad es. soggetti trapiantati poco prima dell’analisi dei dati) ed altri ne escono per motivi indipendenti dall’evento (ad es. soggetti deceduti con trapianto funzionante)
  2. periodi lunghi di follow-up.


3.5.3   Paragone delle incidenze nei diversi strati: il test di Mantel-Haenszel per gli studi di follow-up

Con lo stesso approccio possiamo analizzare il ruolo dell’altra variabile, l’età del donatore. Essendo questa una variabile continua (anni) la dividiamo in due categorie, la categoria dei reni "vecchi", rappresentata dal quartile superiore (il primo 25% , una volta ordinati i pazienti in ordine decrescente secondo l’età del donatore) e la categoria dei reni "giovani" che include i reni rimanenti.

Si vede dalla Tab 3.10 che i pazienti maschi che ricevono un rene vecchio hanno una incidenza di perdita renale nettamente maggiore rispetto ai maschi che ricevono un rene giovane (0.17 contro 0.06); questo non accade per le riceventi femmine, in cui un trapianto da donatore anziano si associa ad una incidenza minore. Nel valutare l’effetto del rene anziano dobbiamo anche tenere conto del fatto che i donatori di età avanzata sono stati utilizzati molto più frequentemente negli ultimi anni nel corso dei quali sappiamo che, per varie ragioni, si è avuto un miglioramento progressivo della prognosi del trapianto; dobbiamo pertanto "aggiustare" i nostri dati per l’epoca di trapianto: le epoche di trapianto devono essere equamente rappresentate quando si confrontano i reni anziani con i reni giovani. Una simile problema può essere risolto con il metodo di Mantel-Haenszel per gli studi di follow-up (vedi Tab 3.11 per i risultati e Tab 3.12 per una descrizione sommaria del metodo).

Come ci aspettavamo (Tab 3.11), nei maschi il rene vecchio determina un aumento del rischio di perdita del trapianto (RR=2.40); questo è statisticamente significativo poiché i limiti di confidenza non comprendono il valore di RR=1; nelle femmine non c’è stato alcun effetto dei reni vecchi. Viene anche riportato il test di significatività per la modificazione dell’effetto "rene vecchio" in base al sesso (interazione): la differenza dell’effetto del rene vecchio nei maschi rispetto alle femmine è statisticamente significativa. Il RR globale (maschi + femmine) per i reni anziani non è significativo. Tuttavia, limitarsi a considerare il RR globale (maschi+femmine), invece che considerarlo separatamente nei due sessi, è fuorviante: l’impatto del rene vecchio sulla prognosi del trapianto dipende dal sesso del ricevente.
Nelle situazioni in cui l’effetto misurato può essere distorto dalla associazione della variabile considerata con altre variabili estranee che influenzano anch’esse l’evento (confounding) , si può applicare il metodo di Mantel-Haenszel per gli studi di follow-up. Questo consente di controllare per il confounding.


3.5.4   L’uso della regressione

Stratificare i propri pazienti ed utilizzare il metodo di Mantel-Haenszel per aggiustare per il confounding offre il vantaggio dell’immediatezza: si lavora direttamente con i dati e non occorre assumere alcun modello che li descriva. Tuttavia questa procedura si presta poco alle situazioni più complesse.
La regressione invece consente di "aggiustare" contemporaneamente per molte variabili esplicative. La procedura sopra descritta è fondata sulla stratificazione multipla, e diventa impraticabile con l’aumento del numero delle variabili. Inoltre costringe a misurare il RR per una singola variabile; le altre si adoperano semplicemente per tenere conto del confounding ed il loro effetto non viene stimato; la regressione consente invece di stimare l’effetto di ciascuna covariata, l’una "aggiustata" per l’altra.

La regressione produce una equazione che mette in relazione una variabile dipendente con una serie di variabili esplicative o variabili indipendenti. Nel nostro caso abbiamo bisogno di un modello matematico che analizzi i tempi di sopravvivenza tenendo conto anche del fatto che alcuni di questi sono censurati. Anche in questo caso il modello matematico definisce una relazione tra un RR (variabile dipendente) ed una serie di variabili esplicative (variabili indipendenti). Il modello produrrà quei coefficienti che esprimono in termini numerici la relazione tra le variabili esplicative e la variabile dipendente (RR).

I modelli più comunemente usati sono moltiplicativi, e funzionano nel seguente modo: consideriamo l’effetto sulla perdita del trapianto della variabile SESSO e della variabile RENE (età del rene). Poiché il sesso maschile e il rene giovane sono le condizioni favorevoli, attribuiamo a questi un valore di RR=1 (cioè livello basale di rischio). Il sesso femminile e il rene vecchio avranno un valore maggiore di uno. Questo valore verrà fornito dal computer.

Definiamo SESSO =Bsesso se femmina e =1 se maschio. RENE =Brene se vecchio e =1 se giovane (Tabella 3.13).


La casella in alto a sinistra rappresenta la casella di riferimento dove si trovano i pazienti che hanno entrambe le caratteristiche migliori (il sesso maschile e il rene giovane). Il RR viene misurato rispetto a questi: un rischio relativo maggiore di 1 vuol dire aumento rispetto a questa categoria, un rischio minore di uno riduzione del rischio rispetto a questa categoria. Questa casella può anche essere definita "COSTANTE" o "INTERCETTA".
Il computer, dopo aver elaborato i nostri dati, ha fornito i seguenti valori: Bsesso=2.6 e Brene=3.7
Il modello da noi prodotto è il seguente:

RR = 1 x SESSO x RENE


Il maschio con rene giovane è il gruppo di riferimento. Se il paziente è femmina con rene giovane il suo RR sarà 2.6. Se maschio con rene vecchio 3.7; se femmina con rene vecchio 2.6 x 3.7 = 9.6. La variabile SESSO è aggiustata per la variabile RENE poiché l’effetto del sesso femminile è 2.6 sia nei pazienti che ricevono reni giovani, che nei pazienti con reni vecchi; analogamente la variabile RENE è aggiustata per SESSO poiché l’effetto del rene vecchio è 3.7 tanto nei maschi quanto nelle femmine. L’espressione "effetto del RENE aggiustato per SESSO" equivale pertanto a: "effetto del RENE, indipendentemente dal SESSO". In riferimento ai nostri dati, un modello di tal genere è, però, inadeguato a descrivere la situazione delle femmine con rene vecchio. Esiste infatti una interazione (in questo caso un effetto antagonista) tra rene e sesso: il rene vecchio aumenta il rischio nei maschi ma non nelle femmine (vedi Tab 3.11).
In altre parole, il SESSO modifica l’effetto del rene vecchio sulla perdita del trapianto; non possiamo allora limitarci ad un modello che assume l’indipendenza tra RENE e SESSO. Dobbiamo invece introdurre un terza variabile che tenga conto dell’interazione (antagonismo) tra femmine e rene vecchio: Binterazione. Una volta introdotta questa variabile, il computer le ha attribuito un valore pari a 0.13
Ora il nostro modello è di questo tipo RR = 1 x Bsesso x Brene x Binterazione


Il rischio per le femmine con rene vecchio è 2.6 x 3.7 x 0.13 = 1.25 (assai minore rispetto a quello previsto da un modello che si limiti ad "aggiustare" senza tenere conto dell’interazione)

Nella realtà, per convenienza di calcolo, si utilizzano logaritmi (vedi Appendice).
Con i logaritmi le moltiplicazioni diventano addizioni ed il nostro modello diventa:

logRR = log1 + logBsesso + logBrene + logBinterazione


poiché il logaritmo di 1 è zero l’equazione diventa:

logRR = logBsesso + logBrene + logBinterazione (I)


Definendo logB = la (I) diventa:

logRR = sesso + rene + interazione (II)


nel corso della nostra trattazione "" verrà chiamato coefficiente.

Avendo fatto i calcoli con i logaritmi, la regressione, invece di fornirci i valori di
1, Bsesso, Brene, Binterazione

otterrà i valori

0, sesso, rene, interazione

Per ritornare ad i valori attribuiti alla tabella precedente (rispettivamente di 1, 2.6, 3.7 e 1.25), dobbiamo ricavare l’esponenziale (detto anche antilogaritmo) dei coefficienti.


Nota che: expsesso + exprene + expint = exp(sesso + rene + int)


Vediamo ora la regressione ottenuta dal computer con il modello di Cox per i nostri pazienti nel primo anno di trapianto.


La prima colonna rappresenta il RR, la seconda i coefficienti utilizzati per calcolare il RR.
Le femmine con rene vecchio hanno un rischio 3.7 x 2.6 x 0.13 = exp(0.97 + 1.32 - 2.0) = 1.25 rispetto ad i maschi con rene giovane. Una femmina con rene giovane ha un rischio di 3.7.
Da notare che un valore negativo di indica una riduzione del rischio, un valore positivo un aumento; il valore "zero" equivale a RR = 1 (exp0 = 1).
Prendiamo ora il caso di una variabile con tre livelli, anziché due. Noi abbiamo diviso l’epoca del trapianto in tre periodi: il 1° va dall'86 all'89, il 2° va dal 90 al 93 ed il 3° va dal 94 al 98. Chiamiamo questa variabile PERIODO. Facciamo una regressione includendo nel modello le variabili RENE, SESSO e PERIODO. I RR associati a ciascun periodo, quali risultano dal computer, sono i seguenti:


Abbiamo scelto come reference il periodo94-98, il periodo a prognosi migliore; l’aumento del RR del periodo90-93 (RR=1.25) e nel periodo86-89 (RR=1.81) riflette il miglioramento della sopravvivenza del trapianto che si è osservato col passare degli anni. Abbiamo già detto che ogni variabile inclusa nel modello è "aggiustata" per le altre. Il RR per il rene vecchio, una volta inclusa nel modello l’epoca di trapianto, è aumentato da 2.6 a 3.1. Questo è legato al fatto che la variabile PERIODO è effettivamente un confounder di cui bisogna tenere conto: siccome i reni "vecchi" sono stati utilizzati soprattutto nelle epoche più recenti, che sono anche quelle con la prognosi migliore, l’effetto negativo del rene vecchio veniva sottostimato dal precedente modello. In questo nuovo modello, invece, la variabile RENE è aggiustata anche per la variabile PERIODO.
Per semplicità, nella tabella non viene riportato il sesso.
Nella situazione riportata sopra non è prevista l’interazione. Così facendo, noi presupponiamo che l’aumento del rischio associato ai reni vecchi (RR=3.1) è lo stesso in tutti e tre i periodi. Allo stesso modo, presupponiamo che l’aumento del rischio associato a ciascun periodo (RR=1.25 per il periodo 90-93 e RR = 1.81 per il periodo 89-90) è uguale sia nei pazienti che ricevono un rene giovane che nei pazienti che ricevono un rene vecchio. Entrambe le assunzioni potrebbero essere arbitrarie. Per verificarle, dovremmo includere nell’analisi due termini di interazione, qui di seguito riportati:


Non stiamo qui a riportare i risultati di questa analisi più complessa, perché essi non si sono rivelati importanti. Pertanto, il modello finale della nostra analisi è risultato il seguente:

Variabile     RR     (=logRR)
RENE     3.1     1.1314
SESSO     3.88     1.3558
INT. RENE X SESSO     0.135     -2.0025
PERIODO 90-93     1.25     0.2231
PERIODO 86-89     1.81     0.5933
Il reference ora è un maschio che ha ricevuto un rene giovane e che è stato trapiantato nel periodo 94-98. Il RR di una maschio trapiantato nel periodo 90-93 con un rene anziano è 1 x 1.25 x 3.1 che è equivalente a exp(0+0.2231+1.1314). Una femmina trapiantata nel periodo 94-98 con un rene giovane ha un rischio di 3.88 x 1 x 1 che equivale a exp(1.3558+0+0); una femmina trapiantata nel periodo 86-89 con un rene anziano ha un RR di 3.88 x 1.81 x 3.1 x 0.135 che equivale a exp(1.3558+0.5933+1.1314-2.0025).
La regressione è un modello matematico che descrive la variabile dipendente come funzione di una serie di predittori. Il risultato di includere nel modello più covariate è quello di "aggiustare" ciascuna covariata per l’altra. Occorre tuttavia verificare (nota 5) che non esista un antagonismo od un sinergismo fra le covariate : in tal caso, questi verranno espressi da un termine detto ‘interazione’, che verrà anch’esso incluso nel modello.
Nei modelli "loglineari" come il Cox la relazione tra la variabile dipendente e le variabili indipendenti è esponenziale.
(Il metodo statistico che abbiamo adoperato per scegliere se introdurre una interazione nel modello, non è stato descritto in questa sede e rimandiamo il lettore interessato a testi più approfonditi.)


3.5.5   Il modello dei rischi proporzionali di Cox

Il modello di Cox è una regressione che serve per calcolare i coefficienti di cui abbiamo trattato nel paragrafo precedente.
L’approccio generale al problema dell’analisi della sopravvivenza è quello della curva di Kaplan-Meier . Abbiamo visto che la curva di Kaplan-Meier ( a) è una curva "empirica" tracciata utilizzando solo l’ informazione proveniente dai fallimenti (la curva è a gradini) (b) i pazienti censurati risultano "sopravvissuti" fino al momento del loro censuramento, poi non vengono più presi in considerazione.

Nel metodo di Cox le caratteristiche di un soggetto fallito al tempo t vengono paragonate con tutti i soggetti sopravvissuti sino a quel tempo t. Il metodo di Cox può pertanto essere immaginato come uno studio caso-controllo "matched" per tempo. Ripensiamo alla curva di Kaplan-Meier che viene tracciata sulla base di dati ordinati come nell’esempio che segue:



I fallimenti si verificano nei giorni 12 e 17. Immaginiamo, ora, di voler stimare l’effetto della variabile SESSO. Il sesso del soggetto fallito al giorno 12 viene confrontato con il sesso dei rimanenti pazienti che erano sopravvissuti sino al giorno 12. Il soggetto censurato al giorno 16 viene incluso tra i "controlli" al giorno 12 perché era sopravvissuto sino ad allora, ma non al giorno 17 poiché non sappiamo se sarebbe sopravvissuto sino a quel momento. Per il soggetto fallito al giorno 17 il matching avviene con tutti gli altri soggetti del gruppo a rischio al giorno 17. Tra questi ci sarà il soggetto censurato al giorno 21, il quale però non verrà utilizzato nei tempi di fallimento successivi.
Ovviamente, contemporaneamente al SESSO, si potranno paragonare le altre variabili (RENE, INT. SESSO x RENE, PERIODO) e confrontare le caratteristiche del soggetto fallito con quelle di tutti i soggetti sopravvissuti sino a quel momento. E’ naturale che i controlli del soggetto fallito al tempo 17 sono gli stessi del soggetto fallito al giorno 12; mancherà però proprio il soggetto fallito al giorno 12 e quello censurato al giorno 16.
Se si verificano 47 fallimenti nel corso del follow-up e questi avvengono tutti in momenti distinti, ci saranno 47 gruppi di pazienti, ciascuno dei quali comprenderà un paziente fallito ed il "controllo" costituito da tutti i pazienti sopravvissuti sino a quel momento. Più femmine ci saranno tra i 47 soggetti falliti rispetto alla proporzione di femmine nel gruppo di controllo, più alto sarà il RR stimato per le femmine.

I coefficienti necessari per il calcolo dei RR vengono ottenuti con un sistema detto likelihood (verosimiglianza). Non vogliamo entrare nei dettagli di questo argomento, che va oltre gli scopi del nostro testo. Ci limitiamo a dire che il likelihood può essere immaginato come una funzione che mette in relazione tutti i valori che si possono attribuire ai coefficienti con un altro numero che esprime la verosimiglianza di ciascuno di questi valori. La verosimiglianza dipende dai dati osservati. In caso di più parametri questa funzione non è rappresentabile come grafico. La stima di quali siano i valori più verosimili viene fatta attraverso un calcolo iterativo, che viene svolto dal computer non essendo in alcun modo possibile farlo con una semplice calcolatrice. Il calcolo iterativo viene effettuato attraverso un algoritmo che serve per la soluzione di un sistema di equazioni. La soluzione fornisce la stima del coefficiente a cui è associata la massima verosimiglianza (maximum likelihood) e la precisione di questa stima (errore standard). In realtà, per maggior facilità di calcolo, viene utilizzato il logaritmo del likelihood (Log likelihood).
Il modello di Cox risulta dai paragoni tra le caratteristiche del soggetto fallito con quelle dei pazienti che erano sopravvissuti fino al momento del fallimento di quel soggetto.


3.5.6   Output del Cox

Ecco il risultato del modello che include le variabili rene, sesso, rene-sesso, periodo per i pazienti nel primo anno di follow-up.
Fallimenti: 47
Pazienti totali: 467
Periodo a rischio 397.78 persone-anno
Log likelihood: -275.60107

variabileHaz.Ratio S.E. z p limite di
confidenza
del 95%
RENE3.101.412.490.011.27   7.54
SESSO3.881.383.800.001.93   7.81
INT.RENE X SESSO0.130.10-2.650.000.30   0.59
PERIODO 86-891.810.671.600.110.87   3.76
PERIODO 90-941.250.440.640.520.63   2.51


La seconda colonna riporta l’hazard ratio (HR) che è il nome del RR quando questo è ottenuto con il Cox. L’HR è ottenuto, come mostrato prima, mediante il calcolo dei coefficienti, che non sono riportati in questa tabella.
La seconda colonna riporta l’errore standard che serve per calcolare il limiti di confidenza. La seconda e la terza colonna riportano rispettivamente il test statistico (in questo caso il Wald test: coefficiente/ errore standard) e la sua significatività: l’ipotesi che viene testata è che la variabile non abbia nessun effetto (=0, HR=1). L’ultima colonna riporta i limiti di confidenza del 95% che sono molto importanti perché ci forniscono un’idea concreta della precisione dello studio (larghi limiti di confidenza , bassa precisione dello studio) e ci danno una misura dell’entità dell’effetto ( i valori nell’intervallo sono tutti valori "compatibili" con i nostri dati, anche se quelli centrali lo sono di più di quelli estremi).
Nel nostro caso l’effetto delle epoche di trapianto rispetto all’epoca più recente non è statisticamente significativo; ciononostante, le manteniamo nel modello per poter aggiustare le altre variabili per l’epoca del trapianto.
L’output del computer fornisce il valore più verosimile del RR (hazard ratio), la gamma di valori compatibili con i nostri dati (intervallo di confidenza) ed il test statistico per l’ipotesi che RR sia eguale ad 1.


3.5.7   Il problema dei rischi proporzionali

Fino ad ora abbiamo sempre considerato il primo anno di follow-up.
Nel primo anno abbiamo avuto 47 fallimenti; ciascuno dei pazienti è stato confrontato con i pazienti sopravvissuti sino a al momento del suo fallimento e dalla valutazione complessiva di questi 47 raffronti sono stati prodotti i parametri per SESSO, RENE, PERIODO e INTERAZIONE SESSO-RENE. Nel caso del rischio del rene vecchio, questo è risultato essere 3 volte maggiore rispetto a quello del rene giovane. Il RR di "tre" riassume, pertanto ,ciò che è si osservato in questi 47 gruppi di pazienti. Perciò, noi riassumiamo con un unico numero (RR=3) quanto abbiamo osservato in momenti successivi di follow-up; questo implica che, se il rischio del rene vecchio è tre volte quello del rene giovane, ciò vale tanto dopo quarantotto ore di follow-up, quanto dopo uno, due o sei mesi; il valore di "tre" vale per qualunque momento del tempo, cioè non c’è nessuna interazione tra la variabile in questione ed il tempo; si può, pertanto, concludere che la variabile RENE è tempo-indipendente. In altre parole, abbiamo assunto che il rischio si mantiene stabile nel tempo. Lo stesso vale per tutte le variabili stimate con il Cox: un ricevente femmina con rene vecchio e trapiantata nel periodo86-89 ha un rischio di circa 2 (3.1 x 3.88 x 0.13 x 1.81) rispetto ad un maschio che riceve un rene giovane ed è stato trapiantato nel periodo9498(1 x 1 x 1) . Questo rischio di "2" vale sia per i primi giorni quanto per gli ultimi mesi del nostro follow-up.

Abbiamo visto che il rischio di riferimento (rischio=1) è quello con le caratteristiche più favorevoli (nel nostro caso sesso maschile, rene giovane e periodo di trapianto 94-98): questo rischio di "riferimento" è appunto il rischio basale (baseline hazard). Non ha importanza che il rischio basale vari nell’arco del tempo, quello che ha importanza è che ad una variazione del rischio basale corrisponda un eguale (proporzionale) variazione del rischio della variabile considerata, sì che il RR (hazard ratio) si mantenga costante.
Il modello di Cox infatti, anziché ipotizzare quale sia l’andamento del rischio e trovare poi i RR , stima direttamente il RR.
Quanto detto sopra è la ragione per cui il modello di Cox è noto anche come Modello dei rischi proporzionali (Proportional Hazards Model).
Si noti che l’hazard ratio (HR) non è ricavato come un rapposrto tra tassi di incidenza (fallimenti/persone-tempo) come era avvenuto per la stima del Rate Ratio (RR), ma dal rapporto tra incidenze "istantanee" o hazard rate (istanti in cui è avvenuto il fallimento). Incidence rate e hazard rate devono comunque considerarsi sinonimi. Da questo momento in poi useremo la notazione "HR" anziché "RR".

Specialmente per i follow-up lunghi, l’assunzione del rischio proporzionale è piuttosto impegnativa. Ad esempio, se volessimo applicare il modello illustrato sopra ad un periodo di follow-up di dieci anni, potremmo ragionevolmente aspettarci che il rischio di perdita del rene vecchio aumenti col passare del tempo. Infatti, un rene vecchio non costituirà di per sé un forte rischio per le complicanze chirurgiche "acute" o per gli episodi di rigetto grave, ma potrebbe rappresentare uno svantaggio nel lungo periodo: in questo caso il rischio rispetto al rene giovane sarebbe minore all’inizio e aumenterebbe poi progressivamente col passare del tempo. Un discorso opposto potrebbe valere per il sesso; tra le femmine ci sono la gran parte dei soggetti "iperimmuni" e queste contribuiscono a rendere il sesso femminile più a rischio del sesso maschile. Il rischio immunologico è riferibile prevalentemente ai primi periodi e difficilmente sarà un problema per i trapianti che hanno ormai , per esempio, sei o sette anni di vita. Ci attenderemo, pertanto, che il rischio del sesso femminile rispetto al sesso maschile sia maggiore nei primi mesi di follow-up e tenda a diminuire col passare degli anni.
Il modello di Cox si fonda sull’assunzione che l’effetto di una variabile non cambi nel tempo.


3.5.8   Come verificare l’assunzione del rischio proporzionale

Possiamo verificare se il nostro modello rispetta l’assunzione dei rischi proporzionali attraverso un approccio grafico. Il metodo più noto è quello del plot detto -Log(-Log) .
La pendenza della curva esprime quanto il rischio varia col passare del tempo: se la linea che rappresenta il rischio basale è più o meno parallela a quella che esprime il rischio per la variabile considerata, l’assunzione dei rischi proporzionali è soddisfatta. Altrimenti no.
Vediamo ora di applicare questi concetti ai nostri dati.


In Fig. 3.6a è rappresentato il plot per la variabile RENE, aggiustata per SESSO, INTERAZIONE SESSO-RENE e PERIODO. La figura rappresenta un tempo di follow-up di 10 aa, disposto su scala logaritmica in modo da evidenziare soprattutto i primi periodi, quando si verificano la maggior parte degli eventi. Si vede che il rischio per il rene vecchio inizialmente tende a coincidere con quello basale, addirittura la curva si incrocia con quella basale; successivamente, però, la pendenza della curva aumenta e diverge dalla curva basale, indicando l’aumento del rischio per il rene vecchio con il passare del tempo. Questo comportamento è evidente anche anche nella Fig. 3.6b, dove il tempo è riportato su scala normale.


Chiaramente, l’assunzione del rischio proporzionale in questo caso non è valida.
In Fig. 3.7 è riportato il plot per la variabile SESSO, aggiustata per RENE, INTERAZIONE SESSO-RENE e PERIODO.


Si vede come la pendenza della curva per il sesso femminile tenda a divaricarsi da quella basale nei primi periodi, indicando un rischio che aumenta nel corso dei primi mesi di trapianto, per poi convergere sino ad incrociarsi con essa, indicando una tendenza del rischio a ridursi col passare del tempo. Anche in questo caso l’assunzione del rischio proporzionale è difficilmente sostenibile.
Quello sopra descritto è, evidentemente, un metodo che possiamo definire "ad occhio", perché si affida al giudizio soggettivo del ricercatore per decidere se l’assunzione dei rischi proporzionali è sostenibile o no. Esso, però, è senz’altro valido quando osserviamo incrocio o forte divergenza delle curve, che non lasceranno dubbi che l’assunzione della proporzionalità non è rispettata.
Quando, invece, sussistono dubbi, si può ricorrere ad un test statistico per suffragare obiettivamente l’ipotesi che, come, nel nostro esempio, il rischio osservato durante il primo anno rimanga pressoché inalterato negli anni successivi. Per far questo dovremo paragonare il rischio durante il primo anno con quello degli anni successivi.
Il test per i rischi proporzionali, eseguito con il computer, ci fornisce i risultati seguenti:

Variabile  p
SESSO8.30.04
RENE20.20.00

Come si vede la p è significativa in entrambi i casi, e pertanto l’ipotesi della proporzionalità viene rigettata.
Si può verificare se il rischio associato ad un variabile non si modifichi nel tempo attraverso il plot -log(-log), in cui viene riportata una curva per ciascun valore ("livello") della variabile. Un aumento della pendenza riflette un aumento dell’incidenza degli eventi nell’unità di tempo. Se i rischi sono proporzionali le curve tendono a rimanere parallele. Questo approccio grafico può essere integrato con un test statistico.


3.5.9   Come utilizzare le variabili che non rispettano l’assunzione dei rischi proporzionali

Ci sono due possibilità per superare il problema:
  1. Cox stratificato
  2. Cox con variabili tempo-dependenti


3.5.10   Cox Stratificato

Supponiamo di avere il seguente modello HR=1 x RENE x PERIODO, in cui RENE=1 se giovane e 3.1 se vecchio; PERIODO=1 se 94-98; 1.25 se 90-93 e 1.81 se 86-89

epoca del trapianto rene giovane rene vecchio
periodo94-9812.1
periodo90-931.32.1 x 1.3
periodo86-892.52.1 x 2.5

Noi siamo interessati alla variabile RENE; assumiamo che questa rispetti i rischi proporzionali. Assumiamo anche che non esista una interazione tra SESSO e RENE e che la variabile SESSO non rispetti i rischi proporzionali.
Vogliamo aggiustare per SESSO ma sappiamo che non possiamo introdurre questa variabile nel modello perché non soddisfa il criterio di proporzionalità. Però, il nostro scopo, come detto all’inizio, non era tanto quello di verificare quale sia il l’HR del sesso, quanto quello di appurare quale sia l’effetto del rene vecchio controllando per il possibile effetto confounder del sesso.
Abbiamo visto che il modello di Cox risulta da una analisi caso-controllo dove il caso è il fallimento ed i controlli sono tutti i pazienti sopravvissuti sino a quel momento (risk set). Possiamo allora anche aggiungere un matching per sesso: se il paziente che fallisce è maschio, verrà confrontato solo con i maschi del risk set; se è femmina verrà confrontato solo con le femmine. Abbiamo stabilito di estendere l’analisi a dieci anni di follow-up. Nei primi 10 anni di follow-up ci sono stati 80 degli 82 fallimenti. Nella nostra popolazione iniziale circa il 60% sono maschi, e degli 80 fallimenti 46 riguardano i maschi. Se i fallimenti fossero avvenuti tutti in momenti distinti, il modello di Cox prenderebbe in considerazione 46 gruppi di pazienti tutti maschi e 34 gruppi (80-46) di pazienti tutte femmine. Globalmente, da tutti questi raffronti, verrà prodotto un unico HR per il RENE. Non potremmo invece produrre un RR per il SESSO perché non avremo mai confrontato le femmine con i maschi.
Il modello "stratificato" che è risultato dal computer è il seguente.

epoca del trapianto rene giovane rene vecchio
periodo94-981 x SESSO2.0
periodo90-931.42.1 x 1.4
periodo86-892.62.0 x 2.6

I parametri RENE e PERIODO hanno subito delle piccole modifiche una volta controllati per il sesso. Il rischio basale di riferimento, o "costante" o "intercetta" che è sempre stato 1 ora include il SESSO. Il sesso è ora entrato a far parte della costante: non c’è più un solo "reference" ma ce ne sono due, uno per i maschi ed uno per le femmine. Nel nostro esempio l’HR per il rene vecchio è "2" tanto per i maschi quanto per le femmine, ma questo "2" ha un significato diverso nei due sessi.
Cosa vuol dire in pratica? Supponiamo che dopo due mesi il rischio basale per le femmine (femmina che riceve un rene giovane e che è stata trapiantata nel periodo 94-98) sia 1.5 e che il rischio basale nei maschi sia 0.5 e che dopo cinque anni divenga 0.5 nelle femmine e 1.5 nei maschi. Un HR di 2 per entrambi vuol dire che, a tre mesi, un rene vecchio comporta un rischio di 3 nelle femmine e 1.5 nei maschi, ma a cinque anni la situazione risulterà invertita.
Abbiamo ottenuto, così, quello che volevamo: un HR per il RENE controllando per una variabile (SESSO) che non rispetta l’assunzione dei rischi proporzionali.
Anche se la variabile SESSO non può essere stimata poiché non sono stati fatti paragoni tra maschi e femmine, sono possibili i paragoni tra le altre variabili, separatamente per i maschi e per le femmine (ad esempio il confronto tra rene vecchio e rene giovane dimostra un aumento del RR nei maschi ma non nelle femmine). Questi paragoni sono quelli che abbiamo già considerato per il calcolo dell’interazione. Nulla pertanto vieta di introdurre nel modello termini di interazione che includano variabili usate nella stratificazione.
La procedura stratificata di Cox consente di controllare per variabili che non rispettano l’assunzione dei rischi proporzionali. L’effetto delle variabili utilizzate nella stratificazione non può tuttavia essere stimato.


3.5.11   Modello di Cox per rischi non proporzionali e con variabili tempo-dipendenti

Abbiamo visto in precedenza come il calcolo dell’ HR risulta da un gruppo di confronti, ciascuno eseguito tra il caso di fallimento ed i sopravvissuti sino al momento del fallimento. Non era stato tenuto in considerazione, però, che alcuni di questi confronti avvenivano in momenti diversi da altri. L’HR che ne risultava era un HR "complessivo" , indipendente dal tempo. D’altra parte, abbiamo visto che nei nostri pazienti il rischio legato al sesso femminile ed il rischio legato ad un rene vecchio tendono a modificarsi col tempo. Possiamo, pertanto, pensare di stimare l’HR di SESSO e RENE separatamente, frazionando il follow-up in diversi periodi. Potremmo, ad esempio, stimarli nel primo anno e poi negli anni successivi al primo (immaginando che, all’interno di ciascuno di questi periodi, il rischio per SESSO e RENE si mantenga più o meno costante). In pratica per la variabile RENE l’HR risulterà dal confronto tra rene vecchio e rene giovane nel primo anno: HR NEL 1°ANNO. Poi confronteremo il rene vecchio col rene giovane negli anni successivi al primo: HR NEGLI ANNI SUCCESSIVI. Dal rapporto tra HR NEGLI ANNI SUCCESSIVI e HR NEL 1° ANNO risulterà un numero che indica come si modifica l’HR dal primo anno agli anni successivi. Questo valore nient’altro è che l’interazione con la variabile tempo della variabile RENE. In questo semplice esempio la variabile tempo ha due possibili valori: follow-up < 1aa e follow-up >= 1aa.
La variabile RENE diventa una variabile tempo-dipendente poiché il valore che assume dipende dal tempo.
Ecco il modello che indica le interazioni sopra citate, fornito dal computer:
Pazienti totali = 467
Fallimenti = 80

Variabile  Haz.
Ratio
  SE  z  p  Limiti di
confidenza
del 95%
RENE 2.2 0.97 1.79 0.07 0.93   5.2
INT. RENE x t 2.10 1.22 1.28 0.20 0.63   6.58
SESSO 3.33 1.13 3.55 0.00 1.71   6.47
INT.SESSO x t 0.30 0.15 -2.33 0.02 0.10   0.82
INT.RENE x SESSO 0.22 0.14 -2.34 0.02 0.06   0.76

In questo modello l’aumento che si osserva nel rischio per il rene anziano dopo il primo anno non è statisticamente significativo (p=0.20). Bisogna comunque andare cauti nell’interpretazione di questi valori poiché abbiamo incluso nel modello due grandezze (RENE=rene vecchio e RENE x t= sopravvivenza oltre l’anno del rene vecchio) altamente correlate fra loro.
Un modello di questo tipo si può rappresentare con il seguente schema

PRIMO ANNO:  maschio  femmina
rene giovane 1 3.33
rene vecchio 2.22 2.22 x 3.33 x 0.22

Negli anni successivi al primo il rischio per il rene vecchio aumenta: 2.22 x 2.10=4.62; il rischio per il sesso femminile diminuisce: 3.33 x 0.30=0.99

ANNI SUCCESSIVI AL PRIMO:  maschio  femmina
rene giovane 1 0.99
rene vecchio 4.62 0.99 x 4.62 x 0.22

Naturalmente è possibile dividere il follow-up nel modo che si ritiene più opportuno, ad esempio suddividendo il follow-up in numerosi segmenti per ottenere l’HR relativo a ciascun segmento.

Il tempo può anche essere usato come variabile continua (non divisa in segmenti) per verificare l’assunzione dei rischi proporzionali. Supponiamo di voler testare se il SESSO ,aggiustato per PERIODO di trapianto, rispetti l’assunzione dei rischi proporzionali. Creiamo un termine che indica l’interazione tra la variabile tempo e la variabile SESSO. Questa volta però, anziché dividere il tempo in due, lo lasciamo così com’è. Abbiamo visto che nel Cox il tempo viene trattato come nelle curve di Kaplan-Meier: otteniamo informazione solo dagli eventi. Quando non succedono eventi noi non otteniamo alcuna informazione su come varia la sopravvivenza. Quando si verifica un evento, si produce il "gradino" che indica una modificazione della sopravvivenza; ad una modificazione della sopravvivenza corrisponde, ovviamente, una modificazione del rischio.
Nel Cox è come se avessimo diviso il tempo in segmenti minimi, della durata anche di un secondo, e contato quanti eventi accadono in ciascun segmento. I segmenti di tempo in cui non succede nulla, perché stanno tutti bene, non ci forniscono alcuna informazione e vengono esclusi dall’analisi. Nei segmenti in cui avviene l’evento noi confrontiamo le caratteristiche del soggetto che ha avuto l’evento con quelle degli altri soggetti presenti in quel segmento. Alla fine, per il Cox, il tempo esiste solo negli istanti in cui è successo un evento. Di conseguenza se ci sono 82 eventi il tempo attraversa 82 momenti. Nel nostro caso particolare, il programma ha considerato il tempo diviso in segmenti della durata di un giorno. Così facendo, si è trovato più di un paziente fallito il primo giorno, più di un paziente fallito il secondo giorno etc. I momenti di tempo si sono così ridotti a 69. Questo non è un problema, perché il programma sa come gestire una situazione simile. Ritornando al discorso precedente, invece di dividere il tempo in due segmenti, lo lasciamo così com’è, cioè diviso in 69 segmenti. Il termine di interazione tra SESSO e tempo, anziché indicare come varia il rischio legato al SESSO per i pazienti che hanno superato l’anno, ci dirà come varia, col passare del tempo, il rischio legato al sesso femminile, utilizzando l’informazione data da questi 69 segmenti.
Vediamone il risultato:

Variabile  Haz.
Ratio
  S.E.  z  p  Limiti di
confidenza
del 95%
SESSO 2.2 0.63 2.8 0.00 1.27   3.88
SESSO x t 0.82 0.08 -1.9 0.05 0.67   1.00

Il sesso femminile ha un HR di 2.2 rispetto al sesso maschile. Il termine di interazione indica un HR di 0.82 (inferiore all’uno). Ciò vuol dire che il rischio del sesso femminile diminuisce al passare del tempo. Questo è statisticamente significativo (p=0.05): possiamo pertanto rigettare l’ipotesi che il rischio per il sesso femminile non si modifichi con il passare del tempo; in altre parole, l’assunzione dei rischi proporzionali non è sostenibile per la variabile SESSO. Da un punto di vista numerico l’HR dell’interazione con il tempo come variabile continua non è di interpretazione immediata, la cosa che comunque a noi interessa è che la variazione del rischio per il sesso femminile nel tempo sia statisticamente significativa.

Gli HR di 2.22 e 0.82 corrispondono a dei coefficienti rispettivamente di +0.80 e -0.19. Il secondo coefficiente va moltiplicato per una variabile( l’interazione SESSO x t) che assume il valore di 0 se maschio e il valore degli anni di follow-up se femmina. Rispetto ad un maschio, una femmina dopo un anno di follow-up ha un rischio di exp(0.80+(-0.19 x 1))=1.84 e dopo dieci anni di follow-up ha un rischio di exp(0.80+(-0.19 x 10))=0.33.

Come ultima nota è utile precisare che l’introduzione di variabili tempo-dipendenti necessita di un programma computerizzato specifico. Nel caso della divisione del follow-up in due (<1aa e >=1aa), un soggetto viene "replicato" per potergli attribuire un rischio se è nel primo anno, ed un altro rischio se si trova negli anni successivi.
Quando, invece, il tempo viene introdotto come variabile continua, un soggetto sopravvissuto per 10 anni viene replicato ottanta volte per potergli attribuire un rischio diverso per ciascun momento in cui è avvenuto un fallimento. Di conseguenza invece che lavorare con 467, il computer si trova davanti oltre 20.000 pazienti !
E’ possibile stimare l’effetto di variabili che non rispettano l’assunzione dei rischi proporzionali:
  1. dividendo arbitrariamente il tempo in segmenti all’interno dei quali la proporzionalità sia sostenibile e stimando l’HR per ciascuno di questi segmenti
  2. creando un termine che esprime la variazione continua della variabile in questione col tempo, ad esempio il prodotto tra la variabile ed il tempo.
Queste procedure vanno sotto il nome di Cox con variabili tempo-dipendenti


-variabili tempo-dipendenti
Sinora abbiamo analizzato solo variabili misurate all’inizio dell’osservazione (baseline). Abbiamo cioè stimato l’effetto di una variabile misurata al baseline su diverse diverse successive fasi del follow-up. La ripercussione dell’età del donatore e del sesso del ricevente sugli eventi accaduti nel primo anno era diversa rispetto a quella avuta sugli eventi accaduti negli anni successivi.
L’approccio seguito sinora, quello cioè di spezzare il follow-up al fine di ottenere per ciascun paziente un record per ogni periodo di osservazione, si rivela particolarmente utile nell’analisi di dati raccolti longitudinalmente , cioè più volte, nel corso del follow-up. Potremmo per esempio aver raccolto mensilmente la pressione arteriosa e voler stimare l’effetto di questa sulla perdita del trapianto.
A tale scopo occorrerà avere nel nostro file, per ciascun paziente, tanti record quante visite mensili sono state fatte. Ogni record corrisponderà ad una visita mensile. Noi potremmo pertanto creare col computer una variabile che rappresenta, a ciascuna visita mensile, la media delle pressioni arteriose sino a quella visita. In tal caso quando un paziente avrà un evento, la sua pressione sino a quella visita verrà paragonata con la pressione sino alla stessa visita nel set a rischio (*).
Una variabile viene definita "tempo-dipendente" quando assume valori diversi in diversi momenti del tempo.

* Nota: al tempo "t" bisogna aggiustare per la media delle pressioni sino al tempo "t", e non per la media delle pressioni di tutto il follow-up. In caso contrario, in corrispondenza dell’evento, la pressione arteriosa di quel soggetto verrebbe paragonata anche con pressioni misurate nel "futuro" rispetto a qell’evento.


3.5.12   Errori frequenti nell’applicazione del modello di Cox
  1. Violazione dei rischi proporzionali
  2. Omissione dei test di interazione
  3. Overfitting
  4. Censuramento non indipendente dal fallimento
  5. Non conformità ad un gradiente lineare di una variabile continua
  6. "Coding" non specificato per le variabili
  7. Selezione impropria delle variabili da includere nel modello
  8. Collinearità
  9. Interpretazione inappropriata del rapporto causa-effetto
Dell’importanza del primo punto è stato già discusso nel corso dei paragrafi precedenti.

Omissione dei termini di interazione. Quando non si tiene in considerazione una interazione significativa, la conseguenza è quella di omettere una informazione potenzialmente importante. Il risultato della nostra regressione rimane comunque corretto. Nel nostro esempio precedente, omettere il termine di interazione RENE x SESSO avrebbe semplicemente comportato il fornire una stima globale dell’effetto del RENE.

Overfitting. L’overfitting ("ipermodellamento") vuol dire introdurre nel modello troppe variabili rispetto al numero di eventi che si sono verificati. Supponiamo di aver avuto dieci eventi invece che ottanta. Di questi dieci avremo paragonato sei maschi con quattro femmine. Di queste quattro femmine una sola potrebbe aver ricevuto un rene vecchio. Dovendo controllare per il sesso, utilizzeremmo l’informazione proveniente da una singola femmina. Ma noi abbiamo voluto anche controllare per epoca del trapianto. Quella singola femmina con rene vecchio apparterrà ad una sola di queste tre epoche. Il paragone con le altre due epoche non sarebbe possibile.
Se poi si pensa che abbiamo bisogno di fare ulteriori paragoni all’interno di questi per i termini di interazione, si capisce come i coefficienti ottenuti col Cox sarebbero totalmente inaffidabili o, quantomeno, l’analisi sarebbe estremamente imprecisa (intervalli di confidenza enormi).
Più elevato è il numero di eventi, più attendibile è l’informazione che si ricava. Come regola generale, risultati che si ottengono con meno di 10 eventi per variabile introdotta (incluso i termini di interazione) hanno validità dubbia.
Il numero di variabili introdotte non deve essere superiore ad una ogni dieci eventi osservati

Censuramento non indipendente dal fallimento. Nel nostro caso questo punto potrebbe essere stato violato. Noi abbiamo registrato 32 decessi con rene funzionante. Il follow-up di questi pazienti è stato considerato "censurato" alla stessa maniera come se si fosse trattato di pazienti trapiantati di recente e in perfette condizioni al momento dell’analisi dei dati. Peraltro, appare del tutto verosimile l’ipotesi che, fra i deceduti, ci fossero diversi pazienti con funzione renale compromessa e destinati a perdere il trapianto entro un breve lasso di tempo. Fra i deceduti c’era anche una minor percentuale di femmine (20% vs 37% nei rimanenti) ed una minor percentuale di reni vecchi (13% vs 25% dei rimanenti). Se tra questi deceduti, da noi considerati censurati, ci fossero stati pazienti destinati a perdere il rene nel breve periodo, l’HR per le femmine e per i reni vecchi sarebbe stato sovrastimato.
Nota
Il tipo di censuramento con cui noi abbiamo avuto a che fare è solo quello di non avere la parte "destra" del follow-up, quella dal lato dell’evento. Ci sono situazioni in cui il censuramento è anche a sinistra (dal lato dell’origine del follow-up). Supponiamo, per esempio, di utilizzare come origine del follow-up la data di diagnosi di una malattia potenzialmente fatale. Se noi mettiamo nel nostro file anche pazienti diagnosticati da altre parti e poi, in epoche successive, seguiti nel nostro ambulatorio, noi finiamo comunque per selezionare pazienti "sopravvissuti" e pertanto con maggiori chance di sopravvivenza.

Se le cause del censuramento hanno una qualche relazione con il fallimento, i risultati potrebbero risultare falsati.

Non conformità ad un gradiente lineare di una variabile continua. Si leggono spesso affermazioni del tipo: "all’aumentare di un punto della variabile x, aumenta il rischio di tot."
Un’affermazione del genere presuppone due cose:
  1. il Log dell’HR aumenta in maniera lineare per ogni aumento di una unità della variabile.
  2. Questo aumento lineare del rischio viene rispettato in qualunque momento del follow-up.
Il primo punto spesso non è sostenibile. Se noi analizzassimo il rapporto tra età e mortalità cardiovascolare, e inserissimo nel nostro modello l’età come variabile continua, assumeremmo implicitamente che l’aumento del rischio all’aumentare di 10 anni di età rimanga immutato fra i segmenti da 15aa a 25aa, e da 55aa a 65aa.
Nel nostro caso avremmo potuto inserire l’età del rene come variabile continua. L’aver utilizzato il quartile superiore vs i rimanenti è derivato in realtà dall’osservazione che il rischio legato all’ età del donatore non ha un andamento lineare; anzi, il quartile dei reni più giovani (11-26aa), quando aggiustato, tende ad andare peggio del quarile immediatamente superiore (27-46aa). Un sistema per verificare che una variabile è lineare nel LogHR è rappresentato in Fig. 3.8.


L’età del rene è stata divisa in quartili ed il punto di mezzo di questi è stato plottato con il logHR (ottenuto col Cox) associato a ciascun quartile. Come si vede dalla figura l’andamento non è lineare soprattutto perché al quartile inferiore non si associa il rischio più basso: il HR sembrerebbe elevato solo nei due quartili superiori.

Considerare nel modello una variabile come continua quando non è lineare nel LogHR non vuol dire solamente descrivere un andamento diverso da quello reale, ma anche impedire di identificare quali sono i valori della variabile in questione che realmente si associano ad un aumento dell’HR.
Per quanto riguarda il secondo punto (se la variabile continua rispetta la proporzionalità del rischio) possiamo verificare se i quartili si mantengono paralleli tra di loro nel plot -Log(-Log). Questo è riportato in Fig. 3.9.


Il quartile superiore (>=55aa) incrocia i due quartili "11-26aa" e "47-54aa" nel corso del primo anno di follow-up e poi diverge da questi, indicando un andamento sovrapponibile del rischio nel corso del primo anno ed un andamento progressivamente peggiore negli anni successivi; solo il quartile "27-46aa" mostra un andamento costante (e migliore) rispetto agli altri tre nel corso di tutto il follow-up. I rischi proporzionali non vengono pertanto rispettati.
Una variabile continua può essere introdotta nel modello come tale solo dopo aver accertato che il suo andamento sia "loglineare" e che rispetti l’assunzione dei rischi proporzionali.

Coding non specificato delle variabili. Nel nostro caso abbiamo utilizzato variabili "categoriche" (maschi/femmine, rene vecchio/giovane, epoca 86-89/90-93/94-98, primo anno/anni successivi). A queste variabili abbiamo attribuito un codice che vale "zero" per la categoria a minor rischio (reference) e "uno" per quella a maggiore rischio. Questo tipo di codice si chiama "reference cell" o "indicator" : il RR corrisponde al rischio rispetto al reference (ad esempio femmine rispetto a maschi).
Se la variabile ha tre livelli, come la variabile PERIODO, non è un problema; questa situazione equivale a creare due variabili: codifica della variabile A = 1 se 89-90 e A=0 se 94-98; codifica della variabile B=1 se 90-93 e B=0 se 94-98.
Il codice "indicator" non è però l’unico possibile. Esiste un codice detto "deviation from mean" che attribuisce i valori -1 e +1. I’HR che ne risulta esprime il rischio rispetto ad una categoria media fra le due considerate. Se utilizziamo il codice "deviation" per il sesso femminile, l’HR che ne risulta esprime il rischio rispetto ad una ipotetica categoria di mezzo fra maschi e femmine! Nelle versioni dell’SPSS sino alla 7.0 questo codice era di "default"; occorreva pertanto selezionare il coding "indicator". E’ possibile comunque ottenere il RR rispetto al reference utilizzando il coefficiente con la formula: exp(2x).
Anche l’interpretazione dei termini di interazione dipende da come è stata codificata la variabile.
In sostanza, occorrere specificare come sono state trattate le variabili per consentire una corretta interpretazione dei risultati.
Specificare come sono state codificate le variabili categoriche.

Selezione impropria delle variabili. La scelta delle variabili da includere in un modello deve essere basata, prima di tutto, sulle conoscenze cliniche dell’argomento ed andrebbe meditata ben prima di avvicinarsi al computer. Esistono algoritmi di selezione automatica delle variabili, ad esempio "stepwise forward (with backward selection)". Queste procedure presentano diversi problemi fra cui ricordiamo i seguenti:
  1. il numero di variabili selezionate per il modello dipende dal numero di variabili inizialmente incluse
  2. la "p" non viene utilizzata secondo il suo significato consueto (la "p" è fatta per testare ipotesi specifiche, ma qui è utilizzata per classificare le variabili per "importanza" statistica).
  3. il limiti di confidenza sono più ristretti di quanto dovrebbero.
  4. la selezione dipende fortemente dalla distribuzione casuale nei nostri dati; potrà risultare molto diversa se i dati provengono da un file di un gruppo diverso di pazienti.
  5. se ci sono variabili correlate fra di loro, solo una di queste verrà inclusa e le altre rimarranno fuori anche se importanti.
  6. il computer è fatto per eseguire calcoli, non per dare giudizi clinici o biologici.
Se si usano queste procedure occorre controllare con attenzione la plausibilità del modello ottenuto, evitando soprattutto di lasciare fuori variabili che rappresentano importanti "confounder". Queste variabli lasciate fuori dalla procedura automatica, devrebbero infatti essere sempre reintrodotte nel modello per verificare che non determinino una significativa variazione dei suoi coefficienti.
I sistemi di selezione automatica diventano comunque un utile strumento nei casi in cui si raggruppano un numero considerevole di variabili per analizzare un fenomeno dall’eziologia in gran parte oscura. Rivestono poi un ruolo importante nella ricerca prognostica e diagnosica, come nel caso dello sviluppo di modelli predittivi (ad es. probabilità di morte in terapia intensiva). L’equazione derivata dovrà però essere sempre successivamente validata su di un' altra popolazione di pazienti.
Non utilizzare procedure di selezione automatica delle variabili se non è necessario.

Collinearità. Quando ci sono nel modello variabili ampiamente correlate tra di loro, come per es. può accadere includendo numerose variabili derivate matematicamente tutte dalle stesse grandezze, la stima dell’HR e dei limiti di confidenza può risultare inaffidabile. Occorre allertarsi quando i limiti di confidenza o gli HR risultano abnormemente elevati, poiché essi potrebbero segnalare inconvenienti di questo tipo.
Non introdurre nello stesso modello covariate altamente correlate fra loro, e pertanto indotte a modificarsi sistematicamente nella stessa direzione.

Inappropriata interpretazione del rapporto causa-effetto. Supponiamo di voler verificare l’effetto di un trattamento antiipetensivo sulla mortalità , ma di voler appurare, anche, se questo trattamento esercita un’azione protettiva sulla mortalità indipendentemente dall’azione ipotensiva. Controllare per la pressione all’inizio della sperimentazione (effetto del trattamento aggiustata per la di storia di ipertensione) e dell’interazione tra questa ed il trattamento (diverso effetto del trattamento a secondo della gravità della storia di ipertensione) rappresenta un sicuro vantaggio per una valutazione precisa dell’effetto del trattamento. Noi però potremmo anche voler controllare per la pressione nel corso del follow-up sperimentale. In tal caso dovremo creare una variabile che rappresenta, a ciascuna visita, la media delle pressioni sino a quella visita. Aggiustando il trattamento per questa variabile otterremo solo l’effetto diretto del trattamento sulla mortalità (idipendentemente da quello esercitato attraverso la riduzione della pressione) e non l’effetto globale del trattamento (diretto+indiretto). L’effetto indiretto (la riduzione della mortalità attraverso la riduzione della pressione arteriosa) verrà infatti annullato se aggiustatiamo per la pressione nel corso del follow-up.
E’ preferibile non aggiustare una causa per il suo effetto.


3.5.13   I test per paragonare le curve di sopravvivenza

Abbiamo visto come la probabilità di sopravvivenza possa essere stimata attraverso la curva di Kaplan-Meier. Rimanendo nell’ambito delle nostre esemplificazioni, è ovviamente possibile tracciare curve separate per femmine e maschi, oppure per i riceventi di rene vecchio e i riceventi di rene giovane. Questo consente di confrontare le curve di sopravvivenza come in Fig. 3.10 ed in Fig. 3.11.




Possiamo pertanto verificare direttamente quale dei due gruppi sia a maggior rischio dell’altro. A ciascun momento del follow-up corrisponderà un percentuale di sopravvivenza per ciascun gruppo. Ad esempio, in Fig. 3.10 si vede che la sopravvivenza a cinque anni è circa 85% per i reni vecchi e 75% per i reni giovani.
Occorre subito sottolineare che un confronto tra le curve è un confronto "crudo", non aggiustato per eventuali confounder; non ci sono, pertanto, garanzie che la differenza osservata sia attribuibile, o comunque del tutto attribuibile, alla variabile considerata. Questo problema può venire risolto solo con l’applicazione del metodo di Cox. La valutazione delle curve di Kaplan-Meier deve essere pertanto integrata con il calcolo del RR attraverso il metodo di Cox.
Talvolta, però, come nelle sperimentazioni randomizzate, è ragionevole assumere che i gruppi siano diversi solo per una caratteristica (il trattamento); in questo caso una eventuale differenza nella sopravvivenza potrà essere attribuita alla variabile considerata e le curve di Kaplan-Meier sono sufficienti da sole allo scopo.
Il paragone tra le curve fatto sopra, è un paragone "ad occhio". Abbiamo necessità di un test che ci dica se la differenza osservata tra le curve è statisticamente significativa: l’ipotesi che deve essere testata è quanto la differenza osservata sia compatibile con la variabilità casuale.
A tale scopo i test più importanti sono:
  1. Log Rank test
  2. Test di Wilcoxon generalizzato
Log Rank test
Il nome potrebbe suscitare diffidenza perchè evoca diavolerie matematiche, in realtà questo test non richiede per il suo calcolo né logaritmi né ranghi.
Si può eseguire utilizzando un listato di dati come quelli necessari per tracciare le due curve di sopravvivenza; si compilano delle tabelle 2x2 (analoghe a quella riportata a pag. 2) con le righe che corrispondono al gruppo di appartenenza e le colonne allo stato dei pazienti (fallito/sopravvissuto) ; si combinano poi tutte le tabelle tra loro per testare l’associazione tra il gruppo in questione (femmine) ed il fallimento.
Eseguire il calcolo per un gruppo ( maschi) o per l’altro (femmine) fornisce lo stesso risultato. Nel caso di più di due gruppi è comunque necessario il computer.

Il significato del termine "log rank" deriva da quanto segue. Se consideriamo un modello di Cox con una variabile dicotomica (ad esempio maschi/femmine) e vogliamo testare se il coefficiente ottenuto per le femmine sia eguale a zero (nessuna differenza tra maschi e femmine) e decidiamo di applicare a questo scopo un test che si chiama "Score test", otteniamo la formula del "log rank test". Lo score test risulta dalla somma di valori ottenuti in momenti successivi nel tempo ("rank") e viene applicato ad un modello come il Cox che è "loglineare" ("log"): da ciò il termine"log rank test".
Applicato alla variabile SESSO il test fornisce la seguente soluzione:
2=3.28 p=0.07
La "p" è ai limiti della significatività statistica convenzionale dello 5%.
Il log rank test si fonda sull’ assunzione che i rischi siano proporzionali. Il sesso femminile ha un rischio maggiore all’inizio che alla fine del follow-up, tanto che le curve di sopravvivenza a sette anni (vedi Fig. 3.11) si incrociano. I contributi ottenuti nei primi periodi sono pertanto di segno opposto rispetto a quelli ottenuti alla fine ed il test finisce per avere un valore piccolo (3.28) e pertanto non significativo. Il log rank test andrebbe in tal caso integrato con i sistemi descritti in precedenza per affrontare le situazioni in cui i rischi non siano proporzionali.

Test di Wilcoxon generalizzato
Nelle situazioni in cui la variazione dei rischi non è proporzionale il test di Wilcoxon generalizzato è più appropriato. Il nome deriva dal fatto che , in assenza di censuramento, il test equivale alla statistica di Wilcoxon.
La sua caratteristica peculiare è di essere "ponderato": attribuisce infatti maggior significato ai tratti di curva dove avviene il maggior numero di eventi; nel nostro caso nel primo anno avvengono 47 degli 82 eventi totali ed è in quel periodo che le femmine sono a maggior rischio.
Applicato alla variabile SESSO fornisce la seguente soluzione:
2=6.6 p <0.01
Come ci attendevamo, il test questa volta è significativo.

Sia il log rank test che il test di Wilcoxon generalizzato possono essere "stratificati" . Il numeratore ed il denominatore del test vengono calcolati separatamente per ciascuno strato di una variabile categorica e poi sommati. Ne risulta un test controllato per quella variabile. Nel nostro caso avremmo potuto, ad esempio, testare la variabile SESSO, stratificata per PERIODO, al fine di controllare per epoca di trapianto.

Le curve di Kaplan-Meier aggiustate
Abbiamo detto che le curve di Kaplan-Meier sono una valutazione "cruda" non aggiustata per i confounder. E’ possibile tuttavia, usando il metodo di Cox, tracciare delle curve aggiustate per le altre variabili. Nel Cox il rischio per ciascun soggetto lo ricaviamo dai coefficienti. Ma la sopravvivenza ed il rischio sono legati da una funzione matematica. Dai coefficienti è pertanto anche possibile stimare la sopravvivenza prevista per ciascun pattern di covariate (ad esempio, per una femmina con rene giovane e trapiantata nel periodo 86-89).
I valori della curva di Kaplan-Meier osservati verranno corretti per i valori medi delle altre variabili: risultano pertanto delle curve stimate per un paziente con la variabile di interesse (ad esempio femmina) a cui viene attribuito il valore medio delle altre variabili. Le curve di Kaplan-Meier aggiustate si fondano sul Cox e, pertanto, si basano sull’assunzione dei rischi proporzionali con gli inconvenienti relativi.

Il paragone tra le curve di sopravvivenza non tiene conto del ruolo di eventuali confounder.
Log rank test
Adatto quando le curve non si incrociano e si vuole dare risalto anche alla parte terminale delle curve (pochi pazienti, grossi gradini).
Test di Wilcoxon generalizzato Adatto quando l’assunzione dei rischi proporzionali non è rispettata e si vuole dare maggior risalto alla parte iniziale della curva, dove avviene il maggior numero di eventi.
Con il Cox è possibile aggiustare le curve per i confounder. Le curve risultanti vanno comunque interpretate con cautela.


Bibliografia
  1. Cox DR Regression Models and Life-Tables (with discussion) J R Statist Soc B 1972, 34:187,220
  2. Cox DR Oakes D Analysis of Survival Data Chapman and Hall 1984
  3. Clayton D Hills M Statistical Models in Epidemiology Oxford Sciencs Publication 1993
  4. Concato J Feinstein A Holford T The risk of determing risk with multivariable models Ann Intern Med 1993, 118:201-210
  5. Robins J The control of confounding by intermediate variables Stat Med 1989, 8: 679-701
  6. Wolfe R Strawderman L Logical and statistical fallacies in the use of Cox regression models Am J Kidney Dis 1996, 27:124-129
  7. Nieto F Coresh JAdjusting survival curves for confounders: A review and a new method Am J Epidemiol 1996, 143:1059-1068



Note

5 Il metodo statistico che abbiamo adoperato per scegliere se introdurre un’interazione nel modello non è stato descritto in questa sede e rimandiamo il lettore interessato a testi più approfonditi.


Indietro   Inizio pagina   Avanti