Il libro
3   IL RISCHIO E LA PROGNOSI
3.3   COME OTTENERE LA STIMA DEL RISCHIO DALLA LETTERATURA SCIENTIFICA: TAVOLE E CURVE DI SOPRAVVIVENZA E LOG-RANK TEST



3.3.1   Quello che importa nell’attività clinica: il rischio incidente (o assoluto)

Valutare il rischio è un elemento chiave per predire gli eventi futuri. Al medico interessa poco il rischio generico di un infarto miocardico dopo i 50 anni perchè questo modo di formulare la stima del rischio non è utilizzabile per la prognosi né per altre decisioni cliniche. Il medico vuole conoscere quale è il rischio di infarto di un paziente di 50 anni con ben definite caratteristiche cliniche entro 1 anno (o un qualsiasi altro tempo). Si introduce quindi nella stima del rischio un preciso arco temporale. Questo termine conferisce al rischio una connotazione che lo rende fruibile nella formulazione della prognosi e delle decisioni cliniche.

Abbiamo visto nel Capitolo 3.1 che la misura del rischio che i medici utilizzano è il rischio incidente o incidence risk (cioè il rapporto tra il numero di pazienti che si ammalano in un certo intervallo di tempo e quello dei soggetti sani all’inizio dell’osservazione). Nel Capitolo 3.2 si è parlato di rischio assoluto e rischio relativo e si è visto che il rischio relativo è utile per misurare la forza dell’associazione tra fattori di rischio ed esito delle malattie. Nella letteratura scientifica, la parola rischio spesso è usata “tout court” rimanendo implicito l’aggettivo assoluto o incidente. In questo capitolo laddove non specificato la parola rischio sarà utilizzata per esprimere il rischio assoluto o rischio incidente.

Quando dobbiamo formulare una prognosi, oltre che sull’esperienza, ci basiamo sulle conoscenze della letteratura scientifica relative al rischio di malattia o di morte su pazienti il più possibile simili al nostro paziente. Nella letteratura scientifica il rischio è riportato in due modi. Abbiamo visto nel capitolo precedente che gli epidemiologi in genere riportano l’incidenza della morbilità e della mortalità in termini di tasso di incidenza (incidence rate). Questa stima del rischio non può essere utilizzata direttamente dai clinici. Il rischio assoluto (o incidente) può essere tuttavia calcolato dal tasso incidente con la formula:

Rischio incidente = 1- e-(tasso di incidenza)


Per esempio se volessimo stimare il rischio della malattia di Alzheimer a 15 anni negli uomini di 65 anni e avessimo una tabella in cui viene riportato il tasso di incidenza per fasce di età (vedi Tabella 3.4), assumendo che il rischio rimanga inalterato nel tempo nelle varie fasce di età e tenendo conto che ogni classe di età raggruppa 5 anni, possiamo applicare la formula (nota 4) e calcolare il rischio a 15 anni di malattia di Alzheimer in un uomo di 65 anni.

R = 1- e-(5 x 0.8/1000 + 5 x 1.9/1000 + 5 x 4.4/1000) = 0.035 (3.5%)


La stima combinata su più fasce di età ci consente pertanto di stimare il rischio individuale di malattia su un lungo arco temporale.

I dati sono talora riportati come tasso di incidenza anche nei registri di dialisi. Nel registro lombardo l’incidenza dell’insufficienza renale terminale (ingressi in dialisi) nel 1996 è 111 pazienti pma (per milione di abitanti) x anno o 0.111/1000 pazienti x anno. Discutendo del tasso di incidenza abbiamo visto che nelle malattie rare il tasso di incidenza e il rischio incidente (o assoluto) sono molto simili e che l’insufficienza renale è da considerarsi una malattia rara (Capitolo 3.1). Possiamo pertanto calcolare direttamente il rischio dal tasso di incidenza moltiplicandolo per 100.
R = 0.00011 x 100 = 0.011%. Ripetendo il calcolo con l’esponenziale il risultato è identico:

R = 1- e-(0.111/1000) x 100 = 0.00011 x 100 = 0.011%.


3.3.2   Le tavole e le curve di sopravvivenza

Determinare il tempo di sopravvivenza significa valutare le probabilità che un evento si verifichi dopo un certo tempo di osservazione a partire da un preciso momento (per esempio l’inizio dei sintomi della malattia o il momento in cui la malattia è stata diagnosticata o l’inizio della terapia, ecc.). La definizione di "tempo di sopravvivenza" è usata in senso estensivo e viene applicata anche a eventi diversi dalla morte. Il tempo “di raddoppio della creatinina” (una misura della velocità evolutiva delle malattie renali), il tempo in cui si verifica un episodio di rigetto o un incidente cerebro-vascolare sono tutti considerati come “tempi di sopravvivenza”. L’analisi statistica di questi dati è nota come analisi di sopravvivenza.

I "punti critici"

I punti critici di questo tipo di analisi sono tre: l’inizio dell’osservazione, la sua durata e l’evento finale o esito.

L’inizio dell’osservazione: ipotizziamo di voler definire quali sono le probabilità di un paziente con diabete di tipo II di sviluppare la nefropatia diabetica. La diagnosi di diabete di tipo II spesso è incerta e viene posta molto tempo dopo l’esordio reale della malattia. In questo caso ponendo come punto d’inizio dell’osservazione il momento della diagnosi ignoreremmo il tempo più o meno lungo che ha preceduto la scoperta della malattia. L’approccio metodologicamente corretto (che è anche quello praticamente più difficile da realizzare) è studiare solo quei pazienti in cui l’esordio del diabete è stato chiaramente identificato cioè quelli che sapendo di essere predisposti alla malattia eseguono controlli periodici della glicemia. Problemi analoghi si hanno in altre situazioni cliniche come per esempio l’ipertensione arteriosa, le iperlipidemie, ecc.

La scelta della scala temporale: la scala temporale va opportunamente definita (minuti, ore, giorni, ecc.) in rapporto alla rapidità attesa dell’evento. L’infarto del miocardio può indurre una morte rapida per cui la sopravvivenza immediata va valutata in ore. D’altra parte nei pazienti infartuati che sopravvivono alla fase acuta la sopravvivenza successiva può essere valutata in mesi o in anni. La nefropatia diabetica si manifesta dopo molti anni di malattia quindi le misurazioni saranno espresse in anni.

Supponiamo di voler definire le probabilità di sopravvivenza dopo un infarto del miocardio. L’osservazione inizia il giorno in cui si è verificato l’infarto. L’evento che si prende in considerazione è la morte. La sopravvivenza nel post-infarto è la durata dell’intervallo tra l’infarto e il decesso. Un certo numero di pazienti sopravvivranno a lungo e saranno ancora vivi nel momento in cui abbiamo stabilito di interrompere l’osservazione. In questi pazienti il decesso può verificarsi in un momento qualsiasi dopo la fine dello studio, anche dopo pochi giorni. Questi pazienti vengono definiti “censurati” (censored) per indicare che il periodo di osservazione è stato interrotto prima del verificarsi dell’evento. Vengono anche definiti “censurati” i pazienti di cui non si riesce a ottenere informazioni (persi al follow-up) e i morti per cause diverse dall’infarto (per esempio un decesso per neoplasia). I pazienti censurati sono parte integrante dello studio fino al momento in cui sono disponibili informazioni sul loro stato (vivo o morto) e, come vedremo fra poco, il loro peso nel calcolo della sopravvivenza è determinante.

Il termine dell’osservazione è altrettanto importante. La data in cui lo studio ha termine deve essere ben definita ed è necessario adoperarsi il più possibile per avere informazioni sulla situazione di tutti i pazienti a quella data. Inoltre è bene accertarsi che lo studio sia disegnato in modo tale da avere un periodo sufficientemente lungo di osservazione per raccogliere un consistente numero di eventi.

  • Il metodo di Kaplan-Meyer


  • Supponiamo di avere un gruppo di pazienti infartuati. Il nostro campione includerà un certo numero di pazienti "censurati" e misureremo il tempo in giorni. L'esempio si basa solo su 10 pazienti per semplificare il calcolo. Per stimare la sopravvivenza dopo l’infarto useremo il metodo di Kaplan-Meyer. Come anticipato nel precedente paragrafo, il metodo utilizza i dati dei pazienti "censurati" fino al momento in cui si hanno sufficienti informazioni sullo stato di questi pazienti. Per esempio per un paziente perso all’osservazione al 150° giorno vengono utilizzati i dati fino a quel giorno.

    Razionale del metodo: essere ancora vivi 120 giorni dopo un infarto comporta l’esser sopravvissuti nei 119 giorni precedenti (questo è lapalissiano ma ci aiuta a sviluppare i concetti). In altri termini la sopravvivenza 119 giorni dopo l’infarto condiziona la probabilità di sopravvivenza del giorno successivo e così via. Questo tipo di probabilità è definito "probabilità condizionale" (vedi Capitolo 2.1). La probabilità condizionale è una probabilità moltiplicativa. Prima di passare all’applicazione della probabilità moltiplicativa costruiamo una tavola di sopravvivenza. Per far questo dobbiamo decidere la durata degli intervalli temporali considerati nella tavola. Il metodo tradizionale è quello di stabilire una serie di intervalli temporali uguali (tavole attuariali). Per esempio intervalli di 10 giorni o di un mese. Il metodo di Kaplan-Meyer non stabilisce invece un intervallo fisso. La durata di ciascun intervallo è dettata dagli eventi.
    Se il primo evento si verifica dopo 10 giorni il I intervallo sarà di 10 giorni (vedi Tabella 3.5 e Figura3.3). Se il secondo evento si verifica dopo 12 giorni la durata del II intervallo sarà di due giorni e così via. Affermando che la probabilità degli eventi è "condizionale" intendiamo dire che essa dipende dagli eventi precedenti. Nel nostro esempio la probabilità di sopravvivere fino al 122° giorno (III intervallo nella Tabella 3.5) è uguale alla probabilità di sopravvivere nel I intervallo moltiplicata per la probabilità di sopravvivere nel II intervallo moltiplicata ancora per la probabilità di sopravvivere nel III intervallo (cioè p1 x p2 x p3). Nel metodo di Kaplan-Meyer se il tempo dell’evento è conosciuto con sufficiente precisione si ha un solo evento per intervallo. Può però accadere che la necessità di arrotondare i tempi faccia sì che nello stesso punto si verifichino due o più eventi (per esempio tre pazienti potrebbero morire nello stesso giorno ma ad orari diversi, tuttavia essi verrebbero considerati deceduti contemporaneamente). In tale circostanza, la sopravvivenza del periodo si calcola dividendo il numero dei sopravvissuti alla fine di quell’intervallo per il numero di pazienti a rischio all’inizio di quell’intervallo. Se, come abbiamo ipotizzato, morissero 3 individui contemporaneamente e all’inizio dell’intervallo i soggetti a rischio fossero 8, la sopravvivenza corrispondente sarebbe 5/8 = 0.625. In ciascun intervallo temporale la sopravvivenza cumulativa si calcola moltiplicando la probabilità di sopravvivenza dell’intervallo per quella di tutti gli intervalli precedenti. Per esempio la probabilità di sopravvivenza nel II intervallo è uguale alla probabilità di sopravvivere dell’intervallo (0.888) moltiplicata per la probabilità di sopravvivere nell’intervallo precedente (0.9). La sopravvivenza cumulativa nei primi due intervalli è quindi 0.799. Nel III intervallo la sopravvivenza cumulativa sarà uguale a quella dell’intervallo (0.857) moltiplicata alla sopravvivenza cumulativa dei due intervalli precedenti (0.799) sarà cioè 0.684 e così via.

    Due cose è importante notare:
    1. i pazienti a rischio in ciascun intervallo sono quelli sopravvissuti nell’intervallo precedente più i pazienti censurati nell’intervallo. I censurati vengono esclusi di volta in volta a partire dall’intervallo successivo, cioè dal momento in cui non sono più disponibili informazioni sul loro stato
    2. la sopravvivenza cumulativa si calcola volta per volta moltiplicando quella degli intervalli precedenti (colonna E della Tabella 3.5) per la sopravvivenza dell’intervallo (colonna D).
    Nel nostro esempio la sopravvivenza a 172 giorni (in coincidenza dell’ultimo evento) è 0.364 cioè il 36.4%. Gli stessi dati vengono riportati in forma di curva di sopravvivenza nella Figura 3.4. Si noterà che dal 172° giorno in poi, non essendoci stati né eventi né pazienti censurati, la sopravvivenza rimane immodificata fino al termine dell’osservazione.

    I calcoli che abbiamo effettuato con l’ausilio della tabella, intervallo per intervallo possono essere calcolati con la formula:

    pt = 1 - (Nt /Dt)


    Dove:

    pt = probabilità di sopravvivenza all’intervallo t (espresso in giorni o mesi, ecc.)
    Dt = persone a rischio nell’intervallo t
    Nt = numero di eventi nell’intervallo t

    Questo calcolo si applica intervallo per intervallo. Per esempio al 122° giorno le persone a rischio sono 7 e gli eventi 1. Quindi p = 1 - (1/7) = 1 - 0.143 = 0.857, che è lo stesso risultato riportato nella colonna D della Tabella 3.5.

    Abbiamo visto che i dati di sopravvivenza possono essere presentati in forma grafica come curve di sopravvivenza (Figura 3.4). La curva di sopravvivenza è una "step function" cioè una funzione che procede a intervalli e il tasso di pazienti che "sopravvive" fra un intervallo e il successivo rimane immodificato anche se vi sono pazienti censurati durante quel periodo (esattamente quello che abbiamo visto nella tavola di sopravvivenza). Nella figura la probabilità di sopravvivenza a distanza di 122 giorni dall’infarto è 68.4%, e a distanza di 172 durante il quinto è 54.7% e così via.


  • Il confronto fra curve di sopravvivenza con il Log-rank test (Mantel-Cox)


  • La sopravvivenza dopo un infarto può esser peggiore nei più anziani o in quelli che hanno una compromissione della funzione ventricolare o che hanno malattie concomitanti (i diabetici) e può essere influenzata favorevolmente da un nuovo farmaco che limita l’area infartuale e previene le aritmie post-infartuali. Per individuare i fattori che influenzano il rischio post-infartuale è necessario comparare la sopravvivenza di due gruppi di pazienti che differiscono solo per essere stati esposti o non esposti a quel fattore. Il paragone potrebbe essere effettuato disegnando le due curve di sopravvivenza. Tuttavia due curve di sopravvivenza possono fra loro sovrapporsi parzialmente (specie nella parte iniziale dove il numero di eventi è limitato) o incrociarsi più volte. Un confronto del genere non risolverebbe il problema. La soluzione è paragonare per ogni intervallo di tempo la sopravvivenza dei pazienti esposti e non esposti al fattore di rischio. Questo confronto si fa utilizzando il Log-rank test. Nonostante il nome del test alluda ai logaritmi e ai ranghi esso non ha nulla a che fare con i logaritmi e con i ranghi (molti statistici preferiscono designare il test con il nome di chi lo ha escogitato, Mantel-Cox). Il test altro non è che un confronto tra le probabilità attese dell’evento (il decesso) con il numero di eventi osservato.

    Immaginiamo di avere due gruppi di pazienti che hanno avuto un infarto, nel primo ci aspettiamo un più basso numero di decessi perché i pazienti che lo compongono hanno una normale frazione di eiezione, nel secondo ci aspettiamo una prognosi relativamente sfavorevole (frazione di eiezione bassa). La mortalità attesa si calcola assumendo che essa sia casuale, cioè che essa si ripartisca tra i due gruppi in misura proporzionale al numero di soggetti che sono presenti in ciascun gruppo (i soggetti a rischio) e la ripartizione è espressa, intervallo per intervallo, dal numero di soggetti a rischio di ciascun gruppo diviso per il totale dei soggetti a rischio (l’insieme dei due gruppi) nello stesso intervallo. Quando i due gruppi hanno la stessa numerosità la mortalità attesa si distribuisce in eguale misura nei due gruppi (0.5 e 0.5).

    Elenchiamo nei due gruppi, paziente per paziente, il tempo degli eventi (in giorni) o della censura (tempo di censura, *, è l’ultimo tempo in cui è noto lo stato del paziente). Quando si calcolano i soggetti a rischio i dati censurati vengono esclusi dal calcolo a partire dall’intervallo successivo a quello in cui si verificano:

    I gruppo: 23, 43, 38*, 61, 66*, 83
    II gruppo: 25, 26, 36, 60*, 71, 78


    In base a questi dati costruiamo una tavola di sopravvivenza di Kaplan-Meyer (Tabella 3.6) per il I gruppo riportando anche il numero di pazienti a rischio in ciascun gruppo, indicando gli eventi nel I gruppo e calcolando la mortalità osservata e attesa nello stesso gruppo.

    La mortalità attesa (ultima colonna) si calcola sommando le mortalità attese di tutti gli intervalli.



    Costruiamo quindi una identica tavola per il 2° gruppo (Tabella 3.7).


    Il risultato del Log-rank test si calcola con la formula:

    (mortalità attesa - mortalità osservata)2
    somma dei prodotti delle mortalità attese nei due gruppi


    Il numeratore può essere calcolato indifferentemente utilizzando i dati del primo o del secondo gruppo (il risultato è identico). Il denominatore si calcola moltiplicando intervallo per intervallo i dati dell’ultima colonna dei due gruppi e sommandoli (0.50 x 0.50 + 0.454 x 0.546 + 0.50 x 0.50 + ...... + 1.00 x 0.00 = 1.98). Nel nostro esempio il risultato finale è 1.132/1.98 = 0.64. Il risultato ottenuto va quindi tradotto in una probabilità consultando la tavola della distribuzione di 2 (si è già detto che questa distribuzione è analoga a quella della deviazione media standardizzata descritta nel Capitolo 2.3. Questa distribuzione consente di stabilire la probabilità di una differenza tra valori osservati e attesi per variabili categoriche come la sopravvivenza). Consulteremo questa tavola (riportata in tutti i manuali di statistica) in corrispondenza di un numero di gradi di libertà pari al numero dei gruppi meno uno. Nel nostro caso i gruppi sono due e quindi c’è un solo grado di libertà. Con 1 grado di libertà la probabilità che corrisponde allo 0.05 (5%), cioè la minima che accettiamo come statisticamente significativa, ha un valore di 3.841. Il che abbiamo trovato (0.64) non è pertanto significativo.

    La nostra conclusione è che la frazione di eiezione non predice la mortalità negli 83 giorni successivi all’infarto. La conclusione di questo esempio fittizio non sarà certamente condivisa dai cardiologi che hanno prove schiaccianti a favore del contrario ma serve bene al nostro scopo di illustrare il test di Mantel-Haenszell. Torneremo ancora a discutere delle tavole di sopravvivenza nel Capitolo 3.4.

    Letture consigliate In questo articolo sono analizzati in dettaglio e chiaramente i rapporti tra tasso di incidenza e rischio incidente o assoluto.

    Il metodo di Kaplan-Meyer e il Log-rank test sono ben spiegati su:

    Note

    4 I lettori sono invitati a ripetere il calcolo utilizzando la loro calcolatrice tascabile. Le operazioni con gli esponenziali sono riassunte nell’Appendice.


    Indietro   Inizio pagina   Avanti