A
Aleatorio
Vedi Variabile aleatoria



B
Baseline hazard
Viene definito baseline hazard o rischio basale quel rischio con caratteristiche più favorevoli.

Bias
Errore pregiudiziale. Affinchè il campione di dati sia rappresentativo rispetto alla popolazione la scelta degli elementi deve essere del tutto casuale; diversamente il campione sarà viziato da un errore pregiudiziale. E' il caso in cui, ad esempio, un campione di persone considera una sola fascia d'età, oppure soltanto femmine o un solo strato sociale..



C
Campione di dati
Quando manca la popolazione si deve ricorrere ad un campione, cioè ad un insieme parziale di dati preso, secondo un certo criterio, entro una popolazione teorica o virtuale. Si possono scegliere:
  • campioni casuali o randomizzati: quando le singole misurazioni sono prese dalla popolazione senza alcun criterio, casualmente;
  • campioni continui: quando vengono registrate tutte le misurazioni possibili a partire da un certo momento e fino ad un termine definito;
  • campioni schedulizzati: quando vengono registrate le osservazioni ad intervalli fissi, temporali, spaziali o ordinali;
  • campioni a soglia singola o doppia: quando vengono registrate solo le osservazioni superiori, inferiori o interne ad una determinata soglia;
  • è possibile ottenere dei campioni combinando fra loro i metodi descritti.

    Coefficiente di correlazione (Coefficiente di Pearson)
    Il coefficiente di correlazione (r) si calcola a partire dalla somma dei quadrati delle deviazioni e dei residui dovute ad una regressione secondo la seguente formula:
    r = (sommatoria dei quadrati delle deviazioni) / (sommatoria dei quadrati delle deviazioni + sommatoria dei quadrati dei residui)

    Coefficiente di correlazione di Spearman
    Le variabili x e y vengono ordinate in serie crescenti per testare il loro accordo gerarchico. L'accordo è ideale quando al più basso valore di x corrisponde il più basso valore di y e così via per il secondo valore di x, il terzo, ecc. fino ad arrivare ai valori massimi. Il coefficiente che esprime questo accordo è il coefficiente di correlazione di Spearman. Per serie di dati >20, il coefficiente di Spearman tende a coincidere con il coefficiente di correlazione.

    Coefficiente di determinazione
    E' determinato dall'elevamento al quadrato del coefficiente di regressione.

    Coefficienti di regressione
    In una funzione di regressione ciascun coefficiente associato alle variabili indipendenti coinvolte. Ad esempio se la funzione è espressa dall'equazione y = a*x1 + b*x2, le costanti a e b sono coefficienti di regressione.

    Continuo
    Vedi Variabile discreta e continua



    D
    Deviazione
    Vedi Scarto

    Deviazione dovuta alla regressione
    E' definita come la differenza tra un certo valore y di una variabile e la media calcolata sui valori della stessa variabile.

    Deviazione normale standardizzata
    E' definita come il rapporto tra la differenza tra un certo valore della variabile e la media della distribuzione, e la deviazione standard della stessa distribuzione:
    z = -
    dove z è la deviata media standardizzata, la media della popolazione, la deviazione standard.

    Deviazione quadratica media
    Vedi Varianza

    Deviazione standard
    La deviazione standard si ottiene estraendo la radice quadrata della varianza:

    Dove: è la deviazione standard; x i il dato iesimo; la media aritmetica degli elementi x1 ... xN; N il numero di dati considerati.

    Esistono argomenti teorici per rimpiazzare il fattore 1/N con 1/N-1 nella definizione della varianza, ottenendo, una nuova definizione:

    Questa definizione tende a correggere la tendenza della precedente a sottostimare le incertezze soprattutto nel caso in cui si lavori con pochi dati (N piccolo). Nel caso limite di una sola misura (N=1), infatti, la prima definizione da il risultato, non molto significativo, = 0, mentre il risultato della nuova non è definito (0/0), evidenziando così l'incertezza su una singola misura.
    Sostituendo il fattore 1/N con 1/N-1 e lasciando fissa la condizione diminuisce il numero di gradi di libertà (le misure o osservazioni) del sistema che si sta studiando.

    Deviazione standard della media
    La deviazione della distribuzione delle medie è definita dalla radice quadrata del rapporto tra la varianza dei dati del campione e il numero dei dati.

    Discreto
    Vedi Variabile discreta e continua



    E
    Ecologic fallacy
    Grave errore di interpretazione che può essere causati dall'impossibilità di individuare i soggetti nei quali gli effetti dell’ipotetico fattore si sono manifestati.

    Errore standard
    Radice quadrata della varianza della distribuzione campionaria di una statistica.


    Evento
    Nel calcolo delle probabilità con la parola evento si intende ogni fatto che in seguito ad una prova può accadere oppure no. Qualche esempio:
  • l'apparizione di testa quando si lancia una moneta
  • l'apparizione di un asso quando si estrae una carta da un mazzo
    Ad ogni evento è associato un numero reale che è tanto maggiore quanto più è elevata la possibilità che si verifichi l'evento stesso: chiamiamo tale numero probabilità dell'evento.

    Eventi mutuamente esclusivi
    Si dicono eventi mutuamente escludentesi o incompatibili quegli eventi che non possono verificarsi simultaneamente in una data prova. Ad esempio l'apparizione simultanea di testa e di croce nel lancio di una moneta.

    Eventi condizionati o dipendenti ed indipendenti
    Si dice che l'evento A è dipendente dall'evento B se la probabilità dell'evento A dipende dal fatto che l'evento B si sia verificato o meno.
    Mentre diciamo che l'evento A è indipendente dall'evento B se la probabilità del verificarsi dell'evento A non dipende dal fatto che l'evento B si sia verificato o no.



    F
    Fitting
    Vedi Interpolazione


    Frequenza
    In una statistica si definisce "frequenza assoluta" di un evento il numero di prove favorevoli a tale evento; "frequenza relativa" il quoziente tra frequenza assoluta e numero totale di prove effettuate.



    G
    Grado di libertà
    In un insieme di osservazioni, i gradi di libertà rappresentano il numero di possibilità di variare liberamente che hanno i dati che compongono un campione.
    Ad esempio si considerino n numeri, ciascuno dei quali può assumere un valore qualsiasi (positivo e negativo) ed un vincolo, ad esempio la somma deve essere 100, si possono assegnare valori qualsiasi ai primi n-1 numeri, ma l'ultimo sarà vincolato dal fatto che la somma deve essere 100, quindi in questo caso, i gradi di libertà saranno n-1.

    Grafico
    In un esperimento, la quantità che si controlla o che volutamente si varia generalmente costituisce la variabile indipendente e viene posta, su di un grafico, sull'asse delle ascisse (asse orizzontale o asse x). La quantità che varia in corrispondenza delle variazioni della variabile indipendente, è detta variabile dipendente e viene rappresentata sull'asse delle ordinate (asse verticale o asse y). E' sempre bene specificare la natura della grandezza rappresentata, la relativa unità di misura e l'orientamento degli assi e, nel caso vi siano, rappresentare le incertezze associate ai dati. Nella figura accanto il punto P rappresenta graficamente il fatto che la misurazione della grandezza in corrispondenza del valore 3 ha dato come risultato 5.


    Grafico a barre
    Il grafico a barre è indicato per rappresentare i dati discreti, quelli che rappresentano un insieme finito di valori. Mostra singoli valori in un dato periodo oppure confronta degli elementi. In un grafico a barre, generalmente le categorie sono disposte sull'asse orizzontale ed i valori associati, anche in forma percentuale, sull'asse verticale.




    H
    Hazard ratio
    L’hazard ratio (HR) è il nome del rate ratio quando questo è ottenuto con il metodo del Cox.



    I
    Interpolazione
    Processo per cui, presa una serie di dati continui che abbiano una certa linearità in un grafico, si determina la retta che minimizza la distanza di ciascun punto dalla stessa. Tale retta è chiamata best fit.

    Intersezione di eventi
    Si definisce intersezione di due eventi A e B l'evento C che consiste nel verificarsi simultaneo degli eventi A e B.

    Intervallo di confidenza
    O intervallo di fiducia. Intervallo di valori che ha una specifica probabilità di contenere il parametro oggetto di stima. L'intervallo di confidenza più usato è quello che ha il 95% di probabilità di successo, viene anche detto intervallo di confidenza al 95% o 95% IC.

    Istogramma
    Grafico che rappresenta la distribuzione di una variabile numerica continua in modo tale che la percentuale di casi in ogni intervallo sia rappresentata dall'area corrispondente a quello stesso intervallo.
    L'asse delle ascisse riporta i valori della variabile considerata. I rettangoli possono avere base uguale o diversa e area (e non semplicemente l'altezza) proporzionale alla frequenza della categoria rappresentata.




    L
    Legge empirica del caso (legge dei grandi numeri)
    All'aumentare del numero di prove, la frequenza relativa dell'evento si avvicina sempre più alla probabilità teorica.

    Likelihood
    Verosimiglianza. Probabilità verosimile.

    Likelihood ratio
    Rapporto tra la likelihood di ottenere i valori della variabile dipendente quando è vera l'ipotesi nulla (cioè quando il modello non consente di predire la variabile dipendente), diviso per la likelihood calcolata sulla base dei dati del campione in esame.

    Log likelihood
    Logaritmo del likelihood

    Log-rank test
    E' definito dal seguente rapporto:
    (evento atteso - evento osservato)2
    somma dei prodotti degli eventi attesi nei due gruppi considerati




    M
    Media (aritmetica)
    Attraverso la media si possono "riassumere" le informazioni derivanti da singole misurazioni che siano inerenti ad una grandezza in esame.
    La media è definita come il rapporto tra la somma delle N misurazioni e il numero delle stesse (N). Indicando con la media e con x1 x2.. le singole misurazioni, si ha:
    = x1 + x2 + ... + xN       Le singole misure si devono considerare equivalenti l'una all'altra senza che ve ne siano alcune più importanti o privilegiate.
    N
    Ad esempio se le misurazioni sono 5, 2, 11, 7, 9 allora la media è = (5+2+11+7+9)/5 = 6.8


    Mediana
    Si definisce mediana di N dati xi ordinati in ordine crescente, il dato che occupa la posizione centrale se N è dispari, oppure la media aritmetica dei due dati centrali se N è pari.
    Ad esempio se i valori sono 5, 2, 11, 7, 9 (mettendoli in ordine crescente 2, 5, 7, 9, 11) la mediana è 7; se ai valori in esame si aggiunge 15 la mediana è 8.
    In pratica la mediana è quel valore per il quale esistono tanti valori inferiori quanti valori superiori allo stesso.

    Moda
    La moda è un valore medio che dipende esclusivamente dalle frequenze (fi) dei dati xi e non dai dati stessi.
    In un campione di dati, frutto ad esempio di diverse misure della stessa grandezza, si definisce moda il dato che corrisponde alla massima frequenza.
    In un grafico a barre la moda è costituita dal valore corrispondente alla colonna più alta. Ad esempio se i dati sono 2, 5, 7, 9, 11 e le rispettive frequenze sono 15, 16, 11, 36, 22 allora la moda è 9 (la sua frequenza, 36, corrisponde alla maggiore).

    Modello di Cox
    Nel metodo di Cox le caratteristiche di un soggetto fallito al tempo t vengono paragonate con tutti i soggetti sopravvissuti fino al quel tempo t.
    Il modello di Cox è noto anche come modello dei rischi proporzionali (Proportional Hazards Model).



    O
    Odds
    Si dice anche probabilità a favore ed è definito come il rapporto tra la probabilità p che si verifichi un certo evento e la probabilità complemetare 1 - p che non si verifichi: Odds = p / (1-p)

    Odds ratio
    Detto anche odds relativo. E' definito dal rapporto tra odds calcolati su campioni differenti.
    Ad esempio si sta studiando la probabilità che un certo alimento sia causa di una certa malattia. Si considerano due campioni di persone, uno che si nutre anche di quell'alimento e l'altro no (rispettivamente A e B). L'odds relativo è il rapporto tra l'odds di A (che si manifesti la malattia) e l'odds di B.
    L’odds ratio non è influenzato dalla numerosità dei campioni.

    Osservazione
    Le osservazioni sono i dati (le singole misurazioni) del fenomeno che si sta studiando e su cui verranno applicate le elaborazioni statistiche.



    P
    Popolazione
    In statistica il concetto di popolazione indica l'insieme completo di tutte le osservazioni possibili di un certo fenomeno. Tutte le elaborazioni statistiche dovrebbero poter disporre di una popolazione di dati, ma spesso ciò non avviene e si deve ricorrere ad un campione, cioè ad un insieme di dati parziale preso, secondo un certo criterio, entro una popolazione teorica o virtuale.

    Prescription bias
    Prescrizione di una terapia dettata dal pregiudizio che tale terapia sia la più efficacie.

    Prevalence-incidence bias
    In epidemiologia un particolare tipo di errore che si manifesta durante un sondaggio. Il prevalence-incidence bias consiste nel fatto che una certa associazione può non essere rilevata se i soggetti che la presentano hanno una mortalità precoce.

    Probabilità
    La probabilità di un evento A, P(A), è definita come il rapporto tra il numero N di casi "favorevoli" (cioè il manifestarsi di A) e il numero totale M di risultati ugualmente possibili e mutuamente escludentesi: P(A)=N/M
    Ad esempio nel lancio di un dado regolare la probabilità che esca un 3 è: P(3)=1/6 (può uscire una sola faccia con il tre e sei sono le possibili facce)
    La probabilità è un numero sempre compreso tra 0 e 1; è comune anche la misura in percentuale.

    Probabilità condizionata
    La probabilità che accada l'evento A, calcolata a condizione che l'evento B si sia verificato o meno, si dice probabilità condizionata e si denota con: P(A|B)



    R
    Range
    In una osservazione il range indica l'estensione numerica coperta dai dati a cui si riferisce; si calcola attraverso il minimo e il massimo (rispettivamente il valore più piccolo e il più grande tra le misurazioni): Range = (max - min).
    Se un range è elevato indica che il gruppo è molto distribuito, al contrario un range basso indica che i dati si concentrano su pochi valori e vicini fra loro.

    Range interquartile
    Si considerino le due parti in cui la mediana divide una distribuzione e si dividano nuovamente a metà tali parti. Il range interquartile identifica i valori compresi tra il il primo e il terzo quartile.

    Rate ratio
    Il rate ratio (RR) è il rapporto di due tassi di incidenza ed esprime l’associazione tra il determinante (ad esempio il sesso femminile) e l’evento.

    Recall bias
    Risposta erronea per convalidare l’ipotesi assunta.

    Regressione (lineare)
    E' un metodo analitico per ricavare la miglior linea retta che interpola una serie di punti sperimentali.

    Regressione gerarchica
    Metodo di selezione delle variabili da introdurre nell'equazione (regressione multipla), secondo cui si utilizza una gerarchia predeterminata che sia stabilita in base alla conoscenza dei fenomeni.

    Regressione multipla
    Come per la regressione lineare con la considerazione che per determinare la funzione vengono conivolte più varibili indipendenti e non solo una.

    Regressione verso la media
    Il fenomeno della "regressione verso la media" può essere così descritto: quando si selezionano individui perché presentano valori estremi di un certo parametro è quasi certo che ripetendo l’osservazione i secondi valori saranno meno estremi e più vicini alla media del parametro nella popolazione.

    Residuo
    In una regressione la deviazione di un singolo punto dalla retta; ovvero la differenza tra l'ordinata del punto P(x,y) e l'ordinata della regressione in x.



    S
    Scarto
    Relativo ad un valore di confronto, lo scarto è la differenza tra il valore considerato e quello di confronto. Ad esempio se il valore di confronto è la media (m), lo scarto dalla media dell'elemento considerato (a) è: s = a - m

    Stima statistica
    La stima statistica è un metodo che porta a generalizzare i risultati ottenuti sul campione all'intera popolazione.
    Rientrano nei problemi di stima la verifica delle ipotesi fatte sulla popolazione a partire da un campione e il calcolo dei livelli di confidenza dei parametri stimati su un campione.



    T
    Tasso di incidenza
    Il tasso di incidenza (incidence rate) rappresenta la densità con cui l'evento si verifica nella durata totale dell’osservazione. E' definito come il rapporto tra il numero di eventi e il numero di soggetti considerati nel periodo di osservazione.

    Test Spin e Snout
    I test Spin, sono test altamente specifici (Sp) e quindi permettono di confermare la malattia, i test Snout sono altamente sensibili (Sn) e quindi permettono di escludere la malattia.



    U
    Unione di eventi
    Si definisce unione di due eventi A e B l'evento C che consiste nel verificarsi dell'evento A o dell'evento B o di entrambe. La probabilità dell'evento C si scrive nel seguente modo: P (C) = P(A U B) = P(A + B) = P(A oppure B)



    V
    Variabile aleatoria
    Si dicono variabili aleatorie quelle grandezze che posso assumere nel corso di una prova un valore sconosciuto a priori.

    Variabile discreta e continua
    Le variabili discrete possono assumere solo un insieme finito di valori, mentre i valori possibili di quelle continue non possono essere enumerati in anticipo e riempiono "densamente" un intervallo.
    (La variabile che identifica il numero di persone in un teatro è discreta: il valore che può assumere è un numero intero compreso tra zero e la capienza del teatro, quindi può essere uno tra un numero finito di valori; quella che identifica il peso corporeo di una persona è continua: essa può assumere infiniti valori infatti anche tra 70 e 71 (Kg) ce ne sono infiniti 70.01, 70.02,... 70.001,... 70.011, 70.012,... 70.1,...).

    Varianza
    La media degli scarti dalla media elevati al quadrato.
    In una osservazione un'informazione sulla distribuzione dei dati è la varianza, definita anche come lo scarto quadratico medio o deviazione quadratica media: per ciascun dato si calcola lo scarto dalla media (cioè la differenza tra il dato stesso e la media aritmetica di tutti i dati), lo si eleva al quadrato, si calcola la media dei valori così ottenuti.

    Dove: è la varianza; x i il dato iesimo; la media aritmetica degli elementi x1 ... xN; N il numero di dati considerati.