Recent Changes · Search:

Dispense


Navigation Tips - Dritte


PmWiki

pmwiki.org

edit SideBar

FitLineareCorrelazione

< Bontà del fit | Indice | Probabilità del Chi quadro >


Coefficiente di correlazione lineare Come abbiamo già visto esiste un test diretto per stabilire se una serie di misure di una variabile dipendente {$\{y_i\}$}, ottenute in funzione di una variabile indipendente {$x$}, obbediscono ad una relazione lineare {$y=a+bx$}. Ci stiamo domandando se le coppie di valori {$\{x_i,y_i\}$} soddisfano ad una relazione lineare tenendo in considerazione la loro distribuzione, ma senza ricorrere a misure indipendenti dell'errore sulle due variabili.

A questo scopo si può calcolare il coefficiente di correlazione lineare, {$r$}, che è dato dal rapporto tra la covarianza:

{$ \sigma_{xy}^2=\frac 1 N \sum_{i=1}^N (x_i-\bar x)(y_i-\bar y), $}

e la radice del prodotto delle varianze:

{$ \sigma_x^2=\frac 1 N \sum_{i=1}^N (x_i-\bar x)^2, $}

{$ \sigma_y^2=\frac 1 N \sum_{i=1}^N (y_i-\bar y)^2, $}

ovvero dal coefficiente :

{$ (1) \qquad\qquad r= \frac {\sigma_{xy}^2} {\sqrt{\sigma_x^2 \sigma_y^2}} $}

Si può intuire che questo rapporto tende ad 1 se si ha una forte correlazione positiva tra {$x$} ed {$y$}, ossia se {$y$} cresce assieme ad {$x$}, mentre tende a -1 se la correlazione è negativa, ossia se {$y$} decresce al crescere di {$x$}. Se tra le due variabili non c'è una semplice relazione lineare il coefficiente {$r$} si allontanera in valore assoluto dall'unità ed, in particolare, se ci fosse una perfetta scorrelazione, ossia una totale indipendenza statistica tra le due variabili, {$r$} dovrà tendere a zero. Si noti infine che abbiamo adoperato una definizione di varianza e covarianza imprecisa, con {$N$} a denominatore anzichè la forma finita più corretta, con {$N-1$}, ma, in virtù del rapporto adimensionale che definisce la Eq. (1), ciò non ha alcun effetto pratico.

Una derivazione dell'equazione 1 è discussa qui

La misura di una legge fisica lineare, affetta da errori casuali sulla variabile indipendente fornisce coppie di valori per i quali il fattore r, definito dall'equazione (1), non è esattamente ±1. Come si quantifica allora la probabilità che il valore ottenuto sia compatibile con una legge lineare? La probabilità differenziale (pdf) di ottenere un valore di {$r$} pari a {$z$} con {$\nu$} gradi di libertà, se i dati sono completamente scorrelati (ossia se non obbediscono ad una relazione lineare) è data da:

{$ (2) \qquad\qquad p_r(z;\nu) = \frac 1 {\sqrt \pi} \frac {\Gamma(\frac {\nu+1} 2)}{\Gamma(\frac \nu 2)} (1-z^2)^{\frac \nu 2 -1} $}

(per una derivazione di questa espressione vedere ad es. su mathworld)

È più utile calcolare la probabilità cumulativa di ottenere un valore uguale o maggiore di {$z$} da dati scorrelati:

{$ (3) \qquad\qquad P_r(z;\nu) = \int_z^1 p_r(x;\nu) dx $}

che corrisponde alla probabilità che i dati ottenuti siano legati da una relazione lineare. L'integrale da {$-1$} a {$z$}, ossia il complemento ad {$1$} di {$P_r(z;\nu)$} fornisce la probabilità che i dati non siano legati da una relazione lineare. Richiedere che il valore di questo integrale sia pari a circa {$0.68$} ha quindi la stessa significatività statistica che chiedere che uno scarto normale sia entro la distanza di una deviazione standard dal suo valore medio. Per richiedere due scarti normali occorre che il valore sia {$0.95$}.

Nota bene: se la retta è parallela all'asse {$x$} il test rivela assenza di correlazione lineare.

Fig. 1 Probabilità cumulativa {$P_r(r,\nu)$}


In matlab si può scrivere facilmente una function che genera {$p_r$}, Eq. (2):

function p=prpdf(z,nu)

p=1/sqrt(pi)*exp(gammaln((nu+1)/2)-gammaln(nu/2))*(1-x.^2).^(nu/2-1);

in cui si è usata la funzione gammaln che calcola il logaritmo naturale di {$\Gamma$} senza calcolare esplicitamente quest'ultima, evitando così problemi di overflow (generazione di numeri maggiori del massimo numero reale esprimibile nel calcolatore). Analogamente si può ottenerne la {$cdf$}, Eq. (3), per mezzo di integrazione numerica diretta, o, meglio, utilizzando quad (basata sul metodo di Simpson in quadratura adattiva, v. help):

function p=prcdf(z,nu)

tol=zeros(1,0); % empty matrix

trace=tol; %empty matrix

p=quad(@prpdf,z,1,tol,trace,nu);


< Bontà del fit | Indice | Probabilità del Chi quadro >

Edit - History - Print - PDF - Recent Changes - Search
Page last modified on November 18, 2012, at 09:15 AM