Recent Changes · Search:

Dispense


Navigation Tips - Dritte


PmWiki

pmwiki.org

edit SideBar

RegressioneLineare

< Teorema del limite centrale | Indice | Metodi di simulazione >


Supponiamo di aver eseguito un esperimento in funzione di un parametro noto con grande precisione, ad esempio l'altezza di crescita h di un cristallo che viene estratto lentissimamente dal materiale fuso in un forno. Vogliamo controllare se tutto sta funzionando a dovere, ci aspettiamo che h(t) cresca linearmente nel tempo secondo la legge

{$(1) \quad\quad h(t) = h_0 + k t $}

I dati che ricaviamo sono una serie di n coppie di valori {ti,hi } soggetti ad incertezze sperimentali (solo su h, se quelle su t sono trascurabili). Di conseguenza i dati non giacciono sulla retta (1), devono discostarsi da essa con deviazione standard pari all'incertezza. Per semplicità supposiamo di avere un'unica deviazione standard eh per tutti i valori di h. Vediamo come trovare la miglio retta che passa attraverso i dati e cerchiamo di capire se la retta è un buon modello, o se c'è anche una deviazione sistematica dall'equazione (1).

Per il momento limitiamoci a fornire una ricetta per calcolare h0 e k, ed un criterio numerico per valutare la bontà del modello lineare. Li giustificheremo più avanti. La ricetta consiste nel calcolare una serie di valori medi con i dati sperimentali, che indicheremo con le parentesi angolari. A esempio

{$\left\langle t\right\rangle = \frac1 N \sum_{i=1}^N t_i, \quad\quad \left\langle th\right\rangle = \frac1{N}\sum_{i=1}^N t_ih_i, \cdots$}.

Il coefficiente k della retta che rappresenta i dati è dato da

{$ (2) \quad\quad k= \frac{\left\langle th \right\rangle - \left\langle t\right\rangle\left\langle h\right\rangle}{\left\langle t^2\right\rangle - \left\langle t\right\rangle^2}. $}

mentre il termine noto è dato da

{$ (3) \quad\quad h_0= \frac{\left\langle t^2 \right\rangle\left\langle h\right\rangle - \left\langle t\right\rangle\left\langle th\right\rangle}{\left\langle t^2\right\rangle - \left\langle t\right\rangle^2}. $}

Infine la bontà della retta come rappresentazione dei dati è data dal parametro r, che si calcola con

{$ (4) \quad\quad r= \frac{\left\langle t- \left\langle t\right\rangle\right\rangle\left\langle h - \left\langle h\right\rangle\right\rangle}{\sqrt{\left( \left\langle t^2\right\rangle - \left\langle t\right\rangle^2\right) \left( \left\langle h^2\right\rangle - \left\langle h\right\rangle^2\right)}}. $}

Il valore di r o di r2 dovrebbe permettere di valutare, ignorando la stima degli errori su h, se i dati giacciono su una retta oppue no.

r2 vicino ad 1 indica forte correlazione lineare.

Ma per capire bene il significato (o la mancanza di significato) di questo parametro vedere Wikipedia da cui sono prese le due figure a lato

Nella figura si chiama p (coefficiente di Pearson) ciò che noi abbiamo chiamato r

La fila centrale mostra dati disposti senza dubbio secondo rette. Perchè il caso al centro non cita un valore di p?

Nei casi dell'ultima fila p=0, ma per un perfetto ramo di parabola non simmetrico, che si discosta nettamente da un andamento rettilineo si otterrebbe p2 >0.

La valutazione statistica non può prescindere dalla stima degli errori. Quando le incertezze sono così grandi che ci si accontenta di stabilire se il cristallo cresce oppure no, come per i cinque dati arancioni del terzo grafico, il coefficiente p può essere d'aiuto. Quando le incertezze sono abbastanza picole da consentire di distinguere deviazioni sistematiche dall'andamento lineare, come nel primo grafico dell'ultima fila, r (p) non sono più molto utili e ci sono metodi migliori.

In octave i parametri h0 e k, supponendo di avere due vettori t ed h, si calcolano con

p=polyfit(t,h,1) # 1 indica polinomio di grado 1, retta; restituisce p=[k h0]


< Teorema del limite centrale | Indice | Metodi di simulazione >

Edit - History - Print - PDF - Recent Changes - Search
Page last modified on November 19, 2012, at 05:11 PM