REGRESSIONE LINEARE

La regressione è quella tecnica statistica utilizzata per studiare le relazioni che intercorrono tra due o più caratteri (variabili) statistici. Analizzeremo, quindi, la relazione tra due sole variabili X e Y (regressione lineare semplice). Esiste però anche il caso di relazione tra più di due variabili (regressione lineare multipla).

L'indice di correlazione r è un indice che ci serve per valutare l'iterdipendenza tra due caratteri: X e Y.  Varia tra -1 e 1 , 
dove +1 corrisponde alla perfetta correlazione lineare positiva, 0 corrisponde a un'assenza di correlazione lineare e -1 corrisponde alla perfetta correlazione lineare negativa, in particolare indica se sussiste un legame di proporzionalità diretta o inversa tra le due variabili considerate.



Se abbiamo due variabili e rappresentiamo tutte le osservazioni (xi, yi), vediamo se è possibile una relazione matematica tra le due varibili. A tale scopo, possiamo fittare dei modelli matematici ai dati. Il modello più semplice di relazione, è il legame lineare rappresentabile con una retta

Se immaginiamo di rappresentare i dati osservati delle variabili X e Y su piano cartesiano, otteniamo una nuvola di punti, che può assumere diverse forme.


Lo scopo della regressione lineare è determinare la retta che minimizza le distanze tra i valori teorici della retta con i valori realmente osservati.
 In generale si indica la retta di regressione nel seguente modo:
una variabile X assume valori determinati e si cerca la relazione che lega la seconda variabile Y alla prima. 
L’obiettivo è minimizzare la distanza tra i valori osservati y e i valori teorici y* , ossia quelle che si otterrebbero nel caso in cui tra le due variabili ci fosse relazione lineare. La funzione da minimizzare è:



Deriviamo l'equazione per α e per β e eguagliamo i risultati a zero :

Facilitiamo le soluzioni, applicando delle sostituzioni:


Sviluppando il sistema, otteniamo i risultati:
Sostituendo questi due parametri nell’equazione della retta, si ottiene la seguente retta di regressione:

Il punto che ha come coordinate le medie delle due variabili viene anche detto baricentro della nuvola dei punti. Quindi, la prima proprietà di questa retta è che passa per il baricentro dei dati.

Una seconda proprietà è che la media dei valori teorici coincide con la media dei valori realmente osservati :

L’R² o indice di accostamento del modello ai dati, è una misura della bontà dell’adattamento (in inglese fitting) della regressione lineare stimata ai dati osservati.  è dato dal rapporto tra la varianza di regressione e la varianza totale. 
L’R² sarà un numero compreso tra 0 e 1. In particolare:
  • R² sarà pari a 1 quando tutti i punti sono sulla retta (errori nulli)
  • R² sarà pari a 0 quando la varianza della regressione è pari a 0, cioè quando le yi teoriche coincidono sulla media, cioè quando la retta è orizzontale.



Commenti

Post popolari in questo blog