Soit une série de valeurs \( S_{x, y} \) :
et ue nuage de points associé à ces valeurs.
La régression linéaire (par la méthode des moindre carrés)
Une régression linéaire par la méthode des moindres carrés est une méthode permettant de trouver une approximation affine d'un de points, avec résultat final d'obtenir des écarts à cette droite le plus petits possibles.
L'objectif est alors de déterminer les coefficients \(a\) et \(b\) de la droite d'équation :
$$R(x) = ax+b$$
Si jamais on s'en tenait à faire uniquement la somme des écarts relatifs à la droite d'approximation cherchée, on aurait un problème de cohérence car, certaines valeurs se trouvant en-dessous de la courbe, et d'autres se trouvant au-dessus s'annihilerait ensemble alors que leur écart respectif en valeur absolue est énorme.
Pour régler ce problème, on va plutôt prendre tous les carrés des écarts, pour pouvoir les comparer par la suite en terme de valeur positive (longueur réelle).
On notera alors cette écart absolu, comme le carré de l'écart :
Et cherchera à rendre la somme de tout ces écarts minimale lors de la détermination de la droite d'approximation affine.
$$\Longrightarrow \sum_{i=1}^n (e_i)^2 \ minimale$$
Au préalable, il faut définir une notion qui est la variance d'une serie de valeurs.
La variance
La variance est la somme des carrés des écarts à la moyenne de tout vecteur de données \( X \).
Généralement, on la voit écrite sous cette forme :
$$var(X) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \bar{x} )^2 \right] \qquad (variance \ pour \ les \ x_i ) $$
(avec \( X = \bigl\{ x_1, x_2, x_3 ... \hspace{0.03em} x_n \bigr\} \) )
Par ailleurs, elle peut aussi apparaître sous une forme différente :
$$var(X) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i)^2 \right] - \hspace{0.03em}\bar{x}^2 \qquad (variance^* \ pour \ les \ x_i ) $$
Le point moyen est sur la droite
La seule hypothèse que nous avons est que le point moyen \(G(\bar{x}; \bar{y})\) appartient à la droite d'approximation affine recherchée. À la suite de nombreux calculs théoriques, on obtient la méthode suivante de détermination des coefficients.
Calcul de la pente : \(a\)
La méthode consiste à calculer d'abord \(a\) par :
$$ a = \frac{covar(X, Y)}{var(X)}$$
$$ avec \enspace \left \{ \begin{align*} var(X) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i)^2 \right] - \hspace{0.03em}\bar{x}^2 \qquad (variance^*) \\ covar(X, Y) = \frac{1}{n}\left[ \sum_{i=1}^n (x_i y_i) \right] - \hspace{0.03em}\bar{x}\bar{y} \qquad (covariance) \end{align*} \right \} $$
$$ et \enspace \left \{ \begin{align*} \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \\ \bar{y} = \frac{1}{n} \sum_{i=1}^n y_i \end{align*} \right \} \qquad (moyennes) $$
Calcul de l'ordonnée à l'origine : \(b\)
Après avoir déterminé la valeur de \(a\), on peut déterminer \(b\) car nous connaissons un point qui est le point \(G(\bar{x}; \bar{y})\), alors :
et alors :
$$b = \bar{y} - a \bar{x} $$
Expression générale de la droite d'approximation affine
On cherchait à trouver l'expression de la droite de régression affine avec les coefficients \(a\) et \(b\) telle que :
Alors, on peut exprimer la formule géénrale d'une approximation affine d'un jeu de données \( S_{x,y} = \Biggl \{ \Bigl\{ x_i; y_i\Bigr\}_{i \hspace{0.05em}\in \hspace{0.05em} \mathbb{N}} \Biggr \} \) par :
$$R(x) = \frac{covar(X,Y)}{var(X)} x + \Bigl[ \bar{y} - a \bar{x} \Bigr] $$