7.15 Regression linéaire

7.15.1 Hypothèse

On s'intéresse à une grandeur physique \(\mathcal{Y}\) qui est causalement fonction de \(\mathcal{X}\).
On dispose d'un échantillon correspondant à une série de \(n\) mesures retournant les couples \(Ech=\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \).
On suppose tout d'abord que les abscisses \(\left\{ x_{1},...,x_{n}\right\} \) sont déterminées, classées par ordre croissant: on les appelle variables explicatives.
Ceci revient à supposer que:
\[\sigma_{X}=0\]
A chaque abscisse \(x_{i}\), on associe donc une v.a. \(Y_{i}=\left(Y|X_{i}=x_{i}\right)\).

7.15.2 Modèle linéaire simple

On envisage une loi linéaire simple (i.e. \(Y\) ne dépend que d'une seule variable \(X\)) de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}}\]
La droite \(\left(D\right)\) d'équation:
\[Y=a_{0}+a_{1}X\]
est appelée droite théorique du modèle linéaire.
On suppose que:

7.15.3 Notations

On s'intéresse à \(n\) mesures retournant \(\left[\left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right]\) où:
On pose:
\[\boxed{\left\{ \begin{array}{l}\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\\overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}\\s_{x}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}\\s_{y}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}\\s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)\end{array}\right.}\]
et:
\[\boxed{\left\{ \begin{array}{l}r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}\\R=r^{2}\end{array}\right.}\]
en ayant omis l'indice \(n\) dans les moyennes géométriques et les écarts-type corrigés.

7.15.4 Estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) de \(a_{1}\) et \(a_{0}\) par la méthode des moindres carrés ordinaires

Si, à partir des réalisations \(\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \), on dispose d'estimateurs:
la droite \(\left(D\right)\) d'équation:
\[\hat{Y}=\hat{a}_{0}+\hat{a}_{1}X\]
est la droite de régression linéaire du modèle.
On introduit alors:
\[\boxed{Y_{i}=\hat{a}_{0}+\hat{a}_{1}x_{i}+\hat{\varepsilon}_{i}}\]
fonctions de \(\left(X_{1},Y_{1}\right)\),...,\(\left(X_{n},Y_{1n}\right)\), qui seront donc connus à partir de l'échantillonnage considéré, une fois choisie une méthode d'estimation.

7.15.5 Mise en oeuvre de la méthode des moindres carrés ordinaire

La méthode des moindres carrés ordinaires retourne donc des estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) minimisant la fonction:
\[L_{2}:\left(a_{0},a_{1}\right)\longmapsto\sum_{i=1}^{n}\varepsilon_{i}^{2}=\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés ordinaires (MCO) valident nécessairement les conditions:
\[\left\{ \begin{array}{l}\frac{\partial L}{\partial a_{0}}=-2\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\frac{\partial L}{\partial a_{1}}=-2\sum_{i=1}^{n}x_{i}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
ce qui conduit à:
\[\boxed{\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)\left(y_{i}-\overline{y}_{n}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)^{2}}}\]
On tire également la relation:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
ce qui détermine \(\hat{a}_{0}\)

7.15.6 Espérance de \(\hat{a}_{1}\) et \(\hat{a}_{0}\)

Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés sont donc bien des estimateurs linéaires sans biais:
\[\boxed{\left\{ \begin{array}{l}E\left(\hat{a}_{1}\right)=a_{1}\\E\left(\hat{a}_{0}\right)=a_{0}\end{array}\right.}\]

7.15.7 Variance de \(\hat{a}_{1}\) et \(\hat{a}_{0}\)

On se place dans l'hypothèse où \(\sigma^{2}\) est connue.
Les estimateurs \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\) donnés par la méthode des moindres carrés sont donnés par:
\[\boxed{\left\{ \begin{array}{l}V\left(\hat{a}_{1}\right)=\frac{\sigma^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{a}_{0}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\right)\end{array}\right.}\]
où:
\[V\left(\varepsilon_{i}\right)=\sigma^{2}\]
est la variance des erreurs.

7.15.8 Estimateur \(\hat{\sigma}^{2}\) de \(\sigma^{2}\), \(\hat{V}\left(\hat{a}_{1}\right)\) de \(\hat{a}_{1}\)

On se place dans l'hypothèse où \(\sigma^{2}\) est inconnue: faute de mieux, on va alors chercher à l'estimer à partir de l'échantillon.
Introduisons les résidus:
\[\varepsilon_{i,R}=y_{i}-\hat{y}_{i}\]
On rappelle que la variance des erreurs (notamment indépendantes et centrées) est définie par:
\[\sigma^{2}=E\left(\varepsilon_{i}^{2}\right)\]
et supposée indépendante de \(i\).
Alors:
\[\boxed{\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}\]
est un estimateur sans biais et convergent de la variance des erreurs \(\sigma^{2}\):
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On en déduit un estimateur sans biais noté \(\hat{V}\left(\hat{A}_{1}\right)\) de la variance de la pente \(\hat{A}_{1}\) de la droite de régression avec estimation de la variance des erreurs:
\[\boxed{\hat{V}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\frac{1}{n-2}\frac{\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
en gardant à l'esprit que les résidus possèdent \(k=n-2\) degrés de liberté.

7.15.9 Erreur expliquée, résiduelle et totale

On vérifie que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
Sur l'ensemble de l'échantillon, on appelle:

7.15.10 Contraintes liant les erreurs résiduelles

Remarquons que les variables \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont des v.a. d'espérance nulle qui ne sont pas indépendantes car les équations déterminant les estimations \(\hat{a}_{1}\) et \(\hat{a}_{0}\) exigent:
\[\left\{ \begin{array}{l}\frac{\partial L_{2}}{\partial a_{0}}=-2\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=0\\\frac{\partial L_{2}}{\partial a_{1}}=-2\sum_{i=1}^{n}x_{i}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=0\end{array}\right.\]
ce qui entraîne:
\[\boxed{\left\{ \begin{array}{l}\sum_{i=1}^{n}\varepsilon_{i,R}=0\\\sum_{i=1}^{n}x_{i}\varepsilon_{i,R}=0\end{array}\right.}\]
Donc seules \(n-2\) v.a. parmi \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont indépendantes.
Autrement dit, elles ont \(k=n-2\) degrés de liberté.

7.15.11 Lien entre SCR, SCE et SCT

On a la relation remarquable:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.

7.15.12 Coefficient de corrélation empirique

On appelle coefficient de corrélation empirique associé à l'échantillon:
\[\boxed{r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}}\]
Interprétation:
Considérons que:
Remarquons alors que:
\(r\) se met sous la forme:
\[r=\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)\left(y_{i}-\hat{\mu}_{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\hat{\mu}_{Y}\right)^{2}}}=\frac{cov\left(XY\right)}{\sqrt{V\left(X\right)\sqrt{V\left(Y\right)}}}\]
où:
Remarque importante:
On a:
\[\boxed{-1\leq r\leq1}\]

7.15.13 Coefficient de détermination

On appelle coefficient de détermination le rapport:
\[\boxed{R=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}}\]
\(R\) appartient à \(\left[0,1\right]\).
Il est donc d'autant plus proche de \(1\) que l'erreur expliquée est grande devant l'erreur résiduelle.
Expression de \(R\) en fonction de corrélation empirique r:
On a:
\[\boxed{R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}\]
La seule donnée de \(R\) ne permet pas d'affirmer que l'échantillon approche ou non la droite des moindres carrés.
A cet égard, c'est un mauvais indicateur.
En revanche, quand on examine un graphe, si l'échantillon approche la droite des moindres carrés, il n'est pas faux d'affirmer que \(R\) s'approche d'autant plus de \(1\) que les échantillons en sont proches.
Il est donc utile de développer d'autres arguments pour valider le modèle linéaire proposé.

7.15.14 Cas où les variables explicatives sont fluctuantes

En pratique, les variables explicatives en abscisse sont elles-même le résultat de mesures.
On peut tenter de se ramener à un modèle linéaire simple de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}}\]
où:
On l'appellera simplement erreur sur la mesure \(i\).
On estimera \(V\left(\varepsilon_{i}\right)\) par:
\[\boxed{\widehat{V}\left(\varepsilon_{i}\right)=\hat{\sigma}^{2}=\hat{a}_{1}^{2}\sigma_{X}^{2}+\sigma_{Y}^{2}}\]
Les estimateurs de la droite de régresion sont inchangés:
\[\boxed{\left\{ \begin{array}{l}\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}\\\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}\end{array}\right.}\]
En revanche la variance de ces estimateurs sera estimée, si \(\sigma_{X}\) est suffisamment faible, par:
\[\boxed{\left\{ \begin{array}{l}\hat{V}\left(\hat{a}_{1}\right)=\frac{\hat{\sigma}^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\hat{\sigma}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\\hat{V}\left(\hat{a}_{0}\right)=\hat{\sigma}^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)\end{array}\right.}\]
qui se déduisent donc du cas où les abscisses sont déterminées par la substitution:
\[\boxed{\sigma^{2}\longleftarrow\hat{\sigma}^{2}=\sigma_{Y}^{2}+\hat{a}_{1}^{2}\sigma_{X}^{2}}\]
Remarque:
Pour chaque mesure \(i\), on peut a priori représenter graphiquement cette erreur:
Ce ne sont pas des représentations a priori équivalentes et on privilégiera la première.