7.15 Regression linéaire
7.15.1 Hypothèse
On s'intéresse à une grandeur physique \(\mathcal{Y}\) qui est causalement fonction de \(\mathcal{X}\).
On dispose d'un échantillon correspondant à une série de \(n\) mesures retournant les couples \(Ech=\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \).
- Les abscisses sont alors interprétées comme des réalisations des v.a. \(X_{1},..,X_{n}\) supposées indépendantes et de même distribution centrée \(f_{X_{c}}\), et donc de même écart-type \(\sigma_{X}\)
- Les ordonnées sont alors interprétées comme des réalisations des v.a. \(Y_{1},..,Y_{n}\) que l'on va préciser
On suppose tout d'abord que les abscisses \(\left\{ x_{1},...,x_{n}\right\} \) sont déterminées, classées par ordre croissant: on les appelle variables explicatives.
Ceci revient à supposer que:
\[\sigma_{X}=0\]
A chaque abscisse \(x_{i}\), on associe donc une v.a. \(Y_{i}=\left(Y|X_{i}=x_{i}\right)\).
7.15.2 Modèle linéaire simple
On envisage une loi linéaire simple (i.e. \(Y\) ne dépend que d'une seule variable \(X\)) de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}}\]
- \(a_{0}\) et \(a_{1}\) sont \(2\) paramètres réels non aléatoires mais non observables, que l'on va chercher à estimer
- \(\varepsilon_{i}\) est une v.a appelée erreur: c'est l'écart non observable au modèle linéaire théorique sur la mesure de \(Y_{i}\)
La droite \(\left(D\right)\) d'équation:
\[Y=a_{0}+a_{1}X\]
est appelée droite théorique du modèle linéaire.
On suppose que:
- les erreurs \(\varepsilon_{1},..,\varepsilon_{n}\) sont:
- centrées i.e. \(E\left(\varepsilon_{i}\right)=0\)
- de même variance \(V\left(\varepsilon_{i}\right)=\sigma^{2}\) (homoscédascité)
- indépendantes
- décorrelées de \(x_{i}\)
7.15.3 Notations
On s'intéresse à \(n\) mesures retournant \(\left[\left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right]\) où:
- \(x_{i}\) est déterminée
- \(y_{i}\) est une réalisation de la v.a. \(Y_{i}\) d'écart-type \(\sigma_{Y}\)
On pose:
\[\boxed{\left\{ \begin{array}{l}\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\\overline{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}\\s_{x}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}\\s_{y}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}\\s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)\end{array}\right.}\]
et:
\[\boxed{\left\{ \begin{array}{l}r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}\\R=r^{2}\end{array}\right.}\]
en ayant omis l'indice \(n\) dans les moyennes géométriques et les écarts-type corrigés.
7.15.4 Estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) de \(a_{1}\) et \(a_{0}\) par la méthode des moindres carrés ordinaires
Si, à partir des réalisations \(\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \), on dispose d'estimateurs:
- \(\hat{a}_{1}\) du coefficient directeur \(a_{1}\)
- \(\hat{a}_{0}\) de l'ordonnée à l'origine \(a_{0}\)
la droite \(\left(D\right)\) d'équation:
\[\hat{Y}=\hat{a}_{0}+\hat{a}_{1}X\]
est la droite de régression linéaire du modèle.
On introduit alors:
\[\boxed{Y_{i}=\hat{a}_{0}+\hat{a}_{1}x_{i}+\hat{\varepsilon}_{i}}\]
- \(\hat{a}_{0}\) et \(\hat{a}_{1}\) sont \(2\) estimateurs
- \(\hat{\varepsilon}_{i}\) est une v.a appelée résidu
fonctions de \(\left(X_{1},Y_{1}\right)\),...,\(\left(X_{n},Y_{1n}\right)\), qui seront donc connus à partir de l'échantillonnage considéré, une fois choisie une méthode d'estimation.
7.15.5 Mise en oeuvre de la méthode des moindres carrés ordinaire
La méthode des moindres carrés ordinaires retourne donc des estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) minimisant la fonction:
\[L_{2}:\left(a_{0},a_{1}\right)\longmapsto\sum_{i=1}^{n}\varepsilon_{i}^{2}=\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés ordinaires (MCO) valident nécessairement les conditions:
\[\left\{ \begin{array}{l}\frac{\partial L}{\partial a_{0}}=-2\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\frac{\partial L}{\partial a_{1}}=-2\sum_{i=1}^{n}x_{i}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
ce qui conduit à:
\[\boxed{\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)\left(y_{i}-\overline{y}_{n}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)^{2}}}\]
On tire également la relation:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
ce qui détermine \(\hat{a}_{0}\)
7.15.6 Espérance de \(\hat{a}_{1}\) et \(\hat{a}_{0}\)
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés sont donc bien des estimateurs linéaires sans biais:
\[\boxed{\left\{ \begin{array}{l}E\left(\hat{a}_{1}\right)=a_{1}\\E\left(\hat{a}_{0}\right)=a_{0}\end{array}\right.}\]
7.15.7 Variance de \(\hat{a}_{1}\) et \(\hat{a}_{0}\)
On se place dans l'hypothèse où \(\sigma^{2}\) est connue.
Les estimateurs \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\) donnés par la méthode des moindres carrés sont donnés par:
\[\boxed{\left\{ \begin{array}{l}V\left(\hat{a}_{1}\right)=\frac{\sigma^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{a}_{0}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\right)\end{array}\right.}\]
où:
\[V\left(\varepsilon_{i}\right)=\sigma^{2}\]
est la variance des erreurs.
7.15.8 Estimateur \(\hat{\sigma}^{2}\) de \(\sigma^{2}\), \(\hat{V}\left(\hat{a}_{1}\right)\) de \(\hat{a}_{1}\)
On se place dans l'hypothèse où \(\sigma^{2}\) est inconnue: faute de mieux, on va alors chercher à l'estimer à partir de l'échantillon.
Introduisons les résidus:
\[\varepsilon_{i,R}=y_{i}-\hat{y}_{i}\]
On rappelle que la variance des erreurs (notamment indépendantes et centrées) est définie par:
\[\sigma^{2}=E\left(\varepsilon_{i}^{2}\right)\]
et supposée indépendante de \(i\).
Alors:
\[\boxed{\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}\]
est un estimateur sans biais et convergent de la variance des erreurs \(\sigma^{2}\):
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On en déduit un estimateur sans biais noté \(\hat{V}\left(\hat{A}_{1}\right)\) de la variance de la pente \(\hat{A}_{1}\) de la droite de régression avec estimation de la variance des erreurs:
\[\boxed{\hat{V}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\frac{1}{n-2}\frac{\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
en gardant à l'esprit que les résidus possèdent \(k=n-2\) degrés de liberté.
7.15.9 Erreur expliquée, résiduelle et totale
On vérifie que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
Sur l'ensemble de l'échantillon, on appelle:
- erreur expliquée:\[\boxed{\varepsilon_{i,E}=\hat{y}_{i}-\bar{y}}\]et introduit la somme des carrés expliqués:\[\boxed{SCE=\sum_{i=1}^{n}\varepsilon_{i,E}^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}\]
- erreur résiduelle (ou résidu):\[\boxed{\varepsilon_{i,R}=y_{i}-\hat{y}_{i}}\]et introduit la somme des carrés résiduels:\[\boxed{SCR=\sum_{i=1}^{n}\varepsilon_{i,R}^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}\]
- erreur totale:\[\boxed{\varepsilon_{i,T}=\varepsilon_{i,R}+\varepsilon_{i,E}=y_{i}-\bar{y}}\]et introduit la somme totale des carrés:\[\boxed{STC=\sum_{i=1}^{n}\varepsilon_{i,T}^{2}=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}\]
7.15.10 Contraintes liant les erreurs résiduelles
Remarquons que les variables \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont des v.a. d'espérance nulle qui ne sont pas indépendantes car les équations déterminant les estimations \(\hat{a}_{1}\) et \(\hat{a}_{0}\) exigent:
\[\left\{ \begin{array}{l}\frac{\partial L_{2}}{\partial a_{0}}=-2\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=0\\\frac{\partial L_{2}}{\partial a_{1}}=-2\sum_{i=1}^{n}x_{i}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=0\end{array}\right.\]
ce qui entraîne:
\[\boxed{\left\{ \begin{array}{l}\sum_{i=1}^{n}\varepsilon_{i,R}=0\\\sum_{i=1}^{n}x_{i}\varepsilon_{i,R}=0\end{array}\right.}\]
Donc seules \(n-2\) v.a. parmi \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont indépendantes.
Autrement dit, elles ont \(k=n-2\) degrés de liberté.
7.15.11 Lien entre SCR, SCE et SCT
On a la relation remarquable:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.
7.15.12 Coefficient de corrélation empirique
On appelle coefficient de corrélation empirique associé à l'échantillon:
\[\boxed{r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}}\]
Interprétation:
Considérons que:
- \(\left\{ x_{1},...,x_{n}\right\} \) sont \(n\) réalisations d'une v.a. \(X\) d'espérance \(\mu_{X}\) de même probabilité
- \(\left\{ y_{1},...,y_{n}\right\} \) sont \(n\) réalisations d'une v.a. \(Y\) d'espérance \(\mu_{Y}\) de même probabilité
Remarquons alors que:
- \(\hat{\mu}_{X}=\overline{x}\) est un estimateur sans biais de \(\mu_{X}\)
- \(\hat{\mu}_{Y}=\overline{y}\) est un estimateur sans biais de \(\mu_{Y}\)
\(r\) se met sous la forme:
\[r=\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)\left(y_{i}-\hat{\mu}_{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\hat{\mu}_{Y}\right)^{2}}}=\frac{cov\left(XY\right)}{\sqrt{V\left(X\right)\sqrt{V\left(Y\right)}}}\]
où:
- \(cov\left(XY\right)=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)\) est la covariance empirique des v.a. \(X\) et \(Y\)
- \(V\left(X\right)=\hat{\sigma}_{X}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}\) est la variance empirique de la v.a. \(X\)
- \(V\left(Y\right)=\hat{\sigma}_{Y}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}\) est la variance empirique de la v.a. \(Y\)
Remarque importante:
On a:
\[\boxed{-1\leq r\leq1}\]
7.15.13 Coefficient de détermination
On appelle coefficient de détermination le rapport:
\[\boxed{R=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}}\]
\(R\) appartient à \(\left[0,1\right]\).
Il est donc d'autant plus proche de \(1\) que l'erreur expliquée est grande devant l'erreur résiduelle.
- à la limite où \(R\) tend vers \(1\), la régression linéaire rend compte de la position des ordonnées, à abscisse données, à de faibles erreurs résiduelles près: la droite de régression traduit bien une relation affine
- à la limite où \(R\) tend vers \(0\), les erreurs résiduelles rendent compte de façon principale de la position des ordonnées: la droite de regression perd de son sens, et on pense plutôt à une répartition aléatoire de points autour de la moyenne \(\bar{y}\)
Expression de \(R\) en fonction de corrélation empirique r:
On a:
\[\boxed{R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}\]
La seule donnée de \(R\) ne permet pas d'affirmer que l'échantillon approche ou non la droite des moindres carrés.
A cet égard, c'est un mauvais indicateur.
En revanche, quand on examine un graphe, si l'échantillon approche la droite des moindres carrés, il n'est pas faux d'affirmer que \(R\) s'approche d'autant plus de \(1\) que les échantillons en sont proches.
Il est donc utile de développer d'autres arguments pour valider le modèle linéaire proposé.
7.15.14 Cas où les variables explicatives sont fluctuantes
En pratique, les variables explicatives en abscisse sont elles-même le résultat de mesures.
On peut tenter de se ramener à un modèle linéaire simple de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}}\]
où:
- \(x_{i}=\mu_{X_{i}}=E\left(X_{i}\right)\) est supposée déterminée (ou estimée)
- \(\varepsilon_{i}\) est une v.a. centrée, dont la variance \(V\left(\varepsilon_{i}\right)=\sigma^{2}=a_{1}^{2}\sigma_{X}^{2}+\sigma_{Y}^{2}\) indépendante de \(i\)
On l'appellera simplement erreur sur la mesure \(i\).
On estimera \(V\left(\varepsilon_{i}\right)\) par:
\[\boxed{\widehat{V}\left(\varepsilon_{i}\right)=\hat{\sigma}^{2}=\hat{a}_{1}^{2}\sigma_{X}^{2}+\sigma_{Y}^{2}}\]
Les estimateurs de la droite de régresion sont inchangés:
\[\boxed{\left\{ \begin{array}{l}\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}\\\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}\end{array}\right.}\]
En revanche la variance de ces estimateurs sera estimée, si \(\sigma_{X}\) est suffisamment faible, par:
\[\boxed{\left\{ \begin{array}{l}\hat{V}\left(\hat{a}_{1}\right)=\frac{\hat{\sigma}^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\hat{\sigma}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\\hat{V}\left(\hat{a}_{0}\right)=\hat{\sigma}^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)\end{array}\right.}\]
qui se déduisent donc du cas où les abscisses sont déterminées par la substitution:
\[\boxed{\sigma^{2}\longleftarrow\hat{\sigma}^{2}=\sigma_{Y}^{2}+\hat{a}_{1}^{2}\sigma_{X}^{2}}\]
Remarque:
Pour chaque mesure \(i\), on peut a priori représenter graphiquement cette erreur:
- soit par une barre:
- horizontale de longueur \(\sigma_{X}\) centrée sur \(\left(x_{i},y_{i}\right)\)
- verticale de longueur \(\sigma_{Y}\) centrée sur \(\left(x_{i},y_{i}\right)\)
- soit par une zone hachurée limitée par l'ellipse \(\left(\frac{x-x_{i}}{\sigma_{X}}\right)^{2}+\left(\frac{y-y_{i}}{\sigma_{Y}}\right)^{2}=1\)
Ce ne sont pas des représentations a priori équivalentes et on privilégiera la première.