5.2 Estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) de \(a_{1}\) et \(a_{0}\) par la méthode des moindres carrés ordinaires
5.2.1 Estimateurs du modèle linéaire et résidus
Si, à partir des réalisations \(ech=\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \), on dispose d'estimateurs:
- \(\hat{a}_{1}\left(ech\right)\) du coefficient directeur \(a_{1}\)
- \(\hat{a}_{0}\left(ech\right)\) de l'ordonnée à l'origine \(a_{0}\)
la droite \(\left(D\right)\) d'équation:
\[x\longmapsto\hat{y}=\hat{a}_{0}+\hat{a}_{1}x\]
est la droite de régression linéaire du modèle.
Introduisons alors les v.a. \(\left\{ Y_{1},...,Y_{n}\right\} \) (les variables explicatives \(\left\{ x_{1},...,x_{n}\right\} \) sont déterminées) et on pose:
\[Ech=\left\{ \left(x_{1},Y_{1}\right),...,\left(x_{n},Y_{n}\right)\right\} \]
On écrit alors:
\[\boxed{Y_{i}=\hat{Y}_{i}+\hat{\varepsilon}_{i}}\]
avec:
\[\boxed{\hat{Y}_{i}=\hat{A}_{0}+\hat{A}_{1}x_{i}}\]
- \(Ech\longmapsto\hat{A}_{1}\left(Ech\right)\) est un estimateur de la pente de la droite de régression linéaire
- \(Ech\longmapsto\hat{A}_{0}\left(Ech\right)\) est un estimateur de l'ordonnée à l'origine de la droite de régression linéaire
- \(Ech\longmapsto\hat{E}_{i}\left(Ech\right)\) est une v.a appelée résidu
qui seront donc connus à partir de l'échantillonnage considéré, une fois choisie une méthode d'estimation.
On posera alors:
\[\left\{ \begin{array}{l}\hat{a}_{1}=\hat{A}_{1}\left(ech\right)\\\hat{a}_{0}=\hat{A}_{0}\left(ech\right)\end{array}\right.\]
et;
\[\boxed{\hat{\varepsilon}_{i}=\hat{E}_{i}\left(ech\right)=y_{i}-\hat{y}_{i}=y_{i}-\left(\hat{a}_{0}+\hat{a}_{1}x_{i}\right)}\]
5.2.2 Estimateurs linéaires sans biais
Les estimateurs de \(\hat{A}_{1}\) et \(\hat{A}_{0}\) seront linéaires s'ils sont de la forme:
\[\left\{ \begin{array}{l}\hat{A}_{1}=c_{11}Y_{1}+...+c_{1n}Y_{n}\\\hat{A}_{0}=c_{01}Y_{1}+...+c_{0n}Y_{n}\end{array}\right.\]
où les coefficients peuvent dépendre des variables explicatives \(x_{1},...,x_{n}\).
Ils seront sans biais si:
\[\left\{ \begin{array}{l}E\left(\hat{A}_{1}\right)=a_{1}\\E\left(\hat{A}_{0}\right)=a_{0}\end{array}\right.\]
D'après le théorème de Gauss-Markov, si les hypothèses précédentes sur les erreurs sont validées, les estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) sont les estimateurs linéaires sans biais minimisant la somme des carrés:
\[S\left(a_{0},a_{1}\right)=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
et dont les variances \(V\left(\hat{A}_{1}\right)\) et \(V\left(\hat{A}_{0}\right)\) sont minimales.
5.2.3 Principe de la méthode
La méthode des moindres carrés ordinaires (MCO) retourne donc des estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) minimisant la fonction:
\[S:\left(a_{0},a_{1}\right)\longmapsto\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\varepsilon_{i}^{2}=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
Elle s'inspire de la méthode du maximum de vraisemblance qui conduit à la même minimisation dans le cas de v.a. \(\varepsilon_{i}\) indépendantes suivant une loi \(\mathcal{N}\left(0,\sigma^{2}\right)\).
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la mtéhode des MCO sont donc donnés par les conditions:
\[\left\{ \begin{array}{lc}\frac{\partial S}{\partial a_{0}}\left(\hat{a}_{0},\hat{a}_{1}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0 & \left(\alpha\right)\\\frac{\partial S}{\partial a_{1}}\left(\hat{a}_{0},\hat{a}_{1}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}x_{i}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}x_{i}\hat{\varepsilon}_{i}=0 & \left(\beta\right)\end{array}\right.\]
5.2.4 Point moyen \(\left(\bar{x},\bar{y}\right)\) et droite de régression
On remarque donc d'après \(\left(\alpha\right)\) que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
5.2.5 Estimateurs par la méthode des moindres carrés ordinaires (MCO)
Remarquons que, d'après \(\left(\alpha\right)\), puisque \(\left(\bar{x},\bar{y}\right)\) appartient à la droite de régression:
\[y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}=y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}-\left(\bar{y}-\hat{a}_{0}-\hat{a}_{1}\bar{x}\right)=y_{i}-\bar{y}-\hat{a}_{1}\left(x_{i}-\bar{x}\right)\]
On remarque alors que \(\left(\beta\right)\) peut s'écrire équivalemment:
\[\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left[y_{i}-\bar{y}-\hat{a}_{1}\left(x_{i}-\bar{x}\right)\right]=0\]
On obtient ainsi \(2\) estimateurs linéaires \(\hat{a}_{0}\) et \(\hat{a}_{1}\) des coefficients \(a_{0}\) et \(a_{1}\) appelés estimateurs des ceofficients de la droite de régression linéaire par la méthode des MCO:
\[\boxed{\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}}\]
et:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
qui détermine \(\hat{a}_{0}\).
5.2.6 Droite de régression linéaire et résidus
On appelle droite de régression linéaire la droite d'équation:
\[\boxed{x\longmapsto\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
Remarquons que les variables \(\left\{ \hat{\varepsilon}_{i}\right\} _{i\in\left[1,n\right]}\) ne sont pas indépendantes car les équations déterminant les estimations \(\hat{a}_{1}\) et \(\hat{a}_{0}\) exigent:
\[\boxed{\left\{ \begin{array}{l}\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0\\\sum_{i=1}^{n}x_{i}\hat{\varepsilon}_{i}=0\end{array}\right.}\]
Donc seules \(k=n-2\) v.a. parmi \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont indépendantes.
On dit qu'elles possèdent \(k=n-2\) degrés de liberté (d.d.l).
On a alors:
\[\boxed{S\left(\hat{a}_{0},\hat{a}_{1}\right)=\underset{\left\{ a_{0},a_{1}\right\} }{min}S\left(a_{0},a_{1}\right)=\frac{1}{\sigma^{2}}SCR}\]
où:
\[\boxed{SCR=\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}\]
est appelée somme des carrés des résidus.
5.2.7 Expression des écarts expliqués et des résidus en fonction des erreurs
Sur l'ensemble de l'échantillon, on appelle:
- écart expliqué\[\boxed{\hat{\varepsilon}_{i,E}=\hat{y}_{i}-\bar{y}}\]et introduit la somme des carrés expliqués:\[\boxed{SCE=\sum_{i=1}^{n}\hat{\varepsilon}_{i,E}^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}}\]
- écart résiduel (ou résidu):\[\boxed{\hat{\varepsilon}_{i}=y_{i}-\hat{y}_{i}}\]et introduit la somme des carrés résiduels:\[\boxed{SCR=\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{y}_{i}\right)^{2}}\]
- écart total:\[\boxed{\varepsilon_{i,T}=\hat{\varepsilon}_{i}+\hat{\varepsilon}_{i,E}=y_{i}-\bar{y}}\]dont la définition ne fait pas intervenir les coefficients de la droite de régression, mais eulement les ordonnées mesurées.
5.2.8 Expressions des écarts en fonction des erreurs
On part donc de:
\[\left\{ \begin{array}{lc}y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i} & \left(1\right)\\\bar{y}=a_{0}+a_{1}\bar{x}+\overline{\varepsilon} & \left(2\right)\\\hat{y}_{i}=\hat{a}_{0}+\hat{a}_{1}x_{i} & \left(3\right)\end{array}\right.\]
où:
\[\overline{\varepsilon}=\frac{\sum_{i=1}^{n}\varepsilon_{i}}{n}\]
sachant que:
\[\begin{array}{cc}\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x} & \left(4\right)\end{array}\]
Pour exprimer l'écart expliqué en fonction des erreurs, remarquons que \(\hat{\varepsilon}_{i,E}\) est donné par \(\left(3\right)\) et \(\left(4\right)\):
\[\hat{\varepsilon}_{i,E}=\hat{y}_{i}-\bar{y}=\hat{a}_{0}+\hat{a}_{1}x_{i}-\left(\hat{a}_{0}+\hat{a}_{1}\bar{x}\right)\]
soit:
\[\begin{array}{cc}\boxed{\hat{\varepsilon}_{i,E}=\hat{a}_{1}\left(x_{i}-\bar{x}\right)} & \left(5\right)\end{array}\]
qui est expliqué au sens où il est déterminé en fonction de l'échantillon.
Pour exprimer l'écart résiduel en fonction des erreurs, remarquons que \(\hat{\varepsilon}_{i}\) est donné par \(\left(1\right)\) et \(\left(3\right)\):
\[\hat{\varepsilon}_{i}=y_{i}-\hat{y}_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}-\left(\hat{a}_{0}+\hat{a}_{1}x_{i}\right)\]
soit:
\[\hat{\varepsilon}_{i}=a_{0}-\hat{a}_{0}+\left(a_{1}-\hat{a}_{1}\right)x_{i}+\varepsilon_{i}\]
Pour éliminer le coefficient \(a_{0}\) d'ordonnée à l'origine de la droite théorique, inconnu mais non aléatoire, utilisons \(\left(2\right)\) et \(\left(4\right)\) et éliminons \(\bar{y}\):
\[a_{0}+a_{1}\bar{x}+\overline{\varepsilon}=\hat{a}_{0}+\hat{a}_{1}\bar{x}\]
soit:
\[a_{0}+a_{1}x_{i}=a_{0}+a_{1}\bar{x}+a_{1}\left(x_{i}-\bar{x}\right)=\hat{a}_{0}+\hat{a}_{1}\bar{x}-\overline{\varepsilon}+a_{1}\left(x_{i}-\bar{x}\right)\]
donc:
\[\begin{array}{cc}
\boxed{\hat{\varepsilon}_{i}=\left(a_{1}-\hat{a}_{1}\right)\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}} & \left(6\right)\end{array}\]
qui n'est donc pas déterminée en fonction du seul échantillon, mais qui pourra être estimée, en fonction des hypothèses sur les erreurs.
Comme \(a_{0},\) \(a_{1}\) est inconnu mais non aléatoire.
Pour exprimer l'écart total en fonction des erreurs, remarquons que \(\varepsilon_{i,T}\) est par définition par:
\[\varepsilon_{i,T}=y_{i}-\bar{y}=y_{i}-\hat{y}_{i}+\hat{y}_{i}-\bar{y}=\hat{\varepsilon}_{i}+\varepsilon_{i,E}\]
donc, d'après \(\left(5\right)\) et \(\left(6\right)\):
\[\begin{array}{cc}
\boxed{\varepsilon_{i,T}=\hat{\varepsilon}_{i}+\hat{\varepsilon}_{i,E}=a_{1}\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}} & \left(7\right)\end{array}\]
Remarque:
On dispose donc:
- d'une famille iid d'erreurs \(\left\{ \varepsilon_{i}\right\} _{1\leq i\leq n}\) à \(n\) ddl
- d'une famille d'erreurs \(\left\{ \varepsilon_{i}-\bar{\varepsilon}\right\} _{1\leq i\leq n}\) à \(n-1\) ddl car elles sont liées par la relation:\[\sum_{j=1}^{n}\left(\varepsilon_{j}-\bar{\varepsilon}\right)=0\]par définition de \(\bar{\varepsilon}\).
- d'une famille de résidus \(\left\{ \varepsilon_{i,R}\right\} _{1\leq i\leq n}\) à \(n-2\) d.d;L. car elles sont liées par les relations:\[\left\{ \begin{array}{l}\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0\\\sum_{i=1}^{n}x_{i}\hat{\varepsilon}_{i}=0\end{array}\right.\]qui sont issues du système donnant les estimateurs linéaires \(\hat{a}_{1}\) et \(\hat{a}_{0}\) par la méthode des MCO.
5.2.9 Espérance de \(\hat{A}_{1}\) et \(\hat{A}_{0}\)
Posons:
\[\boxed{\eta_{i}=\frac{x_{i}-\bar{x}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}}\]
et remarquons que:
\[\boxed{\left\{ \begin{array}{lc}\sum_{i=1}^{n}\eta_{i}=0 & \left(\alpha\right)\\\sum_{i=1}^{n}\eta_{i}^{2}=\frac{1}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}} & \left(\beta\right)\end{array}\right.}\]
Preuve:
\(\forall i\in\left[1,n\right]\):
\[\sum_{j=1}^{n}\eta_{i}\eta_{j}=\eta_{i}\sum_{j=1}^{n}\eta_{j}=0\]
ce qui implique:
\[\begin{array}{cc}\sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}=0 & \left(\gamma\right)\end{array}\]
Comme:
\[\begin{array}{c}
\sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}=\sum_{i=1}^{n}\sum_{j\neq i=1}^{n}\eta_{i}\eta_{j}+\sum_{i=1}^{n}\eta_{i}^{2}\end{array}\]
on déduit de \(\left(\beta\right)\) et \(\left(\gamma\right)\) que:
\[\begin{array}{c}
\sum_{i=1}^{n}\sum_{j\neq i=1}^{n}\eta_{i}\eta_{j}=-\sum_{i=1}^{n}\eta_{i}^{2}=-\frac{1}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\end{array}\]
Les estimateurs des MCO sont donnés en fonctions des variables explicatives et des erreurs par, d'après \(\left(3\right)\) et \(\left(7\right)\):
\[\boxed{\left\{ \begin{array}{l}\hat{A}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(Y_{i}-\bar{Y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}=a_{1}+\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)\\\hat{A}_{0}=\bar{Y}-\hat{A}_{1}\bar{x}=a_{0}+\left(a_{1}-\hat{A}_{1}\right)\bar{x}+\bar{\varepsilon}=a_{0}-\bar{x}\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)+\bar{\varepsilon}\end{array}\right.}\]
Pour ne pas confondre avec la notation de l'espérance, les v.a. associées aux erreurs on encore été notées \(\varepsilon_{i}\).
Rappelons que les abscisses \(x_{i}\) sont déterminées, sachant que par ailleurs les erreurs sont décorrélées des variables explicatives.
Les estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) donnés par la méthode des moindres carrés sont donc bien des estimateurs linéaires sans biais et convergents:
\[\boxed{\left\{ \begin{array}{l}E\left(\hat{A}_{1}\right)=a_{1}\\E\left(\hat{A}_{0}\right)=a_{0}\end{array}\right.}\]
Preuve:
\[E\left(\hat{A}_{1}-a_{1}\right)=\sum_{i=1}^{n}\eta_{i}E\left(\varepsilon_{i}-\bar{\varepsilon}\right)\]
Puisque, \(\forall i\in\left[1,n\right]\):
\[E\left(\varepsilon_{i}\right)=0\]
on trouve donc que:
\[E\left(\varepsilon_{i}-\overline{\varepsilon}\right)=0\]
On a donc:
\[E\left(\hat{A}_{1}\right)=a_{1}\]
De même:
\[E\left(\hat{A}_{0}-a_{0}\right)=-\sum_{i=1}^{n}\eta_{i}E\left(\varepsilon_{i}-\bar{\varepsilon}\right)+E\left(\bar{\varepsilon}\right)=0\]
On a donc de même:
\[E\left(\hat{A}_{0}\right)=a_{0}\]
Ils sont convergents car leur variance tend vers \(0\) lorsque \(n\longrightarrow+\infty\) (voir paragraphe suivant).
5.2.10 Variance de \(\hat{A}_{1}\) et \(\hat{A}_{0}\) à \(\sigma\) connu
Les estimateurs \(V\left(\hat{A}_{1}\right)\) et \(V\left(\hat{A}_{0}\right)\) donnés par la méthode des moindres carrés sont donc donnés par:
\[\boxed{\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{A}_{0}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\right)\end{array}\right.}\]
où:
\[V\left(\varepsilon_{i}\right)=\sigma^{2}\]
est la variance des erreurs, indépendante de \(i\).
Ces expressions ne sont manipulables que si \(\sigma\) est connue.
Preuve:
Remarquons que:
\[\boxed{\left\{ \begin{array}{l}\left(\hat{A}_{1}-a_{1}\right)^{2}=\sum_{i=1}^{n}\sum_{i=1}^{n}\eta_{i}\eta_{j}\left(\varepsilon_{i}-\bar{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)\\\left(\hat{A}_{0}-a_{0}\right)^{2}=\bar{x}^{2}\left(\hat{A}_{1}-a_{1}\right)^{2}-2\bar{x}\bar{\varepsilon}\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)+\bar{\varepsilon}^{2}\end{array}\right.}\]
\(\hat{A}_{1}\) et \(\hat{A}_{0}\) étant sans biais:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=E\left[\left(\hat{A}_{1}-a_{1}\right)^{2}\right]=\sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)\right]\\V\left(\hat{A}_{0}\right)=E\left[\left(\hat{A}_{0}-a_{0}\right)^{2}\right]=\bar{x}^{2}V\left(\hat{A}_{0}\right)-2\bar{x}\sum_{i=1}^{n}\eta_{i}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)\bar{\varepsilon}\right]+E\left(\bar{\varepsilon}^{2}\right)\end{array}\right.\]
Rappelons que les abscisses \(x_{i}\) sont déterminées, ainsi par conséquent que les paramètres \(\eta_{i}\), sachant que par ailleurs les erreurs sont décorrélées des variables explicatives.
Les hypothèses sur les erreurs entraînent en outre, \(\forall k,l\in\left[1,n\right]\):
\[E\left(\varepsilon_{k}\varepsilon_{l}\right)=\sigma^{2}\delta_{k}^{l}\]
où \(\delta_{k}^{l}\) est le symbole de Kronecker.
Donc:
- \(E\left(\varepsilon_{i}\varepsilon_{j}\right)=\sigma^{2}\delta_{i}^{j}\)
- \(E\left(\varepsilon_{i}\overline{\varepsilon}\right)=\frac{1}{n}\sum_{k=1}^{n}E\left(\varepsilon_{i}\varepsilon_{k}\right)=\frac{\sigma^{2}}{n}\)
- \(E\left(\overline{\varepsilon}^{2}\right)=\frac{1}{n^{2}}\sum_{k=1}^{n}\sum_{l=1}^{n}E\left(\varepsilon_{k}\varepsilon_{l}\right)=\frac{\sigma^{2}}{n}\)
d'où:
- \(\sum_{i=1}^{n}\eta_{i}^{2}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)^{2}\right]=\sum_{i=1}^{n}\eta_{i}^{2}\sigma^{2}\left(1-\frac{2}{n}+\frac{1}{n}\right)=\frac{\sigma^{2}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\left(1-\frac{1}{n}\right)\)
- \(\sum_{i=1}^{n}\sum_{j\neq i=1}^{n}\eta_{i}\eta_{j}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)\right]=-\left(\sum_{i=1}^{n}\sum_{j\neq i=1,}^{n}\eta_{i}\eta_{j}\right)\sigma^{2}\left(0-\frac{2}{n}+\frac{1}{n}\right)=\frac{\sigma^{2}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\frac{1}{n}\)
On en déduit que:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\left(1-\frac{1}{n}+\frac{1}{n}\right)\\V\left(\hat{A}_{0}\right)=\bar{x}^{2}V\left(\hat{A}_{1}\right)-0+\frac{\sigma^{2}}{n}\end{array}\right.\]
soit:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{A}_{0}\right)=\sigma^{2}\left[\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right]\end{array}\right.\]
Remarque:
Si \(\bar{x}\) et \(s_{x}^{2}\) ont formellement une limite finie lorsque \(n\longrightarrow+\infty\), on constate que \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\) tendent vers \(0\).
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) associés à un échantillon donnés par la méthode des moindres carrés sont alors convergents.
5.2.11 Estimateur \(\hat{\sigma}^{2}\) de \(\sigma^{2}\), \(\hat{V}\left(\hat{a}_{1}\right)\) de \(\hat{a}_{1}\)
On se place dans l'hypothèse où \(\sigma^{2}\) est inconnue: faute de mieux, on va alors chercher à l'estimer à partir de l'échantillon.
Introduisons les résidus:
\[\hat{\varepsilon}_{i}=y_{i}-\hat{y}_{i}\]
On rappelle que la variance des erreurs (notamment indépendantes et centrées) est définie par:
\[\sigma^{2}=E\left(\varepsilon_{i}^{2}\right)\]
et supposée indépendante de \(i\).
Alors:
\[\boxed{\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}\]
est un estimateur sans biais convergent de la variance des erreurs \(\sigma^{2}\):
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On en déduit un estimateur sans biais convergent noté \(\hat{V}\left(\hat{A}_{1}\right)\) de la variance de la pente \(\hat{A}_{1}\) de la droite de régression avec etimation de la variance des erreurs:
\[\boxed{\hat{V}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\frac{1}{n-2}\frac{\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
en gardant à l'esprit que les résidus possèdent \(k=n-2\) ddl.
Remarque:
La convergence de \(\Sigma^{2}\) vers \(\sigma^{2}\) lorsque \(n\longrightarrow\infty\) est lente, i.e. \(V\left(\Sigma^{2}\right)=O\left(\frac{1}{n}\right)\).
Preuve:
D'après \(\left(6\right)\):
\[\hat{\varepsilon}_{i}=\left(a_{1}-\hat{A}_{1}\right)\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}=-\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{j}-\bar{\varepsilon}\right)+\varepsilon_{i}-\overline{\varepsilon}\]
d'espérance:
\[E\left(\hat{\varepsilon}_{i}\right)=0\]
Or:
\[\hat{\varepsilon}_{i}^{2}=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\left(\varepsilon_{j}-\bar{\varepsilon}\right)\left(\varepsilon_{k}-\bar{\varepsilon}\right)-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)+\left(\varepsilon_{i}-\overline{\varepsilon}\right)^{2}\]
Remarquons que:
\[\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\left(\varepsilon_{j}-\bar{\varepsilon}\right)\left(\varepsilon_{k}-\bar{\varepsilon}\right)=\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}\varepsilon_{k}\]
car, d'après \(\left(\alpha\right)\) et \(\left(\gamma\right)\):
\[\left\{ \begin{array}{l}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}=\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\sum_{k=1}^{n}\eta_{k}=0\\\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}=0\end{array}\right.\]
De même:
\[\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)=\left(\varepsilon_{i}-\overline{\varepsilon}\right)\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\]
donc:
\[\hat{\varepsilon}_{i}^{2}=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}\varepsilon_{k}-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)+\left(\varepsilon_{i}-\overline{\varepsilon}\right)^{2}\]
On obtient alors:
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\sigma^{2}\delta_{j}^{k}-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\delta_{i}^{j}-\frac{1}{n}\right)+\sigma^{2}\left(1-\frac{1}{n}\right)\]
ou, d'après \(\left(\alpha\right)\):
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\sigma^{2}\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\eta_{j}^{2}-2\left(x_{i}-\bar{x}\right)\eta_{i}+\sigma^{2}\left(1-\frac{1}{n}\right)=\sigma^{2}\left(-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}+1-\frac{1}{n}\right)\]
Finalement:
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\sigma^{2}\left(1-\frac{1}{n}-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right)\]
donc:
\[E\left(\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\right)=\left(n-2\right)\sigma^{2}\]
On trouve donc que:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\]
est bien bien un estimateur sans biais de \(\sigma^{2}\) puisque:
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On admettra ensuite que:
\[V\left(\Sigma^{2}\right)=\frac{1}{\left(n-2\right)^{2}}\sum_{i=1}^{n}\sum_{k=1}^{n}E\left(\varepsilon_{i,R}^{2}\varepsilon_{k,R}^{2}\right)-\sigma^{4}\]
tend bien vers \(0\) lors que \(n\longrightarrow+\infty\) de sorte que l'estimateur \(\Sigma^{2}\) est bien convergent.
Plus précisément, on montre que:
\[V\left(\Sigma^{2}\right)=O\left(\frac{1}{n}\right)\]
ce qui signifie que cette convergence est lente.
5.2.12 Hypothèse supplémentaire: les variables aléatoires \(\left\{ \varepsilon_{i}\right\} \) suivent une loi normale centrée \(\mathcal{N}\left(0,\sigma^{2}\right)\)
Supposons qu'en plus des hypothèses précédentes sur les erreurs, celles-ci sont notamment indépendantes et suivent une loi normale centrée de même variance \(\sigma^{2}\).
Introduisons la v.a. centrée:
\[Z=\frac{\hat{A}_{1}-a_{1}}{\sqrt{V\left(\hat{A}_{1}\right)}}=\frac{\hat{A}_{1}-a_{1}}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}}\]
Alors:
\[\boxed{Z=\frac{\hat{A}_{1}-a_{1}}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}}\sim\mathcal{N}\left(0,1\right)}\]
Preuve:
Les v.a. \(\varepsilon_{i,cr}=\frac{\varepsilon_{i}}{\sigma}\) forment une famille iid suivant une loi \(\mathcal{N}\left(0,1\right)\).
On a déjà montré que:
\[\hat{A}_{1}-a_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(\varepsilon_{i}-\overline{\varepsilon}\right)}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\sum_{i=1}^{n}\lambda_{i}\left(\varepsilon_{i}-\overline{\varepsilon}\right)=\sum_{i=1}^{n}\lambda_{i}\varepsilon_{i}-0\]
car:
\[\sum_{i=1}^{n}\lambda_{i}=0\]
Donc si \(\varepsilon_{i}\sim\mathcal{N}\left(0,\sigma\right)\), sachant qu'elles sont indépendantes:
\[\hat{A}_{1}-a_{1}=\sum_{i=1}^{n}\lambda_{i}\varepsilon_{i}\sim\mathcal{N}\left[0,\sigma^{2}\left(\sum_{i=1}^{n}\lambda_{i}^{2}\right)\right]=\mathcal{N}\left[0,\frac{\sigma^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right]\]
ou:
\[\frac{\hat{A}_{1}-a_{1}}{\sqrt{V\left(\hat{a}_{1}\right)}}\sim\mathcal{N}\left(0,1\right)\]
Intéressons-nous maintenant à la v.a.:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}\]
Remarquons que:
\[\hat{\varepsilon}_{i}=-\left(x_{i}-\bar{x}\right)\frac{\sum_{j=1}^{n}\left(x_{j}-\bar{x}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}+\varepsilon_{i}-\overline{\varepsilon}\]
forme une C.L. des erreurs \(\left\{ \varepsilon_{i}\right\} \) supposées indépendantes de même loi \(\mathcal{N}\left(0,\sigma^{2}\right)\).
Alors, les résidus \(\hat{\varepsilon}_{i}\), formant une famille \(iid\) à \(n-2\) degrés de liberté, suivent une loi \(\mathcal{N}\left(0,\sigma_{i,R}^{2}\right)\) avec:\[\hat{\sigma}_{i}^{2}=E\left(\hat{\varepsilon}_{i}^{2}\right)-0=\sigma^{2}\left(1-\frac{1}{n}-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right)\]
On peut alors rechercher en principe la loi de la v.a.:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\]
5.2.13 Lien entre SCR, SCE et SCT
Bilan:
On a donc la relation:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.
Cette relation s'apparente à une relation d'orthogonalité.
Preuve:
En effet:
\[\varepsilon_{i,T}^{2}=\left(\hat{\varepsilon}_{i}+\varepsilon_{i,E}\right)^{2}=\hat{\varepsilon}_{i}^{2}+2\hat{\varepsilon}_{i}\hat{\varepsilon}_{i,E}+\hat{\varepsilon}_{i,E}^{2}\]
Examinons le terme:
\[K=\sum_{i=1}^{n}\hat{\varepsilon}_{i}\hat{\varepsilon}_{i,E}=\sum_{i=1}^{n}\hat{\varepsilon}_{i}\left(\hat{y}_{i}-\bar{y}\right)=\hat{a}_{1}\sum_{i=1}^{n}\hat{\varepsilon}_{i}\left(x_{i}-\bar{x}\right)\]
En utilisant les contraintes sur les erreurs résiduelles:
\[K=\hat{a}_{1}\left(\sum_{i=1}^{n}\hat{\varepsilon}_{i}x_{i}-\bar{x}\sum_{i=1}^{n}\hat{\varepsilon}_{i}\right)=0-0=0\]
On a donc bien:
\[SCT=\sum_{i=1}^{n}\varepsilon_{i,T}^{2}=\sum_{i=1}^{n}\left(\hat{\varepsilon}_{i}+\hat{\varepsilon}_{i,E}\right)^{2}=\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}+0+\sum_{i=1}^{n}\hat{\varepsilon}_{i,E}^{2}=SCR+SCE\]
Bilan:
On a donc la relation:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.
Remarque:
Cette relation ressemble à une relation d'orthogonalité.
5.2.14 Coefficient de corrélation empirique \(r\)
On appelle coefficient de corrélation empirique associé à l'échantillon:
\[\boxed{r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}}\]
Interprétation:
Considérons que:
- \(\left\{ x_{1},...,x_{n}\right\} \) sont \(n\) réalisations d'une v.a. \(X\) d'espérance \(\mu_{X}\) de même probabilité
- \(\left\{ y_{1},...,y_{n}\right\} \) sont \(n\) réalisations d'une v.a. \(Y\) d'espérance \(\mu_{Y}\) de même probabilité
Remarquons alors que:
- \(\hat{\mu}_{X}=\overline{x}\) est un estimateur sans biais de \(\mu_{X}\)
- \(\hat{\mu}_{Y}=\overline{y}\) est un estimateur sans biais de \(\mu_{Y}\)
\(r\) se met sous la forme:
\[r=\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)\left(y_{i}-\hat{\mu}_{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\hat{\mu}_{Y}\right)^{2}}}=\frac{cov\left(XY\right)}{\sqrt{V\left(X\right)\sqrt{V\left(Y\right)}}}\]
où:
- \(cov\left(XY\right)=\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)\left(y_{i}-\hat{\mu}_{Y}\right)\) est la covariance empirique des v.a. \(X\) et \(Y\)
- \(V\left(X\right)=\sigma_{X}^{2}=\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)^{2}\) est la variance empirique de la v.a. \(X\)
- \(V\left(Y\right)=\sigma_{Y}^{2}=\sum_{i=1}^{n}\left(y_{i}-\hat{\mu}_{Y}\right)^{2}\) est la variance empirique de la v.a. \(Y\)
Remarque importante:
On a:
\[\boxed{-1\leq r\leq1}\]
En effet, en écrivant que, \(\forall\lambda\in\mathbb{R}\):
\[V\left(\lambda X+Y\right)=\lambda^{2}V\left(X\right)+2\lambda cov\left(XY\right)+V\left(Y\right)\geq0\]
On en déduit que ceci exige:
\[\triangle^{\prime}=cov^{2}\left(XY\right)-V\left(X\right)V\left(Y\right)\leq0\]
soit:
\[r^{2}\leq1\]
donc:
\[-1\leq r\leq1\]
5.2.15 Coefficient de détermination
On appelle coefficient de détermination le rapport:
\[\boxed{R=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}}\]
\(R\) appartient à \(\left[0,1\right]\).
Il est donc d'autant plus proche de \(1\) que l'erreur expliquée est grande devant l'erreur résiduelle.
- à la limite où \(R\) tend vers \(1\), la régression linéaire rend compte de la position des ordonnées, à abscisse données, à de faibles erreurs résiduelles près: la droite de régression traduit bien une relation affine
- à la limite où \(R\) tend vers \(0\), les erreurs résiduelles rendent compte de façon principale de la position des ordonnées: la droite de regression perd de son sens, et on pense plutôt à une répartition aléatoire de points autour de la moyenne \(\bar{Y}\)
Expression de \(R\) en fonction de corrélation empirique r:
On a:
\[\boxed{R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}\]
Preuve:
L'erreur expliquée vaut:
\[SCE=\sum_{i=1}^{n}\varepsilon_{i,E}^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}=\hat{a}_{1}^{2}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\hat{a}_{1}^{2}s_{x}^{2}\]
Or:
\[\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}\]
donc:
\[SCE=\frac{s_{xy}^{2}}{s_{x}^{2}}\]
En remarquant que:
\[SCT=\sum_{i=1}^{n}\varepsilon_{i,T}^{2}=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=s_{y}^{2}\]
le coefficient de détermination:
\[R=\frac{SCE}{SCT}\]
s'écrit donc bien:
\[R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}\]
avec:
\[r=\frac{s_{xy}}{s_{x}s_{y}}\]
qui s'interprète comme un coefficient de corrélation.
5.2.16 \(R=r^{2}\) seul est un mauvais indicateur
La seule donnée de \(R\) ne permet pas d'affirmer que l'échantillon approche ou non la droite des moindres carrés.
A cet égard, c'est un mauvais indicateur.
En revanche, quand on examine un graphe, si l'échantillon approche la droite des moindres carrés, il n'est pas faux d'affirmer que \(R\) s'approche d'autant plus de 1 que les échantillons en sont proches.
Il est donc utile de développer d'autres arguments pour valider le modèle linéaire proposé.