5.2 Estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) de \(a_{1}\) et \(a_{0}\) par la méthode des moindres carrés ordinaires

5.2.1 Estimateurs du modèle linéaire et résidus

Si, à partir des réalisations \(ech=\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \), on dispose d'estimateurs:
la droite \(\left(D\right)\) d'équation:
\[x\longmapsto\hat{y}=\hat{a}_{0}+\hat{a}_{1}x\]
est la droite de régression linéaire du modèle.
Introduisons alors les v.a. \(\left\{ Y_{1},...,Y_{n}\right\} \) (les variables explicatives \(\left\{ x_{1},...,x_{n}\right\} \) sont déterminées) et on pose:
\[Ech=\left\{ \left(x_{1},Y_{1}\right),...,\left(x_{n},Y_{n}\right)\right\} \]
On écrit alors:
\[\boxed{Y_{i}=\hat{Y}_{i}+\hat{\varepsilon}_{i}}\]
avec:
\[\boxed{\hat{Y}_{i}=\hat{A}_{0}+\hat{A}_{1}x_{i}}\]
qui seront donc connus à partir de l'échantillonnage considéré, une fois choisie une méthode d'estimation.
On posera alors:
\[\left\{ \begin{array}{l}\hat{a}_{1}=\hat{A}_{1}\left(ech\right)\\\hat{a}_{0}=\hat{A}_{0}\left(ech\right)\end{array}\right.\]
et;
\[\boxed{\hat{\varepsilon}_{i}=\hat{E}_{i}\left(ech\right)=y_{i}-\hat{y}_{i}=y_{i}-\left(\hat{a}_{0}+\hat{a}_{1}x_{i}\right)}\]

5.2.2 Estimateurs linéaires sans biais

Les estimateurs de \(\hat{A}_{1}\) et \(\hat{A}_{0}\) seront linéaires s'ils sont de la forme:
\[\left\{ \begin{array}{l}\hat{A}_{1}=c_{11}Y_{1}+...+c_{1n}Y_{n}\\\hat{A}_{0}=c_{01}Y_{1}+...+c_{0n}Y_{n}\end{array}\right.\]
où les coefficients peuvent dépendre des variables explicatives \(x_{1},...,x_{n}\).
Ils seront sans biais si:
\[\left\{ \begin{array}{l}E\left(\hat{A}_{1}\right)=a_{1}\\E\left(\hat{A}_{0}\right)=a_{0}\end{array}\right.\]
D'après le théorème de Gauss-Markov, si les hypothèses précédentes sur les erreurs sont validées, les estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) sont les estimateurs linéaires sans biais minimisant la somme des carrés:
\[S\left(a_{0},a_{1}\right)=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
et dont les variances \(V\left(\hat{A}_{1}\right)\) et \(V\left(\hat{A}_{0}\right)\) sont minimales.

5.2.3 Principe de la méthode

La méthode des moindres carrés ordinaires (MCO) retourne donc des estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) minimisant la fonction:
\[S:\left(a_{0},a_{1}\right)\longmapsto\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\varepsilon_{i}^{2}=\frac{1}{\sigma^{2}}\sum_{i=1}^{n}\left(Y_{i}-a_{0}-a_{1}x_{i}\right)^{2}\]
Elle s'inspire de la méthode du maximum de vraisemblance qui conduit à la même minimisation dans le cas de v.a. \(\varepsilon_{i}\) indépendantes suivant une loi \(\mathcal{N}\left(0,\sigma^{2}\right)\).
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la mtéhode des MCO sont donc donnés par les conditions:
\[\left\{ \begin{array}{lc}\frac{\partial S}{\partial a_{0}}\left(\hat{a}_{0},\hat{a}_{1}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0 & \left(\alpha\right)\\\frac{\partial S}{\partial a_{1}}\left(\hat{a}_{0},\hat{a}_{1}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}x_{i}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}\right)=-\frac{2}{\sigma^{2}}\sum_{i=1}^{n}x_{i}\hat{\varepsilon}_{i}=0 & \left(\beta\right)\end{array}\right.\]

5.2.4 Point moyen \(\left(\bar{x},\bar{y}\right)\) et droite de régression

On remarque donc d'après \(\left(\alpha\right)\) que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]

5.2.5 Estimateurs par la méthode des moindres carrés ordinaires (MCO)

Remarquons que, d'après \(\left(\alpha\right)\), puisque \(\left(\bar{x},\bar{y}\right)\) appartient à la droite de régression:
\[y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}=y_{i}-\hat{a}_{0}-\hat{a}_{1}x_{i}-\left(\bar{y}-\hat{a}_{0}-\hat{a}_{1}\bar{x}\right)=y_{i}-\bar{y}-\hat{a}_{1}\left(x_{i}-\bar{x}\right)\]
On remarque alors que \(\left(\beta\right)\) peut s'écrire équivalemment:
\[\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left[y_{i}-\bar{y}-\hat{a}_{1}\left(x_{i}-\bar{x}\right)\right]=0\]
On obtient ainsi \(2\) estimateurs linéaires \(\hat{a}_{0}\) et \(\hat{a}_{1}\) des coefficients \(a_{0}\) et \(a_{1}\) appelés estimateurs des ceofficients de la droite de régression linéaire par la méthode des MCO:
\[\boxed{\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}}\]
et:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
qui détermine \(\hat{a}_{0}\).

5.2.6 Droite de régression linéaire et résidus

On appelle droite de régression linéaire la droite d'équation:
\[\boxed{x\longmapsto\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
Remarquons que les variables \(\left\{ \hat{\varepsilon}_{i}\right\} _{i\in\left[1,n\right]}\) ne sont pas indépendantes car les équations déterminant les estimations \(\hat{a}_{1}\) et \(\hat{a}_{0}\) exigent:
\[\boxed{\left\{ \begin{array}{l}\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0\\\sum_{i=1}^{n}x_{i}\hat{\varepsilon}_{i}=0\end{array}\right.}\]
Donc seules \(k=n-2\) v.a. parmi \(\left\{ \varepsilon_{i,R}\right\} _{i\in\left[1,n\right]}\) sont indépendantes.
On dit qu'elles possèdent \(k=n-2\) degrés de liberté (d.d.l).
On a alors:
\[\boxed{S\left(\hat{a}_{0},\hat{a}_{1}\right)=\underset{\left\{ a_{0},a_{1}\right\} }{min}S\left(a_{0},a_{1}\right)=\frac{1}{\sigma^{2}}SCR}\]
où:
\[\boxed{SCR=\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}\]
est appelée somme des carrés des résidus.

5.2.7 Expression des écarts expliqués et des résidus en fonction des erreurs

Sur l'ensemble de l'échantillon, on appelle:

5.2.8 Expressions des écarts en fonction des erreurs

On part donc de:
\[\left\{ \begin{array}{lc}y_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i} & \left(1\right)\\\bar{y}=a_{0}+a_{1}\bar{x}+\overline{\varepsilon} & \left(2\right)\\\hat{y}_{i}=\hat{a}_{0}+\hat{a}_{1}x_{i} & \left(3\right)\end{array}\right.\]
où:
\[\overline{\varepsilon}=\frac{\sum_{i=1}^{n}\varepsilon_{i}}{n}\]
sachant que:
\[\begin{array}{cc}\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x} & \left(4\right)\end{array}\]
Pour exprimer l'écart expliqué en fonction des erreurs, remarquons que \(\hat{\varepsilon}_{i,E}\) est donné par \(\left(3\right)\) et \(\left(4\right)\):
\[\hat{\varepsilon}_{i,E}=\hat{y}_{i}-\bar{y}=\hat{a}_{0}+\hat{a}_{1}x_{i}-\left(\hat{a}_{0}+\hat{a}_{1}\bar{x}\right)\]
soit:
\[\begin{array}{cc}\boxed{\hat{\varepsilon}_{i,E}=\hat{a}_{1}\left(x_{i}-\bar{x}\right)} & \left(5\right)\end{array}\]
qui est expliqué au sens où il est déterminé en fonction de l'échantillon.
Pour exprimer l'écart résiduel en fonction des erreurs, remarquons que \(\hat{\varepsilon}_{i}\) est donné par \(\left(1\right)\) et \(\left(3\right)\):
\[\hat{\varepsilon}_{i}=y_{i}-\hat{y}_{i}=a_{0}+a_{1}x_{i}+\varepsilon_{i}-\left(\hat{a}_{0}+\hat{a}_{1}x_{i}\right)\]
soit:
\[\hat{\varepsilon}_{i}=a_{0}-\hat{a}_{0}+\left(a_{1}-\hat{a}_{1}\right)x_{i}+\varepsilon_{i}\]
Pour éliminer le coefficient \(a_{0}\) d'ordonnée à l'origine de la droite théorique, inconnu mais non aléatoire, utilisons \(\left(2\right)\) et \(\left(4\right)\) et éliminons \(\bar{y}\):
\[a_{0}+a_{1}\bar{x}+\overline{\varepsilon}=\hat{a}_{0}+\hat{a}_{1}\bar{x}\]
soit:
\[a_{0}+a_{1}x_{i}=a_{0}+a_{1}\bar{x}+a_{1}\left(x_{i}-\bar{x}\right)=\hat{a}_{0}+\hat{a}_{1}\bar{x}-\overline{\varepsilon}+a_{1}\left(x_{i}-\bar{x}\right)\]
donc:
\[\begin{array}{cc} \boxed{\hat{\varepsilon}_{i}=\left(a_{1}-\hat{a}_{1}\right)\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}} & \left(6\right)\end{array}\]
qui n'est donc pas déterminée en fonction du seul échantillon, mais qui pourra être estimée, en fonction des hypothèses sur les erreurs.
Comme \(a_{0},\) \(a_{1}\) est inconnu mais non aléatoire.
Pour exprimer l'écart total en fonction des erreurs, remarquons que \(\varepsilon_{i,T}\) est par définition par:
\[\varepsilon_{i,T}=y_{i}-\bar{y}=y_{i}-\hat{y}_{i}+\hat{y}_{i}-\bar{y}=\hat{\varepsilon}_{i}+\varepsilon_{i,E}\]
donc, d'après \(\left(5\right)\) et \(\left(6\right)\):
\[\begin{array}{cc} \boxed{\varepsilon_{i,T}=\hat{\varepsilon}_{i}+\hat{\varepsilon}_{i,E}=a_{1}\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}} & \left(7\right)\end{array}\]
Remarque:
On dispose donc:

5.2.9 Espérance de \(\hat{A}_{1}\) et \(\hat{A}_{0}\)

Posons:
\[\boxed{\eta_{i}=\frac{x_{i}-\bar{x}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}}\]
et remarquons que:
\[\boxed{\left\{ \begin{array}{lc}\sum_{i=1}^{n}\eta_{i}=0 & \left(\alpha\right)\\\sum_{i=1}^{n}\eta_{i}^{2}=\frac{1}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}} & \left(\beta\right)\end{array}\right.}\]
Preuve:
\(\forall i\in\left[1,n\right]\):
\[\sum_{j=1}^{n}\eta_{i}\eta_{j}=\eta_{i}\sum_{j=1}^{n}\eta_{j}=0\]
ce qui implique:
\[\begin{array}{cc}\sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}=0 & \left(\gamma\right)\end{array}\]
Comme:
\[\begin{array}{c} \sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}=\sum_{i=1}^{n}\sum_{j\neq i=1}^{n}\eta_{i}\eta_{j}+\sum_{i=1}^{n}\eta_{i}^{2}\end{array}\]
on déduit de \(\left(\beta\right)\) et \(\left(\gamma\right)\) que:
\[\begin{array}{c} \sum_{i=1}^{n}\sum_{j\neq i=1}^{n}\eta_{i}\eta_{j}=-\sum_{i=1}^{n}\eta_{i}^{2}=-\frac{1}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\end{array}\]
Les estimateurs des MCO sont donnés en fonctions des variables explicatives et des erreurs par, d'après \(\left(3\right)\) et \(\left(7\right)\):
\[\boxed{\left\{ \begin{array}{l}\hat{A}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(Y_{i}-\bar{Y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}=a_{1}+\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)\\\hat{A}_{0}=\bar{Y}-\hat{A}_{1}\bar{x}=a_{0}+\left(a_{1}-\hat{A}_{1}\right)\bar{x}+\bar{\varepsilon}=a_{0}-\bar{x}\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)+\bar{\varepsilon}\end{array}\right.}\]
Pour ne pas confondre avec la notation de l'espérance, les v.a. associées aux erreurs on encore été notées \(\varepsilon_{i}\).
Rappelons que les abscisses \(x_{i}\) sont déterminées, sachant que par ailleurs les erreurs sont décorrélées des variables explicatives.
Les estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) donnés par la méthode des moindres carrés sont donc bien des estimateurs linéaires sans biais et convergents:
\[\boxed{\left\{ \begin{array}{l}E\left(\hat{A}_{1}\right)=a_{1}\\E\left(\hat{A}_{0}\right)=a_{0}\end{array}\right.}\]
Preuve:
\[E\left(\hat{A}_{1}-a_{1}\right)=\sum_{i=1}^{n}\eta_{i}E\left(\varepsilon_{i}-\bar{\varepsilon}\right)\]
Puisque, \(\forall i\in\left[1,n\right]\):
\[E\left(\varepsilon_{i}\right)=0\]
on trouve donc que:
\[E\left(\varepsilon_{i}-\overline{\varepsilon}\right)=0\]
On a donc:
\[E\left(\hat{A}_{1}\right)=a_{1}\]
De même:
\[E\left(\hat{A}_{0}-a_{0}\right)=-\sum_{i=1}^{n}\eta_{i}E\left(\varepsilon_{i}-\bar{\varepsilon}\right)+E\left(\bar{\varepsilon}\right)=0\]
On a donc de même:
\[E\left(\hat{A}_{0}\right)=a_{0}\]
Ils sont convergents car leur variance tend vers \(0\) lorsque \(n\longrightarrow+\infty\) (voir paragraphe suivant).

5.2.10 Variance de \(\hat{A}_{1}\) et \(\hat{A}_{0}\) à \(\sigma\) connu

Les estimateurs \(V\left(\hat{A}_{1}\right)\) et \(V\left(\hat{A}_{0}\right)\) donnés par la méthode des moindres carrés sont donc donnés par:
\[\boxed{\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\left(n-1\right)s_{x}^{2}}=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{A}_{0}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right)=\sigma^{2}\left(\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\right)\end{array}\right.}\]
où:
\[V\left(\varepsilon_{i}\right)=\sigma^{2}\]
est la variance des erreurs, indépendante de \(i\).
Ces expressions ne sont manipulables que si \(\sigma\) est connue.
Preuve:
Remarquons que:
\[\boxed{\left\{ \begin{array}{l}\left(\hat{A}_{1}-a_{1}\right)^{2}=\sum_{i=1}^{n}\sum_{i=1}^{n}\eta_{i}\eta_{j}\left(\varepsilon_{i}-\bar{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)\\\left(\hat{A}_{0}-a_{0}\right)^{2}=\bar{x}^{2}\left(\hat{A}_{1}-a_{1}\right)^{2}-2\bar{x}\bar{\varepsilon}\sum_{i=1}^{n}\eta_{i}\left(\varepsilon_{i}-\bar{\varepsilon}\right)+\bar{\varepsilon}^{2}\end{array}\right.}\]
\(\hat{A}_{1}\) et \(\hat{A}_{0}\) étant sans biais:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=E\left[\left(\hat{A}_{1}-a_{1}\right)^{2}\right]=\sum_{i=1}^{n}\sum_{j=1}^{n}\eta_{i}\eta_{j}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)\right]\\V\left(\hat{A}_{0}\right)=E\left[\left(\hat{A}_{0}-a_{0}\right)^{2}\right]=\bar{x}^{2}V\left(\hat{A}_{0}\right)-2\bar{x}\sum_{i=1}^{n}\eta_{i}E\left[\left(\varepsilon_{i}-\bar{\varepsilon}\right)\bar{\varepsilon}\right]+E\left(\bar{\varepsilon}^{2}\right)\end{array}\right.\]
Rappelons que les abscisses \(x_{i}\) sont déterminées, ainsi par conséquent que les paramètres \(\eta_{i}\), sachant que par ailleurs les erreurs sont décorrélées des variables explicatives.
Les hypothèses sur les erreurs entraînent en outre, \(\forall k,l\in\left[1,n\right]\):
\[E\left(\varepsilon_{k}\varepsilon_{l}\right)=\sigma^{2}\delta_{k}^{l}\]
où \(\delta_{k}^{l}\) est le symbole de Kronecker.
Donc:
d'où:
On en déduit que:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\sum_{k=1}^{n}\left(x_{k}-\bar{x}\right)^{2}}\left(1-\frac{1}{n}+\frac{1}{n}\right)\\V\left(\hat{A}_{0}\right)=\bar{x}^{2}V\left(\hat{A}_{1}\right)-0+\frac{\sigma^{2}}{n}\end{array}\right.\]
soit:
\[\left\{ \begin{array}{l}V\left(\hat{A}_{1}\right)=\frac{\sigma^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\\V\left(\hat{A}_{0}\right)=\sigma^{2}\left[\frac{1}{n}+\frac{\bar{x}^{2}}{\left(n-1\right)s_{x}^{2}}\right]\end{array}\right.\]
Remarque:
Si \(\bar{x}\) et \(s_{x}^{2}\) ont formellement une limite finie lorsque \(n\longrightarrow+\infty\), on constate que \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\) tendent vers \(0\).
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) associés à un échantillon donnés par la méthode des moindres carrés sont alors convergents.

5.2.11 Estimateur \(\hat{\sigma}^{2}\) de \(\sigma^{2}\), \(\hat{V}\left(\hat{a}_{1}\right)\) de \(\hat{a}_{1}\)

On se place dans l'hypothèse où \(\sigma^{2}\) est inconnue: faute de mieux, on va alors chercher à l'estimer à partir de l'échantillon.
Introduisons les résidus:
\[\hat{\varepsilon}_{i}=y_{i}-\hat{y}_{i}\]
On rappelle que la variance des erreurs (notamment indépendantes et centrées) est définie par:
\[\sigma^{2}=E\left(\varepsilon_{i}^{2}\right)\]
et supposée indépendante de \(i\).
Alors:
\[\boxed{\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}\]
est un estimateur sans biais convergent de la variance des erreurs \(\sigma^{2}\):
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On en déduit un estimateur sans biais convergent noté \(\hat{V}\left(\hat{A}_{1}\right)\) de la variance de la pente \(\hat{A}_{1}\) de la droite de régression avec etimation de la variance des erreurs:
\[\boxed{\hat{V}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\frac{1}{n-2}\frac{\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
en gardant à l'esprit que les résidus possèdent \(k=n-2\) ddl.
Remarque:
La convergence de \(\Sigma^{2}\) vers \(\sigma^{2}\) lorsque \(n\longrightarrow\infty\) est lente, i.e. \(V\left(\Sigma^{2}\right)=O\left(\frac{1}{n}\right)\).
Preuve:
D'après \(\left(6\right)\):
\[\hat{\varepsilon}_{i}=\left(a_{1}-\hat{A}_{1}\right)\left(x_{i}-\bar{x}\right)+\varepsilon_{i}-\overline{\varepsilon}=-\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{j}-\bar{\varepsilon}\right)+\varepsilon_{i}-\overline{\varepsilon}\]
d'espérance:
\[E\left(\hat{\varepsilon}_{i}\right)=0\]
Or:
\[\hat{\varepsilon}_{i}^{2}=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\left(\varepsilon_{j}-\bar{\varepsilon}\right)\left(\varepsilon_{k}-\bar{\varepsilon}\right)-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)+\left(\varepsilon_{i}-\overline{\varepsilon}\right)^{2}\]
Remarquons que:
\[\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\left(\varepsilon_{j}-\bar{\varepsilon}\right)\left(\varepsilon_{k}-\bar{\varepsilon}\right)=\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}\varepsilon_{k}\]
car, d'après \(\left(\alpha\right)\) et \(\left(\gamma\right)\):
\[\left\{ \begin{array}{l}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}=\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\sum_{k=1}^{n}\eta_{k}=0\\\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}=0\end{array}\right.\]
De même:
\[\sum_{j=1}^{n}\eta_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)=\left(\varepsilon_{i}-\overline{\varepsilon}\right)\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\]
donc:
\[\hat{\varepsilon}_{i}^{2}=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\varepsilon_{j}\varepsilon_{k}-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\varepsilon_{j}\left(\varepsilon_{i}-\overline{\varepsilon}\right)+\left(\varepsilon_{i}-\overline{\varepsilon}\right)^{2}\]
On obtient alors:
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\sum_{k=1}^{n}\eta_{j}\eta_{k}\sigma^{2}\delta_{j}^{k}-2\left(x_{i}-\bar{x}\right)\sum_{j=1}^{n}\eta_{j}\left(\delta_{i}^{j}-\frac{1}{n}\right)+\sigma^{2}\left(1-\frac{1}{n}\right)\]
ou, d'après \(\left(\alpha\right)\):
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\sigma^{2}\left(x_{i}-\bar{x}\right)^{2}\sum_{j=1}^{n}\eta_{j}^{2}-2\left(x_{i}-\bar{x}\right)\eta_{i}+\sigma^{2}\left(1-\frac{1}{n}\right)=\sigma^{2}\left(-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}+1-\frac{1}{n}\right)\]
Finalement:
\[E\left(\hat{\varepsilon}_{i}^{2}\right)=\sigma^{2}\left(1-\frac{1}{n}-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right)\]
donc:
\[E\left(\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\right)=\left(n-2\right)\sigma^{2}\]
On trouve donc que:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\]
est bien bien un estimateur sans biais de \(\sigma^{2}\) puisque:
\[E\left(\Sigma^{2}\right)=\sigma^{2}\]
On admettra ensuite que:
\[V\left(\Sigma^{2}\right)=\frac{1}{\left(n-2\right)^{2}}\sum_{i=1}^{n}\sum_{k=1}^{n}E\left(\varepsilon_{i,R}^{2}\varepsilon_{k,R}^{2}\right)-\sigma^{4}\]
tend bien vers \(0\) lors que \(n\longrightarrow+\infty\) de sorte que l'estimateur \(\Sigma^{2}\) est bien convergent.
Plus précisément, on montre que:
\[V\left(\Sigma^{2}\right)=O\left(\frac{1}{n}\right)\]
ce qui signifie que cette convergence est lente.

5.2.12 Hypothèse supplémentaire: les variables aléatoires \(\left\{ \varepsilon_{i}\right\} \) suivent une loi normale centrée \(\mathcal{N}\left(0,\sigma^{2}\right)\)

Supposons qu'en plus des hypothèses précédentes sur les erreurs, celles-ci sont notamment indépendantes et suivent une loi normale centrée de même variance \(\sigma^{2}\).
Introduisons la v.a. centrée:
\[Z=\frac{\hat{A}_{1}-a_{1}}{\sqrt{V\left(\hat{A}_{1}\right)}}=\frac{\hat{A}_{1}-a_{1}}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}}\]
Alors:
\[\boxed{Z=\frac{\hat{A}_{1}-a_{1}}{\frac{\sigma}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}}\sim\mathcal{N}\left(0,1\right)}\]
Preuve:
Les v.a. \(\varepsilon_{i,cr}=\frac{\varepsilon_{i}}{\sigma}\) forment une famille iid suivant une loi \(\mathcal{N}\left(0,1\right)\).
On a déjà montré que:
\[\hat{A}_{1}-a_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(\varepsilon_{i}-\overline{\varepsilon}\right)}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}=\sum_{i=1}^{n}\lambda_{i}\left(\varepsilon_{i}-\overline{\varepsilon}\right)=\sum_{i=1}^{n}\lambda_{i}\varepsilon_{i}-0\]
car:
\[\sum_{i=1}^{n}\lambda_{i}=0\]
Donc si \(\varepsilon_{i}\sim\mathcal{N}\left(0,\sigma\right)\), sachant qu'elles sont indépendantes:
\[\hat{A}_{1}-a_{1}=\sum_{i=1}^{n}\lambda_{i}\varepsilon_{i}\sim\mathcal{N}\left[0,\sigma^{2}\left(\sum_{i=1}^{n}\lambda_{i}^{2}\right)\right]=\mathcal{N}\left[0,\frac{\sigma^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right]\]
ou:
\[\frac{\hat{A}_{1}-a_{1}}{\sqrt{V\left(\hat{a}_{1}\right)}}\sim\mathcal{N}\left(0,1\right)\]
Intéressons-nous maintenant à la v.a.:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\left(Y_{i}-\hat{Y}_{i}\right)^{2}\]
Remarquons que:
\[\hat{\varepsilon}_{i}=-\left(x_{i}-\bar{x}\right)\frac{\sum_{j=1}^{n}\left(x_{j}-\bar{x}\right)\left(\varepsilon_{j}-\bar{\varepsilon}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}+\varepsilon_{i}-\overline{\varepsilon}\]
forme une C.L. des erreurs \(\left\{ \varepsilon_{i}\right\} \) supposées indépendantes de même loi \(\mathcal{N}\left(0,\sigma^{2}\right)\).
Alors, les résidus \(\hat{\varepsilon}_{i}\), formant une famille \(iid\) à \(n-2\) degrés de liberté, suivent une loi \(\mathcal{N}\left(0,\sigma_{i,R}^{2}\right)\) avec:\[\hat{\sigma}_{i}^{2}=E\left(\hat{\varepsilon}_{i}^{2}\right)-0=\sigma^{2}\left(1-\frac{1}{n}-\frac{\left(x_{i}-\bar{x}\right)^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}\right)\]
On peut alors rechercher en principe la loi de la v.a.:
\[\Sigma^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}\]

5.2.13 Lien entre SCR, SCE et SCT

Bilan:
On a donc la relation:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.
Cette relation s'apparente à une relation d'orthogonalité.
Preuve:
En effet:
\[\varepsilon_{i,T}^{2}=\left(\hat{\varepsilon}_{i}+\varepsilon_{i,E}\right)^{2}=\hat{\varepsilon}_{i}^{2}+2\hat{\varepsilon}_{i}\hat{\varepsilon}_{i,E}+\hat{\varepsilon}_{i,E}^{2}\]
Examinons le terme:
\[K=\sum_{i=1}^{n}\hat{\varepsilon}_{i}\hat{\varepsilon}_{i,E}=\sum_{i=1}^{n}\hat{\varepsilon}_{i}\left(\hat{y}_{i}-\bar{y}\right)=\hat{a}_{1}\sum_{i=1}^{n}\hat{\varepsilon}_{i}\left(x_{i}-\bar{x}\right)\]
En utilisant les contraintes sur les erreurs résiduelles:
\[K=\hat{a}_{1}\left(\sum_{i=1}^{n}\hat{\varepsilon}_{i}x_{i}-\bar{x}\sum_{i=1}^{n}\hat{\varepsilon}_{i}\right)=0-0=0\]
On a donc bien:
\[SCT=\sum_{i=1}^{n}\varepsilon_{i,T}^{2}=\sum_{i=1}^{n}\left(\hat{\varepsilon}_{i}+\hat{\varepsilon}_{i,E}\right)^{2}=\sum_{i=1}^{n}\hat{\varepsilon}_{i}^{2}+0+\sum_{i=1}^{n}\hat{\varepsilon}_{i,E}^{2}=SCR+SCE\]
Bilan:
On a donc la relation:
\[\boxed{SCT=SCE+SCR}\]
On comprend pourquoi \(SCT\) est appelée erreur totale.
Remarque:
Cette relation ressemble à une relation d'orthogonalité.

5.2.14 Coefficient de corrélation empirique \(r\)

On appelle coefficient de corrélation empirique associé à l'échantillon:
\[\boxed{r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}}\]
Interprétation:
Considérons que:
Remarquons alors que:
\(r\) se met sous la forme:
\[r=\frac{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)\left(y_{i}-\hat{\mu}_{Y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\hat{\mu}_{X}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\hat{\mu}_{Y}\right)^{2}}}=\frac{cov\left(XY\right)}{\sqrt{V\left(X\right)\sqrt{V\left(Y\right)}}}\]
où:
Remarque importante:
On a:
\[\boxed{-1\leq r\leq1}\]
En effet, en écrivant que, \(\forall\lambda\in\mathbb{R}\):
\[V\left(\lambda X+Y\right)=\lambda^{2}V\left(X\right)+2\lambda cov\left(XY\right)+V\left(Y\right)\geq0\]
On en déduit que ceci exige:
\[\triangle^{\prime}=cov^{2}\left(XY\right)-V\left(X\right)V\left(Y\right)\leq0\]
soit:
\[r^{2}\leq1\]
donc:
\[-1\leq r\leq1\]

5.2.15 Coefficient de détermination

On appelle coefficient de détermination le rapport:
\[\boxed{R=\frac{SCE}{SCT}=1-\frac{SCR}{SCT}}\]
\(R\) appartient à \(\left[0,1\right]\).
Il est donc d'autant plus proche de \(1\) que l'erreur expliquée est grande devant l'erreur résiduelle.
Expression de \(R\) en fonction de corrélation empirique r:
On a:
\[\boxed{R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}\]
Preuve:
L'erreur expliquée vaut:
\[SCE=\sum_{i=1}^{n}\varepsilon_{i,E}^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}=\hat{a}_{1}^{2}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\hat{a}_{1}^{2}s_{x}^{2}\]
Or:
\[\hat{a}_{1}=\frac{s_{xy}}{s_{x}^{2}}\]
donc:
\[SCE=\frac{s_{xy}^{2}}{s_{x}^{2}}\]
En remarquant que:
\[SCT=\sum_{i=1}^{n}\varepsilon_{i,T}^{2}=\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=s_{y}^{2}\]
le coefficient de détermination:
\[R=\frac{SCE}{SCT}\]
s'écrit donc bien:
\[R=r^{2}=\frac{s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}\]
avec:
\[r=\frac{s_{xy}}{s_{x}s_{y}}\]
qui s'interprète comme un coefficient de corrélation.

5.2.16 \(R=r^{2}\) seul est un mauvais indicateur

La seule donnée de \(R\) ne permet pas d'affirmer que l'échantillon approche ou non la droite des moindres carrés.
A cet égard, c'est un mauvais indicateur.
En revanche, quand on examine un graphe, si l'échantillon approche la droite des moindres carrés, il n'est pas faux d'affirmer que \(R\) s'approche d'autant plus de 1 que les échantillons en sont proches.
Il est donc utile de développer d'autres arguments pour valider le modèle linéaire proposé.