5.3 Généralisation de la méthode des MCO
5.3.1 Echantillon
On s'intéresse à une grandeur physique \(\mathcal{Y}\) qui est causalement fonction de \(\mathcal{X}\).
On dispose d'un échantillon \(Ech\) constitué d'une série de \(n\) mesures retournant les couples \(\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \).
- Les abscisses sont alors interprétées comme des réalisations des v.a. \(X_{1},..,X_{n}\) supposées indépendantes, de variances\(\sigma_{X,i}\): on continuera de les appeler variables expliquées
- Les ordonnées sont alors interprétées comme des réalisations des v.a. \(Y_{1},..,Y_{n}\) supposées indépendantes, de variances \(\sigma_{Y,i}\): elles sont appelées variables explicatives
A chaque abscisse \(x_{i}\), on associe donc une v.a. \(Y_{i}=\left(Y|X_{i}=x_{i}\right)\).
5.3.2 Hypothèse d'une loi linéaire théorique
On envisage une loi linéaire théorique simple (i.e. \(Y\) ne dépend que d'une seule variable réelle \(X\)) de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}X_{i}+\varepsilon_{i,Y}}\]
- \(a_{0}\) et \(a_{1}\) sont \(2\) paramètres réels non aléatoires mais non observables, que l'on va chercher à estimer
- \(\varepsilon_{i,Y}\) est une v.a appelée erreur: c'est l'écart non observable au modèle linéaire théorique sur la mesure de \(Y_{i}\)
La droite \(\left(D\right)\) d'équation:
\[Y_{th}=a_{0}+a_{1}X\]
est appelée droite théorique du modèle linéaire.
5.3.3 Hypothèses sur les erreurs
On généralisera donc au cas d'erreurs de variance distinctes, i.e. pour lesquelles:
- les erreurs \(\varepsilon_{X,1},..,\varepsilon_{X,n}\) sont:
- centrées i.e. \(E\left(\varepsilon_{X,i}\right)=0\)
- de variance \(V\left(\varepsilon_{X,i}\right)=\sigma_{X,i}^{2}\) (hétéroscédasticité)
- indépendantes
- les erreurs \(\varepsilon_{Y,1},..,\varepsilon_{Y,n}\) sont:
- centrées i.e. \(E\left(\varepsilon_{Y,i}\right)=0\)
- de variance \(V\left(\varepsilon_{Y,i}\right)=\sigma_{Y,i}^{2}\) (hétéroscédasticité)
- indépendantes
- les erreurs \(\varepsilon_{Y,i}\) sont décorrelées de \(X_{i}\)
5.3.4 Cas où les erreurs suivent une loi normale centrée de variance différente
On alors, puisque:
\[E\left(\varepsilon_{X,i}\right)=0\]
une densité de probabilité:
\[f_{\varepsilon_{X,i}}\left(e_{i}\right)=\frac{1}{\sigma_{X,i}\sqrt{2\pi}}e^{-\frac{e_{i}^{2}}{2\sigma_{X,i}^{2}}}\]
et:
\[E\left(\varepsilon_{Y,j}\right)=0\]
une densité de probabilité:
\[f_{\varepsilon_{Y,j}}\left(e_{j}\right)=\frac{1}{\sigma_{Y,i}\sqrt{2\pi}}e^{-\frac{e_{j}^{2}}{2\sigma_{Y,j}^{2}}}\]
5.3.5 Notations
On s'intéresse à \(n\) mesures retournant \(\left[\left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right]\) où:
- \(x_{i}\) est déterminée
- \(y_{i}\) est une réalisation de la v.a. \(Y_{i}\) d'écart-type \(\sigma_{Y}\)
On pose:
\[\boxed{\left\{ \begin{array}{l}w_{X,i}=\frac{1}{\sigma_{X,i}^{2}}\\w_{Y,j}=\frac{1}{\sigma_{Y,j}^{2}}\end{array}\right.}\]
puis:
\[\boxed{\left\{ \begin{array}{l}\overline{x}=\frac{\sum_{i=1}^{n}w_{X,i}x_{i}}{w_{X}}\\\overline{y}=\frac{\sum_{i=1}^{n}w_{Y,i}y_{i}}{w_{Y}}\\s_{x}^{2}=\frac{1}{n-1}\frac{\sum_{i=1}^{n}w_{Y,i}\left(x_{i}-\overline{x}\right)^{2}}{w_{Y}}\\s_{y}^{2}=\frac{1}{n-1}\frac{\sum_{i=1}^{n}w_{Y,i}\left(y_{i}-\overline{y}\right)^{2}}{w_{Y}}\\s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)\left(y_{i}-\overline{y}_{n}\right)\end{array}\right.}\]
et:
\[\boxed{\left\{ \begin{array}{l}r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}\\R=r^{2}\end{array}\right.}\]
en ayant omis l'indice \(n\) dans les moyennes géométriques et les écarts-type corrigés.
5.3.6 Principe de la méthode (Deming)
La méthode des moindres carrés ordinaires pondérés (MCOP) proposée par Deming retourne donc des estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) minimisant la fonction:
\[S:\left(\left\{ \hat{x}_{i}\right\} ,a_{0},a_{1}\right)\longmapsto\sum_{i=1}^{n}\left(w_{X,i}\varepsilon_{X,i}^{2}+w_{Y,i}\varepsilon_{X,i}^{2}\right)=\sum_{i=1}^{n}\left[\frac{\left(x_{i}-\hat{x}_{i}\right)^{2}}{\sigma_{X,i}^{2}}+\frac{\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)^{2}}{\sigma_{Y,i}^{2}}\right]\]
où:
\[\left\{ \begin{array}{l}\varepsilon_{X,i}=x_{i}-\hat{x}_{i}\\\varepsilon_{Y,j}=y_{j}-\hat{y}_{j}\end{array}\right.\]
désignent les résidus pour les abscisses et les ordonnées et:
\[\left\{ \begin{array}{l}w_{X,i}=\frac{1}{\sigma_{X,i}^{2}}\\w_{Y,j}=\frac{1}{\sigma_{Y,j}^{2}}\end{array}\right.\]
sont les poids correspondants.
Elle s'inspire de la méthode du maximum de vraisemblance qui conduit à la même minimisation dans le cas de v.a.:
- \(\varepsilon_{i,X}\) indépendantes suivant une loi \(\mathcal{N}\left(0,\sigma_{X,i}^{2}\right)\)
- \(\varepsilon_{j,Y}\) indépendantes suivant une loi \(\mathcal{N}\left(0,\sigma_{Y,j}^{2}\right)\)
5.3.7 Estimateurs par la méthode “moindres carrés ordinaires”
Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés ordinaires (MCO) valident nécessairement, pour \(k\in\left[1,n\right]\), les \(n+2\) conditions:
\[\left\{ \begin{array}{lc}\frac{\partial S}{\partial\hat{x}_{k}}=-2\left[w_{X,i}\left(x_{k}-\hat{x}_{k}\right)+a_{1}w_{Y,k}\left(y_{k}-a_{0}-a_{1}\hat{x}_{k}\right)\right]=0 & \left(1\right)\\\frac{\partial S}{\partial a_{0}}=-2\sum_{i=1}^{n}w_{Y,i}\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)=0 & \left(2\right)\\\frac{\partial S}{\partial a_{1}}=-2\sum_{i=1}^{n}w_{Y,i}\hat{x}_{i}\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)=0 & \left(3\right)\end{array}\right.\]
\(\left(1\right)\) conduit à:
\[y_{k}-a_{0}-a_{1}\hat{x}_{k}=-\frac{w_{X,k}}{w_{Y,k}}\frac{x_{k}-\hat{x}_{k}}{a_{1}}\]
soit:
\[\hat{x}_{k}=\frac{w_{X,k}x_{k}+a_{1}w_{Y,k}\left(y_{k}-a_{0}\right)}{w_{X,k}+a_{1}^{2}w_{Y,k}}\]
d'où:
\[x_{k}-\hat{x}_{k}=-a_{1}\frac{w_{Y,k}}{w_{X,k}+a_{1}^{2}w_{Y,k}}\left(y_{k}-a_{0}-a_{1}x_{k}\right)\]
\(\left(2\right)\) et \(\left(3\right)\) s'écrivent donc:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}w_{X,i}\left(x_{i}-\hat{x}_{i}\right)=0\\\sum_{i=1}^{n}\hat{x}_{i}w_{X,i}\left(x_{i}-\hat{x}_{i}\right)=0\end{array}\right.\]
soit:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}\frac{w_{X,i}w_{Y,i}}{w_{X,i}+a_{1}^{2}w_{Y,i}}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\sum_{i=1}^{n}\frac{w_{X,i}w_{Y,i}}{\left(w_{X,i}+a_{1}^{2}w_{Y,i}\right)^{2}}\left[w_{X,i}x_{i}+a_{1}w_{Y,i}\left(y_{i}-a_{0}\right)\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
\(a_{0}\) et \(a_{1}\)sont donc solutions d'un système non linéaire compliqué.
5.3.8 Cas où les variances sont identiques pour les abscisses et pour les ordonnées
Dans ce cas:
\[\left\{ \begin{array}{l}w_{X,i}=w_{X}=\frac{1}{\sigma_{X}^{2}}\\w_{Y,i}=w_{Y}=\frac{1}{\sigma_{Y}^{2}}\end{array}\right.\]
sont indépendants de \(i\).
Posons:
\[\lambda=\frac{w_{Y}}{w_{X}}=\frac{\sigma_{X}^{2}}{\sigma_{Y}^{2}}\]
On a alors:
\[y_{k}-a_{0}-a_{1}\hat{x}_{k}=-\frac{x_{k}-\hat{x}_{k}}{\lambda a_{1}}\]
soit:
\[\boxed{\hat{x}_{k}=\frac{x_{k}+\lambda a_{1}\left(y_{k}-a_{0}\right)}{1+\lambda a_{1}^{2}}}\]
qui comme attendu conduit à:
\[\hat{x}_{k}=x_{k}\]
si \(\lambda=0\).
On trouve:
\[x_{k}-\hat{x}_{k}=-\frac{a_{1}}{1+\lambda a_{1}^{2}}\left(y_{k}-a_{0}-a_{1}x_{k}\right)\]
On a donc:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\sum_{i=1}^{n}\hat{x}_{i}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
à rapprocher du système obtenu dans le cas des abscisses expliquées pour lesquelles \(\hat{x}_{i}\longleftarrow x_{i}\) si \(\lambda=0\).
\[\left\{ \begin{array}{lc}\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0 & \left(\alpha\right)\\\sum_{i=1}^{n}\left[x_{i}+\lambda a_{1}\left(y_{i}-a_{0}\right)\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0 & \left(\beta\right)\end{array}\right.\]
\(\left(\alpha\right)\) redonne:
\[\overline{y}-a_{0}-a_{1}\overline{x}=0\]
En remarquant que \(\left(\beta\right)+\lambda a_{1}a_{0}\left(\alpha\right)\) implique:
\[\sum_{i=1}^{n}\left[x_{i}+\lambda a_{1}y_{i}\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\]
ou:
\[\sum_{i=1}^{n}\left[x_{i}-\overline{x}+\lambda a_{1}\left(y_{i}-\overline{y}\right)\right]\left[y_{i}-\overline{y}-a_{1}\left(x_{i}-\overline{x}\right)\right]=0\]
On obtient:
\[s_{xy}-a_{1}s_{x}+\lambda a_{1}\left(s_{y}-a_{1}s_{xy}\right)=0\]
Finalement, si \(\lambda\) est non nul, \(a_{1}\) est solution d'une équation du second degré:
\[\boxed{\lambda s_{xy}a_{1}^{2}+\left(s_{x}-\lambda s_{y}\right)a_{1}-s_{xy}=0}\]
On obtient ainsi \(2\) estimateurs linéaires \(\hat{a}_{0}\) et \(\hat{a}_{1}\) des coefficients \(a_{0}\) et \(a_{1}\) appelés estimateurs des ceofficients de la droite de régression linéaire par la méthode des MCO.
5.3.9 Expressions des estimateurs \(\hat{a}_{0}\) et \(\hat{a}_{1}\) obtenus la méthode des MCO à abscisses fluctuantes
L'équation:
\[\lambda s_{xy}a_{1}^{2}+\left(s_{x}-\lambda s_{y}\right)a_{1}-s_{xy}=0\]
a pour discriminant:
\[\triangle=\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}\]
qui est donc positif.
Si \(\lambda\neq0\):
\[a_{1}=\frac{-\left(s_{x}-\lambda s_{y}\right)\pm\sqrt{\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}}}{2\lambda s_{xy}}\]
On ne va conserver que la solution qui tend vers celle \(\frac{s_{xy}}{s_{x}^{2}}\) obtenue pour les MCO si \(\lambda\longrightarrow0\):
\[\boxed{\hat{a}_{1}=\frac{-\left(s_{x}-\lambda s_{y}\right)+\sqrt{\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}}}{2\lambda s_{xy}}}\]
On déduit \(\hat{a}_{0}\) de l'équation:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
5.3.10 Point moyen \(\left(\bar{x},\bar{y}\right)\) et droite de régression
On remarque donc que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]
5.3.11 Bilan
On peut donc généraliser la méthode des MCO au cas des abscisses fluctuantes, le cas échéant de varainces différentes, mais les estimateurs \(\hat{A}_{1}\) et\(\hat{A}_{0}\) correspondants ont des expressions compliquées mais calculables.
En revanche, le calcul rigoureux de l'espérance et de la variance de ces estimateurs apparaît hors de portée, notamment en raison d'une contribution des erreurs au terme figurant au dénominateur et dans une racine carrée.
Ceci en limite l'intérête dès lors que l'on cherche à estimer la dispersion associée à ces estimateurs.