5.3 Généralisation de la méthode des MCO

5.3.1 Echantillon

On s'intéresse à une grandeur physique \(\mathcal{Y}\) qui est causalement fonction de \(\mathcal{X}\).
On dispose d'un échantillon \(Ech\) constitué d'une série de \(n\) mesures retournant les couples \(\left\{ \left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right\} \).
A chaque abscisse \(x_{i}\), on associe donc une v.a. \(Y_{i}=\left(Y|X_{i}=x_{i}\right)\).

5.3.2 Hypothèse d'une loi linéaire théorique

On envisage une loi linéaire théorique simple (i.e. \(Y\) ne dépend que d'une seule variable réelle \(X\)) de la forme:
\[\boxed{Y_{i}=a_{0}+a_{1}X_{i}+\varepsilon_{i,Y}}\]
La droite \(\left(D\right)\) d'équation:
\[Y_{th}=a_{0}+a_{1}X\]
est appelée droite théorique du modèle linéaire.

5.3.3 Hypothèses sur les erreurs

On généralisera donc au cas d'erreurs de variance distinctes, i.e. pour lesquelles:

5.3.4 Cas où les erreurs suivent une loi normale centrée de variance différente

On alors, puisque:
\[E\left(\varepsilon_{X,i}\right)=0\]
une densité de probabilité:
\[f_{\varepsilon_{X,i}}\left(e_{i}\right)=\frac{1}{\sigma_{X,i}\sqrt{2\pi}}e^{-\frac{e_{i}^{2}}{2\sigma_{X,i}^{2}}}\]
et:
\[E\left(\varepsilon_{Y,j}\right)=0\]
une densité de probabilité:
\[f_{\varepsilon_{Y,j}}\left(e_{j}\right)=\frac{1}{\sigma_{Y,i}\sqrt{2\pi}}e^{-\frac{e_{j}^{2}}{2\sigma_{Y,j}^{2}}}\]

5.3.5 Notations

On s'intéresse à \(n\) mesures retournant \(\left[\left(x_{1},y_{1}\right),...,\left(x_{n},y_{n}\right)\right]\) où:
On pose:
\[\boxed{\left\{ \begin{array}{l}w_{X,i}=\frac{1}{\sigma_{X,i}^{2}}\\w_{Y,j}=\frac{1}{\sigma_{Y,j}^{2}}\end{array}\right.}\]
puis:
\[\boxed{\left\{ \begin{array}{l}\overline{x}=\frac{\sum_{i=1}^{n}w_{X,i}x_{i}}{w_{X}}\\\overline{y}=\frac{\sum_{i=1}^{n}w_{Y,i}y_{i}}{w_{Y}}\\s_{x}^{2}=\frac{1}{n-1}\frac{\sum_{i=1}^{n}w_{Y,i}\left(x_{i}-\overline{x}\right)^{2}}{w_{Y}}\\s_{y}^{2}=\frac{1}{n-1}\frac{\sum_{i=1}^{n}w_{Y,i}\left(y_{i}-\overline{y}\right)^{2}}{w_{Y}}\\s_{xy}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\overline{x}_{n}\right)\left(y_{i}-\overline{y}_{n}\right)\end{array}\right.}\]
et:
\[\boxed{\left\{ \begin{array}{l}r=\frac{s_{xy}}{\sqrt{s_{x}^{2}}\sqrt{s_{y}^{2}}}\\R=r^{2}\end{array}\right.}\]
en ayant omis l'indice \(n\) dans les moyennes géométriques et les écarts-type corrigés.

5.3.6 Principe de la méthode (Deming)

La méthode des moindres carrés ordinaires pondérés (MCOP) proposée par Deming retourne donc des estimateurs \(\hat{A}_{1}\) et \(\hat{A}_{0}\) minimisant la fonction:
\[S:\left(\left\{ \hat{x}_{i}\right\} ,a_{0},a_{1}\right)\longmapsto\sum_{i=1}^{n}\left(w_{X,i}\varepsilon_{X,i}^{2}+w_{Y,i}\varepsilon_{X,i}^{2}\right)=\sum_{i=1}^{n}\left[\frac{\left(x_{i}-\hat{x}_{i}\right)^{2}}{\sigma_{X,i}^{2}}+\frac{\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)^{2}}{\sigma_{Y,i}^{2}}\right]\]
où:
\[\left\{ \begin{array}{l}\varepsilon_{X,i}=x_{i}-\hat{x}_{i}\\\varepsilon_{Y,j}=y_{j}-\hat{y}_{j}\end{array}\right.\]
désignent les résidus pour les abscisses et les ordonnées et:
\[\left\{ \begin{array}{l}w_{X,i}=\frac{1}{\sigma_{X,i}^{2}}\\w_{Y,j}=\frac{1}{\sigma_{Y,j}^{2}}\end{array}\right.\]
sont les poids correspondants.
Elle s'inspire de la méthode du maximum de vraisemblance qui conduit à la même minimisation dans le cas de v.a.:

5.3.7 Estimateurs par la méthode “moindres carrés ordinaires”

Les estimateurs \(\hat{a}_{1}\) et \(\hat{a}_{0}\) donnés par la méthode des moindres carrés ordinaires (MCO) valident nécessairement, pour \(k\in\left[1,n\right]\), les \(n+2\) conditions:
\[\left\{ \begin{array}{lc}\frac{\partial S}{\partial\hat{x}_{k}}=-2\left[w_{X,i}\left(x_{k}-\hat{x}_{k}\right)+a_{1}w_{Y,k}\left(y_{k}-a_{0}-a_{1}\hat{x}_{k}\right)\right]=0 & \left(1\right)\\\frac{\partial S}{\partial a_{0}}=-2\sum_{i=1}^{n}w_{Y,i}\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)=0 & \left(2\right)\\\frac{\partial S}{\partial a_{1}}=-2\sum_{i=1}^{n}w_{Y,i}\hat{x}_{i}\left(y_{i}-a_{0}-a_{1}\hat{x}_{i}\right)=0 & \left(3\right)\end{array}\right.\]
\(\left(1\right)\) conduit à:
\[y_{k}-a_{0}-a_{1}\hat{x}_{k}=-\frac{w_{X,k}}{w_{Y,k}}\frac{x_{k}-\hat{x}_{k}}{a_{1}}\]
soit:
\[\hat{x}_{k}=\frac{w_{X,k}x_{k}+a_{1}w_{Y,k}\left(y_{k}-a_{0}\right)}{w_{X,k}+a_{1}^{2}w_{Y,k}}\]
d'où:
\[x_{k}-\hat{x}_{k}=-a_{1}\frac{w_{Y,k}}{w_{X,k}+a_{1}^{2}w_{Y,k}}\left(y_{k}-a_{0}-a_{1}x_{k}\right)\]
\(\left(2\right)\) et \(\left(3\right)\) s'écrivent donc:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}w_{X,i}\left(x_{i}-\hat{x}_{i}\right)=0\\\sum_{i=1}^{n}\hat{x}_{i}w_{X,i}\left(x_{i}-\hat{x}_{i}\right)=0\end{array}\right.\]
soit:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}\frac{w_{X,i}w_{Y,i}}{w_{X,i}+a_{1}^{2}w_{Y,i}}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\sum_{i=1}^{n}\frac{w_{X,i}w_{Y,i}}{\left(w_{X,i}+a_{1}^{2}w_{Y,i}\right)^{2}}\left[w_{X,i}x_{i}+a_{1}w_{Y,i}\left(y_{i}-a_{0}\right)\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
\(a_{0}\) et \(a_{1}\)sont donc solutions d'un système non linéaire compliqué.

5.3.8 Cas où les variances sont identiques pour les abscisses et pour les ordonnées

Dans ce cas:
\[\left\{ \begin{array}{l}w_{X,i}=w_{X}=\frac{1}{\sigma_{X}^{2}}\\w_{Y,i}=w_{Y}=\frac{1}{\sigma_{Y}^{2}}\end{array}\right.\]
sont indépendants de \(i\).
Posons:
\[\lambda=\frac{w_{Y}}{w_{X}}=\frac{\sigma_{X}^{2}}{\sigma_{Y}^{2}}\]
On a alors:
\[y_{k}-a_{0}-a_{1}\hat{x}_{k}=-\frac{x_{k}-\hat{x}_{k}}{\lambda a_{1}}\]
soit:
\[\boxed{\hat{x}_{k}=\frac{x_{k}+\lambda a_{1}\left(y_{k}-a_{0}\right)}{1+\lambda a_{1}^{2}}}\]
qui comme attendu conduit à:
\[\hat{x}_{k}=x_{k}\]
si \(\lambda=0\).
On trouve:
\[x_{k}-\hat{x}_{k}=-\frac{a_{1}}{1+\lambda a_{1}^{2}}\left(y_{k}-a_{0}-a_{1}x_{k}\right)\]
On a donc:
\[\left\{ \begin{array}{l}\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\\\sum_{i=1}^{n}\hat{x}_{i}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\end{array}\right.\]
à rapprocher du système obtenu dans le cas des abscisses expliquées pour lesquelles \(\hat{x}_{i}\longleftarrow x_{i}\) si \(\lambda=0\).
\[\left\{ \begin{array}{lc}\sum_{i=1}^{n}\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0 & \left(\alpha\right)\\\sum_{i=1}^{n}\left[x_{i}+\lambda a_{1}\left(y_{i}-a_{0}\right)\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0 & \left(\beta\right)\end{array}\right.\]
\(\left(\alpha\right)\) redonne:
\[\overline{y}-a_{0}-a_{1}\overline{x}=0\]
En remarquant que \(\left(\beta\right)+\lambda a_{1}a_{0}\left(\alpha\right)\) implique:
\[\sum_{i=1}^{n}\left[x_{i}+\lambda a_{1}y_{i}\right]\left(y_{i}-a_{0}-a_{1}x_{i}\right)=0\]
ou:
\[\sum_{i=1}^{n}\left[x_{i}-\overline{x}+\lambda a_{1}\left(y_{i}-\overline{y}\right)\right]\left[y_{i}-\overline{y}-a_{1}\left(x_{i}-\overline{x}\right)\right]=0\]
On obtient:
\[s_{xy}-a_{1}s_{x}+\lambda a_{1}\left(s_{y}-a_{1}s_{xy}\right)=0\]
Finalement, si \(\lambda\) est non nul, \(a_{1}\) est solution d'une équation du second degré:
\[\boxed{\lambda s_{xy}a_{1}^{2}+\left(s_{x}-\lambda s_{y}\right)a_{1}-s_{xy}=0}\]
On obtient ainsi \(2\) estimateurs linéaires \(\hat{a}_{0}\) et \(\hat{a}_{1}\) des coefficients \(a_{0}\) et \(a_{1}\) appelés estimateurs des ceofficients de la droite de régression linéaire par la méthode des MCO.

5.3.9 Expressions des estimateurs \(\hat{a}_{0}\) et \(\hat{a}_{1}\) obtenus la méthode des MCO à abscisses fluctuantes

L'équation:
\[\lambda s_{xy}a_{1}^{2}+\left(s_{x}-\lambda s_{y}\right)a_{1}-s_{xy}=0\]
a pour discriminant:
\[\triangle=\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}\]
qui est donc positif.
Si \(\lambda\neq0\):
\[a_{1}=\frac{-\left(s_{x}-\lambda s_{y}\right)\pm\sqrt{\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}}}{2\lambda s_{xy}}\]
On ne va conserver que la solution qui tend vers celle \(\frac{s_{xy}}{s_{x}^{2}}\) obtenue pour les MCO si \(\lambda\longrightarrow0\):
\[\boxed{\hat{a}_{1}=\frac{-\left(s_{x}-\lambda s_{y}\right)+\sqrt{\left(s_{x}-\lambda s_{y}\right)^{2}+4\lambda s_{xy}^{2}}}{2\lambda s_{xy}}}\]
On déduit \(\hat{a}_{0}\) de l'équation:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]

5.3.10 Point moyen \(\left(\bar{x},\bar{y}\right)\) et droite de régression

On remarque donc que le point moyen \(\left(\bar{x},\bar{y}\right)\) de coordonnées:
\[\boxed{\left\{ \begin{array}{l}\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}\\\bar{y}=\frac{\sum_{i=1}^{n}y_{i}}{n}\end{array}\right.}\]appartient à la droite de régression i.e.:
\[\boxed{\bar{y}=\hat{a}_{0}+\hat{a}_{1}\bar{x}}\]

5.3.11 Bilan

On peut donc généraliser la méthode des MCO au cas des abscisses fluctuantes, le cas échéant de varainces différentes, mais les estimateurs \(\hat{A}_{1}\) et\(\hat{A}_{0}\) correspondants ont des expressions compliquées mais calculables.
En revanche, le calcul rigoureux de l'espérance et de la variance de ces estimateurs apparaît hors de portée, notamment en raison d'une contribution des erreurs au terme figurant au dénominateur et dans une racine carrée.
Ceci en limite l'intérête dès lors que l'on cherche à estimer la dispersion associée à ces estimateurs.