5.5 Bilan: \(3\) approches de la régression linéaire

5.5.1 Méthode approchée à \(\sigma_{X}\) et \(\sigma_{Y}\) donnés et abscisses nominales

On dispose de l'échantillon \(Ech_{0}=\left\{ \left(\widetilde{x}_{i},y_{i}\right)\right\} _{i\in\left[1,n\right]}\).
Les abscisses nominales\(\left\{ \widetilde{x}_{i}\right\} _{i\in\left[1,n\right]}\) sont données: elles constituent donc des “cibles”, ce qui n'empêche pas de commettre une erreur en essayant de s'en approcher.
On est ramené à des abscisses connues avec une erreur corrigée:
\[\boxed{\eta_{i}=\varepsilon_{X_{i}}+\varepsilon_{Y_{i}}=a_{1}\delta_{X_{i}}+\varepsilon_{Y_{i}}}\]
Si l'on dispose de \(\sigma_{X}^{2}\) et \(\sigma_{Y}^{2}\), on estimera alors \(\sigma_{\eta}^{2}=V\left(\varepsilon_{i}\right)\) par:
\[\boxed{\sigma_{\eta,app}^{2}=\hat{a}_{1}^{2}\sigma_{X}^{2}+\sigma_{Y}^{2}}\]
(ce n'est pas un estimateur sans biais de \(\eta_{i}^{2}\) mais une approximation sommaire).
On adoptera alors:
\[\boxed{\left\{ \begin{array}{l}V_{app}\left(\hat{a}_{1}\right)=\sigma_{app}^{2}\left(\hat{a}_{1}\right)=\frac{\sigma_{\eta,app}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}\\V_{app}\left(\hat{a}_{0}\right)=\sigma_{app}^{2}\left(\hat{a}_{0}\right)=\sigma_{\eta,app}^{2}\left[\frac{1}{n}+\frac{\bar{\widetilde{x}}^{2}}{\sum_{i=1}^{n}\left(\widetilde{x}_{i}-\bar{\widetilde{x}}\right)^{2}}\right]\end{array}\right.}\]
Les estimateurs de la droite de régresion sont inchangés.
Ils se déduisent donc du cas où les abscisses sont déterminées par la substitution:
\[\boxed{\sigma^{2}\longleftarrow\sigma_{\eta,app}^{2}=\sigma_{Y}^{2}+\hat{a}_{1}^{2}\sigma_{X}^{2}}\]
Bilan:
On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:
\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1}-\sigma_{app}\left(\hat{a}_{1}\right),\hat{a}_{1}+\sigma_{app}\left(\hat{a}_{1}\right)\right]\\a_{0}\in\left[\hat{a}_{0}-\sigma_{app}\left(\hat{a}_{0}\right),\hat{a}_{0}+\sigma_{app}\left(\hat{a}_{0}\right)\right]\end{array}\right.}\]

5.5.2 Expressions obtenues par randomisation de l'échantillon suivant les lois \(f_{X}\) et \(f_{Y}\)

Une autre approche est de randomiser indépendamment les abscisses et les ordonnées.
On se base sur l'échantillon initial:
\[Ech=\left\{ \left(x_{i},y_{i}\right)\right\} _{i\in\left[1,n\right]}\]
On interpréte \(\left(x_{i},y_{i}\right)\) comme une réalisation des v.a. \(X_{i}\) et \(Y_{i}\) associées à la mesure indépendante d'une abscisse et d'une ordonnée lors de la mesure \(i\):
L'indépendance de \(X_{i}\) et \(Y_{i}\) pour toutes les mesures, alors qu'on cherche une loi affine entre \(Y\) et \(X\), est liée aux erreurs \(\varepsilon_{i}\).
Si on ne dipose que d'un seul échnatillon:
Ainsi, on simule un nouvel échantillon \(Ech_{p}=\left\{ \left(x_{i,p}y_{i,p}\right)\right\} _{i\in\left[1,n\right]}\)de la façon suivante, pour \(i\in\left[1,n\right]\):
Cette randomisation conduit alors à un nombre donné \(M\) d'échantillons:
On traite alors \(\left\{ \hat{a}_{1}\left(Ech_{p}\right)\right\} _{p\in\left[1,M\right]}\) et \(\left\{ \hat{a}_{1}\left(Ech_{p}\right)\right\} _{p\in\left[1,M\right]}\) comme la réalisation de \(M\) v.a. iid.
On s'intéresse alors aux v.a.:
\[\left\{ \begin{array}{l}\hat{A}_{1,rand}=\frac{\sum_{p=1}^{n}\hat{A}_{1}\left(Ech_{p}\right)}{M}\\\hat{A}_{0,rand}=\frac{\sum_{p=1}^{n}\hat{A}_{0}\left(Ech_{p}\right)}{M}\end{array}\right.\]
Bilan:
On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:
\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1,rand}-\hat{\sigma}_{1,rand},\hat{a}_{1,rand}+\hat{\sigma}_{1,rand}\right]\\a_{0}\in\left[\hat{a}_{0,rand}-\hat{\sigma}_{0,rand},\hat{a}_{0,rand}+\hat{\sigma}_{0,rand}\right]\end{array}\right.}\]
Cette approche sera par facilité désignée comme méthode de Monte-Carlo, \(\hat{a}_{j,rand}\) et \(\hat{V}\left(\hat{a}_{j,rand}\right)\) s'interprètent comme l'approximation d'une espérance suivant une loi uniforme.

5.5.3 Expressions obtenues par un estimateur sans biais de \(\sigma^{2}\)

S'il s'avère que l'on n'a aucune information sur la variance \(\sigma^{2}\)des erreurs, ce qui est a priori rare car on dispose au moins des variances-constructeur des appareils de mesure, on dispose faute de mieux d'un estimateur \(\hat{\sigma}^{2}\) sans biais de \(\sigma^{2}\) à \(n-2\) ddl:
\[\boxed{\hat{\sigma}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}d_{i,R}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}\widetilde{x}_{k}\right)^{2}}\]
et par suite, d'un estimateur sans biais de la variance:
\[\boxed{\hat{V}_{\hat{\sigma}}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}}\]
\[\boxed{\left\{ \begin{array}{l}\hat{V}\left(\hat{A}_{1}\right)=\hat{\sigma}_{1}^{2}=\frac{\hat{\sigma}^{2}}{\sum_{i=1}^{n}\left(\widetilde{x}_{i}-\bar{\widetilde{x}}\right)^{2}}\\\hat{V}\left(\hat{A}_{0}\right)=\hat{\sigma}_{0}^{2}=\hat{\sigma}^{2}\left[\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}\right]\end{array}\right.}\]
qui ne dépend donc que de l'échantillon.
Bilan:
On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:
\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1}-\hat{\sigma}_{1},\hat{a}_{1}+\hat{\sigma}_{1}\right]\\a_{0}\in\left[\hat{a}_{0}-\hat{\sigma}_{0},\hat{a}_{0}+\hat{\sigma}_{0}\right]\end{array}\right.}\]

5.5.4 Gestion possible des \(3\) méthodes

On peut faire les commentaires suivants:
En conclusion, il peut être intéressant de croiser les approches pour gagner qualitativement en confiance sur le résultat ou a contrario, soupçonner puis corriger le cas échéant une mauvaise évaluation de \(\sigma_{X}\) et \(\sigma_{Y}\).