Incertitudes

5.5 Bilan: \(3\) approches de la régression linéaire

5.5.1 Méthode approchée à \(\sigma_{X}\) et \(\sigma_{Y}\) donnés et abscisses nominales

On dispose de l'échantillon \(Ech_{0}=\left\{ \left(\widetilde{x}_{i},y_{i}\right)\right\} _{i\in\left[1,n\right]}\).

Les abscisses nominales\(\left\{ \widetilde{x}_{i}\right\} _{i\in\left[1,n\right]}\) sont données: elles constituent donc des “cibles”, ce qui n'empêche pas de commettre une erreur en essayant de s'en approcher.

On est ramené à des abscisses connues avec une erreur corrigée:

\[\boxed{\eta_{i}=\varepsilon_{X_{i}}+\varepsilon_{Y_{i}}=a_{1}\delta_{X_{i}}+\varepsilon_{Y_{i}}}\]

Si l'on dispose de \(\sigma_{X}^{2}\) et \(\sigma_{Y}^{2}\), on estimera alors \(\sigma_{\eta}^{2}=V\left(\varepsilon_{i}\right)\) par:

\[\boxed{\sigma_{\eta,app}^{2}=\hat{a}_{1}^{2}\sigma_{X}^{2}+\sigma_{Y}^{2}}\]

(ce n'est pas un estimateur sans biais de \(\eta_{i}^{2}\) mais une approximation sommaire).

On adoptera alors:

\[\boxed{\left\{ \begin{array}{l}V_{app}\left(\hat{a}_{1}\right)=\sigma_{app}^{2}\left(\hat{a}_{1}\right)=\frac{\sigma_{\eta,app}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}\\V_{app}\left(\hat{a}_{0}\right)=\sigma_{app}^{2}\left(\hat{a}_{0}\right)=\sigma_{\eta,app}^{2}\left[\frac{1}{n}+\frac{\bar{\widetilde{x}}^{2}}{\sum_{i=1}^{n}\left(\widetilde{x}_{i}-\bar{\widetilde{x}}\right)^{2}}\right]\end{array}\right.}\]

Les estimateurs de la droite de régresion sont inchangés.

Ils se déduisent donc du cas où les abscisses sont déterminées par la substitution:

\[\boxed{\sigma^{2}\longleftarrow\sigma_{\eta,app}^{2}=\sigma_{Y}^{2}+\hat{a}_{1}^{2}\sigma_{X}^{2}}\]

Bilan:

On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:

\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1}-\sigma_{app}\left(\hat{a}_{1}\right),\hat{a}_{1}+\sigma_{app}\left(\hat{a}_{1}\right)\right]\\a_{0}\in\left[\hat{a}_{0}-\sigma_{app}\left(\hat{a}_{0}\right),\hat{a}_{0}+\sigma_{app}\left(\hat{a}_{0}\right)\right]\end{array}\right.}\]

5.5.2 Expressions obtenues par randomisation de l'échantillon suivant les lois \(f_{X}\) et \(f_{Y}\)

Une autre approche est de randomiser indépendamment les abscisses et les ordonnées.

On se base sur l'échantillon initial:

\[Ech=\left\{ \left(x_{i},y_{i}\right)\right\} _{i\in\left[1,n\right]}\]

On interpréte \(\left(x_{i},y_{i}\right)\) comme une réalisation des v.a. \(X_{i}\) et \(Y_{i}\) associées à la mesure indépendante d'une abscisse et d'une ordonnée lors de la mesure \(i\):

\(X_{i}\) est d'espérance inconnue \(\mu_{X_{i}}\) et de variance \(\sigma_{X}^{2}\) suppsoée indépendante de \(i\)
\(Y_{i}\) est d'espérance inconnue \(\mu_{Y_{i}}\) et de variance \(\sigma_{Y}^{2}\) suppsoée indépendante de \(i\)

L'indépendance de \(X_{i}\) et \(Y_{i}\) pour toutes les mesures, alors qu'on cherche une loi affine entre \(Y\) et \(X\), est liée aux erreurs \(\varepsilon_{i}\).

Si on ne dipose que d'un seul échnatillon:

\(X_{i}\) est interprété comme un estimateur sans biais de \(\mu_{X_{i}}\)
\(Y_{i}\) est interprété comme un estimateur sans biais de \(\mu_{Y_{i}}\)

Ainsi, on simule un nouvel échantillon \(Ech_{p}=\left\{ \left(x_{i,p}y_{i,p}\right)\right\} _{i\in\left[1,n\right]}\)de la façon suivante, pour \(i\in\left[1,n\right]\):

\(x_{i,p}-x_{i}\) est une réalisation de la distribution centrée \(f_{X_{c}}\) de la v.a. \(X_{c}=X_{i}-x_{i}\)
\(y_{i,p}-y_{i}\) est une réalisation de la distribution centrée \(f_{Y_{c}}\) de la v.a. \(Y_{c}=Y_{i}-y_{i}\)

Cette randomisation conduit alors à un nombre donné \(M\) d'échantillons:

échantillon 1: \(Ech_{1}=\left\{ \left(x_{i,1}y_{i,1}\right)\right\} _{i\in\left[1,n\right]}\)
(..)
échantillon \(M\): \(Ech_{M}=\left\{ \left(x_{i,M}y_{i,M}\right)\right\} _{i\in\left[1,n\right]}\)

On traite alors \(\left\{ \hat{a}_{1}\left(Ech_{p}\right)\right\} _{p\in\left[1,M\right]}\) et \(\left\{ \hat{a}_{1}\left(Ech_{p}\right)\right\} _{p\in\left[1,M\right]}\) comme la réalisation de \(M\) v.a. iid.

On s'intéresse alors aux v.a.:

\[\left\{ \begin{array}{l}\hat{A}_{1,rand}=\frac{\sum_{p=1}^{n}\hat{A}_{1}\left(Ech_{p}\right)}{M}\\\hat{A}_{0,rand}=\frac{\sum_{p=1}^{n}\hat{A}_{0}\left(Ech_{p}\right)}{M}\end{array}\right.\]

d'espérance \(a_{1}\) et \(a_{0}\) dont des estimateurs sans biais sont donnés par les moyennes arithmétiques:
\[\boxed{\left\{ \begin{array}{l}\hat{a}_{1,rand}=\frac{\sum_{p=1}^{n}\hat{a}_{1}\left(Ech_{p}\right)}{M}\\\hat{a}_{0,rand}=\frac{\sum_{p=1}^{n}\hat{a}_{0}\left(Ech_{p}\right)}{M}\end{array}\right.}\]
de variance \(\hat{V}\left(\hat{a}_{1,rand}\right)\) et \(\hat{V}\left(\hat{a}_{0,rand}\right)\) dont les estimateurs sans biais sont donnés par les variances empiriques (\(M-1\) ddl):
\[\boxed{\left\{ \begin{array}{l}\hat{V}\left(\hat{a}_{1,rand}\right)=\hat{\sigma}_{1,rand}^{2}=\frac{\sum_{p=1}^{n}\left[\hat{a}_{1}\left(Ech_{p}\right)-\hat{a}_{1,rand}\right]^{2}}{M-1}\\\hat{V}\left(\hat{a}_{0,rand}\right)=\hat{\sigma}_{0,rand}^{2}=\frac{\sum_{p=1}^{n}\left[\hat{a}_{0}\left(Ech_{p}\right)-\hat{a}_{0,rand}\right]^{2}}{M-1}\end{array}\right.}\]

Bilan:

On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:

\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1,rand}-\hat{\sigma}_{1,rand},\hat{a}_{1,rand}+\hat{\sigma}_{1,rand}\right]\\a_{0}\in\left[\hat{a}_{0,rand}-\hat{\sigma}_{0,rand},\hat{a}_{0,rand}+\hat{\sigma}_{0,rand}\right]\end{array}\right.}\]

Cette approche sera par facilité désignée comme méthode de Monte-Carlo, \(\hat{a}_{j,rand}\) et \(\hat{V}\left(\hat{a}_{j,rand}\right)\) s'interprètent comme l'approximation d'une espérance suivant une loi uniforme.

5.5.3 Expressions obtenues par un estimateur sans biais de \(\sigma^{2}\)

S'il s'avère que l'on n'a aucune information sur la variance \(\sigma^{2}\)des erreurs, ce qui est a priori rare car on dispose au moins des variances-constructeur des appareils de mesure, on dispose faute de mieux d'un estimateur \(\hat{\sigma}^{2}\) sans biais de \(\sigma^{2}\) à \(n-2\) ddl:

\[\boxed{\hat{\sigma}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}d_{i,R}^{2}=\frac{1}{n-2}\sum_{i=1}^{n}\left(y_{i}-\hat{a}_{0}-\hat{a}_{1}\widetilde{x}_{k}\right)^{2}}\]

et par suite, d'un estimateur sans biais de la variance:

\[\boxed{\hat{V}_{\hat{\sigma}}\left(\hat{A}_{1}\right)=\frac{\hat{\sigma}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}}\]

\[\boxed{\left\{ \begin{array}{l}\hat{V}\left(\hat{A}_{1}\right)=\hat{\sigma}_{1}^{2}=\frac{\hat{\sigma}^{2}}{\sum_{i=1}^{n}\left(\widetilde{x}_{i}-\bar{\widetilde{x}}\right)^{2}}\\\hat{V}\left(\hat{A}_{0}\right)=\hat{\sigma}_{0}^{2}=\hat{\sigma}^{2}\left[\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{k=1}^{n}\left(\widetilde{x}_{k}-\bar{\widetilde{x}}\right)^{2}}\right]\end{array}\right.}\]

qui ne dépend donc que de l'échantillon.

Bilan:

On donnera le résultat de la pente et de l'ordonnée à l'origine sous la forme:

\[\boxed{\left\{ \begin{array}{l}a_{1}\in\left[\hat{a}_{1}-\hat{\sigma}_{1},\hat{a}_{1}+\hat{\sigma}_{1}\right]\\a_{0}\in\left[\hat{a}_{0}-\hat{\sigma}_{0},\hat{a}_{0}+\hat{\sigma}_{0}\right]\end{array}\right.}\]

5.5.4 Gestion possible des \(3\) méthodes

On peut faire les commentaires suivants:

La seule méthode qui se base exclusivement sur l'échantillon est la 3ème méthode: elle est rigoureuse au sens où elle repose exclusivement sur des estimateurs sans biais et convergents \(\hat{a}_{1}\), \(\hat{a}_{0}\) et \(\hat{\sigma}\), conduisant aux écart-types \(\hat{\sigma}_{1}\) et \(\hat{\sigma}_{0}\).
Elle apparaît contradictoire avec les \(2\) autres méthodes qui font intervenir les paramètres \(\sigma_{X}\) et \(\sigma_{Y}\) donnés.
En réalité, \(\hat{\sigma}^{2}\) converge lentement avec \(n\) vers \(\sigma^{2}\) ce qui suggère que, pour un échantillon typique de \(n=10\) points, \(\hat{\sigma}\) peut différer de \(\sigma_{app}\).
Réciproquement, si \(\sigma_{app}\) est une estimation correcte des erreurs, un grand échantillon “le verra” et \(\hat{\sigma}\) tendra vers \(\sigma_{app}\).
Dans ce cas, on peut penser que \(\hat{\sigma}\) donnera au moins un ordre de grandeur cohérent avec \(\sigma_{app}\): dans le cas contraire, il faudra remettre en cause l'évaluation de \(\sigma_{app}\), du fait par exemple de mesures biaisées ou d'erreurs non prises en compte dans \(\sigma_{X}\) ou \(\sigma_{Y}\) proposés.
La méthode de Monte-Carlo présentée plus haut se base donc sur l'échantillon initial \(Ech=\left\{ \left(\tilde{x}_{i},y_{i}\right)\right\} _{i\in\left[1,n\right]}\).
Sa mise en oeuvre étant tout de même exigeante, on peut la mener à l'issue de la 1ère méthode basée sur \(\sigma_{app}\), qui retourne rapidement un résultat.
si l'on a une confiance partagée entre \(n_{m}\) méthodes indépendantes retournant, pour chaque méthode \(l\), si on s'intéresse par exemple à un estimateur de \(a_{1}\) et si on dispose:
- d'un estimateur sans biais \(\hat{\mu}_{l}=\hat{a}_{1,l}\) de l'espérance
- un estimateur sans biais \(\hat{V}_{l}=\hat{\sigma}_{l}^{2}=\hat{V}\left(\hat{a}_{1,l}\right)\) de la variance
on peut s'inspirer de la méthode des MCOG pour proposer:
- un estimateur de l'espérance:
\[\boxed{\hat{\mu}\left(Ech\right)=\frac{\sum_{i=1}^{n_{m}}\hat{w}_{l}\hat{\mu}_{l}}{\sum_{l=1}^{n_{m}}\hat{w}_{l}}}\]
- un estimateur de la variance:
\[\boxed{\hat{V}\left(Ech\right)=\sum_{l=1}^{n_{m}}\frac{1}{\hat{w}_{l}}}\]
où:
\[\boxed{\hat{w}_{l}=\frac{1}{\hat{\sigma}_{l}^{2}}}\]

En conclusion, il peut être intéressant de croiser les approches pour gagner qualitativement en confiance sur le résultat ou a contrario, soupçonner puis corriger le cas échéant une mauvaise évaluation de \(\sigma_{X}\) et \(\sigma_{Y}\).

Incertitudes

5 Régression linéaire simple

5.5 Bilan: \(3\) approches de la régression linéaire

5.5.1 Méthode approchée à \(\sigma_{X}\) et \(\sigma_{Y}\) donnés et abscisses nominales

5.5.2 Expressions obtenues par randomisation de l'échantillon suivant les lois \(f_{X}\) et \(f_{Y}\)

5.5.3 Expressions obtenues par un estimateur sans biais de \(\sigma^{2}\)

5.5.4 Gestion possible des \(3\) méthodes