9.1 Trois approches de la régression linéaire

9.1.1 Introduction

On envisage \(2\) grandeurs \(\mathcal{X}\) et \(\mathcal{Y}\) reliées par une loi théorique:
\[y=f\left(x\right)\]
où \(f\) est linéaire ou affine.
Dans les 2 cas, pour se prémunir ainsi d'un biais qui pourrait résulter d'une dérive, en particulier des ordonnées, on adoptera une droite théorique affine:
\[y=a_{0}+a_{1}x\]
où:
On dispose d'un échantillon \(Ech=\left\{ \left(x_{i},y_{i}\right)\right\} _{1\leq i\leq n}\) dont on ne précisera plus les unités, avec:
\[n>2\]
L'objectif est:

9.1.2 Estimateurs issus de l'échantillon

A partir du seul échantillon \(Ech\), on évalue numériquement de façon brute les estimateurs des MCO.
Autrement dit, on garde provisoirement le résultat retourné par l'application (python),en laissant pour la conclusion la détermination effective des chiffres significatifs.
On évalue soit directement soit par des fonctions implémentées (polyfit en python), les estimateurs issus de \(Ech\):
  1. de la pente et l'ordonnée à l'origine;
    \[\boxed{\left\{ \begin{array}{l}\hat{a}_{1}\left(Ech\right)=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\\\hat{a}_{0}\left(Ech\right)=\overline{y}-\hat{a}_{1}\left(Ech\right)\overline{x}\end{array}\right.}\]
  2. de la somme \(\sigma^{2}=\sum_{i=1}^{n}\varepsilon_{i}^{2}\) du carré des erreurs:
    \[\boxed{\hat{\sigma}^{2}\left(Ech\right)=\frac{1}{n-2}\frac{\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
    où \(\varepsilon_{i,R}=y_{i}-\left(\hat{a}_{0}+\hat{a}_{i}x_{i}\right)\) est le résidu de la mesure n°\(i\) associé à l'échantillon.
  3. du coefficient de corrélation empirique:
    \[r\left(Ech\right)=\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)\left(y_{i}-\overline{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\sqrt{\sum_{i=1}^{n}\left(y_{i}-\overline{y}\right)^{2}}}\]
    et du coefficient de détermination:
    \[R\left(Ech\right)=r^{2}\left(Ech\right)\]

9.1.3 1ère méthode

On part de \(\hat{a}_{1}\left(Ech\right)\) et \(\hat{a}_{0}\left(Ech\right)\).
  1. On propose une valeur approchée \(\sigma_{app}\) de \(\sigma\) à partir des incertitudes-types \(\sigma_{X}\) et \(\sigma_{Y}\), supposées indépendantes de i, associées à une mesure de l'abscisse et de l'ordonnée:
    \[\boxed{\sigma_{app}=\sqrt{\sigma_{Y}^{2}+a_{1}^{2}\sigma_{X}^{2}}\cong\sqrt{\sigma_{Y}^{2}+\hat{a}_{1}^{2}\left(Ech\right)\sigma_{X}^{2}}}\]
    en supposant la dispersion est assez faible pour considérer que \(\sigma_{app}\) est pratiquement indépendant du choix de \(Ech\), de sorte que l'on a pris \(a_{1}\Longleftarrow\hat{a}_{1}\left(Ech\right)\).
    \(\sigma_{app}\) n'est donc pas un estimateur mais une valeur approchée, difficile à légitimer autrement qu'en comparant ses conséquences à celles issues d'autres méthodes.
  2. On utilise les estimateurs sans biais de la variance de \(\hat{a}_{1}\) et \(\hat{a}_{0}\) à \(\sigma\) donnée et on a adopte donc, en faisant \(\sigma\longleftarrow\sigma_{app}\):
    \[\left\{ \begin{array}{l}\overline{a}_{1}=\hat{a}_{1}\\\triangle a_{1}=\hat{\sigma}_{1,app}=\frac{\sigma_{app}}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}\end{array}\right.\]
    et:
    \[\left\{ \begin{array}{l}\overline{a}_{0}=\hat{a}_{0}\\\triangle a_{0}=\hat{\sigma}_{0,app}=\sigma_{app}\sqrt{\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}\end{array}\right.\]
Remarque:
Si \(\varepsilon_{X}\mathcal{\sim N}\left(0,\sigma_{X}^{2}\right)\) et \(\varepsilon_{Y}\mathcal{\sim N}\left(0,\sigma_{Y}^{2}\right)\), sachant qu'elles sont indépendantes, \(\widetilde{\varepsilon}_{XY}=\varepsilon_{X}+a_{1}\varepsilon_{X}\mathcal{\sim N}\left(0,\sigma_{Y}^{2}+a_{1}^{2}\sigma_{X}^{2}\right)\) suit donc également une loi normale de variance \(V\left(\widetilde{\varepsilon}_{XY}\right)=\sigma_{Y}^{2}+a_{1}^{2}\sigma_{X}^{2}\).
En revanche, si \(\varepsilon_{X}\) et \(\varepsilon_{Y}\) suivent autre loi \(f_{c}\) (par exemple uniforme) centrée de variances respectives \(\sigma_{X}^{2}\) et \(\sigma_{Y}^{2}\), la formule de propagation des incertitudes donne encore:
\[V\left(\widetilde{\varepsilon}_{XY}\right)=\sigma_{Y}^{2}+a_{1}^{2}\sigma_{X}^{2}\]
mais \(\widetilde{\varepsilon}_{XY}\mathcal{\sim}g_{c}\left(0,\sigma_{Y}^{2}+a_{1}^{2}\sigma_{X}^{2}\right)\) où \(g_{c}\) diffère de \(f_{c}\).
Dans les \(2\) cas, on a de toute façon le problème que \(V\left(\widetilde{\varepsilon}_{XY}\right)\) fait intervenir la constante inconnue \(a_{1}\).

9.1.4 2ème méthode

On prend en compte:
Puisqu'on ne dispose que d'un seul échantillon, on adopte le choix suivant:
Les v.a. \(\left\{ X_{i}\right\} _{i\in\left[1,n\right]}\) et \(\left\{ Y_{i}\right\} _{i\in\left[1,n\right]}\) sont toutes supposées indépendantes.
Formons les échantillons randomisés:
\[E_{\beta,M}=\left\{ \left(\hat{a}_{1}\left(Ech_{p}\right),\hat{a}_{0}\left(Ech_{p}\right)\right)\right\} _{p\in\left[1,M\right]}\]
Soit \(P_{x_{i,p},y_{i,q}}\) la probabilité qu'une réalisation de \(X_{i,p}\) retourne \(x_{i,p}\) et que, de manière indépendante, une réalisation de \(Y_{i,q}\) retourne \(y_{i,q}\) lors de la randomisation.
\(X_{i,p}\) et \(Y_{i,q}\) étant toutes indépendantes, la probabilité que la randomisation retourne \(Ech_{p}\) vaut donc:
\[P\left(Ech_{p}\right)=\prod_{i=1}^{n}P_{X_{i}=x_{i,p},Y=y_{i,q}}=\prod_{i=1}^{n}P_{X_{i}=x_{i,p}}\prod_{i=1}^{n}P_{Y=y_{i,q}}\]
\(E\left(\hat{a}_{1}\right)=\hat{A}_{1}\left(Ech_{p}\right)=a_{1}\) et \(E\left(\hat{a}_{0}\right)=\hat{A}_{0}\left(Ech_{p}\right)=a_{0}\) sont estimés par:
\[\left\{ \begin{array}{l}\hat{E}_{rand}\left(\hat{a}_{1}\right)=\frac{1}{M}\sum_{p=1}^{M}\hat{a}_{1}\left(Ech_{p}\right)P\left(Ech_{p}\right)\\\hat{E}_{rand}\left(\hat{a}_{0}\right)=\frac{1}{M}\sum_{p=1}^{M}\hat{a}_{1}\left(Ech_{p}\right)P\left(Ech_{p}\right)\end{array}\right.\]
Les \(M\) estimateurs associés à \(\hat{a}_{1}\left(Ech_{p}\right)-E\left(\hat{a}_{1}\right)\) d'une part,\(\hat{a}_{0}\left(Ech_{p}\right)-E\left(\hat{a}_{0}\right)\) d'autre part, ont \(M-1\) ddl donc, \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\) sont estimés par:
\[\left\{ \begin{array}{l}\hat{V}_{rand}\left(\hat{a}_{1}\right)=\frac{1}{M-1}\sum_{p=1}^{M}\left[\hat{a}_{1}\left(Ech_{p}\right)-E\left(\hat{a}_{1}\right)\right]^{2}P\left(Ech_{p}\right)\\\hat{V}_{rand}\left(\hat{a}_{1}\right)=\frac{1}{M-1}\sum_{p=1}^{M}\left[\hat{a}_{0}\left(Ech_{p}\right)-E\left(\hat{a}_{0}\right)\right]^{2}P\left(Ech_{p}\right)\end{array}\right.\]
  1. On va s'appuyer va alors randomiser les abscisses et les ordonnées autour de \(Ech\) et retourner un ensemble de \(M\) échantillons:
    \[E_{\alpha,M}=\left\{ Ech_{p}=\left\{ \left(x_{i,p}y_{i,p}\right)\right\} _{i\in\left[1,n\right]}\right\} _{p\in\left[1,M\right]}\]
    En réalisant par exemple des tirages aléatoires selon une loi normaleà à \(\sigma_{X}\) et \(\sigma_{Y}\) donnés:
    • \(x_{i,p}\) est une réalisation de la loi \(\mathcal{N}\left(x_{i},\sigma_{X}^{2}\right)\) centrée sur \(x_{i}\) faute de mieux, puisqu'on ne connaît pas \(\mu_{X_{i}}\)
    • \(y_{i,p}\) est une réalisation de la loi \(\mathcal{N}\left(y_{i},\sigma_{Y}^{2}\right)\) centrée sur \(y_{i}\) faute de mieux, puisqu'on ne connaît pas \(\mu_{X_{i}}\)
  2. On forme alors l'échantillon des estimateurs sans biais de \(a_{1}\) et \(a_{0}\):
    \[E_{\beta,M}=\left\{ \left(\hat{a}_{1}\left(Ech_{p}\right),\hat{a}_{0}\left(Ech_{p}\right)\right)\right\} _{p\in\left[1,M\right]}\]
    suivant les distributions (uniforme, triangle, normale essentiellement).
  3. On adopte donc:
    \[\left\{ \begin{array}{l}\overline{a}_{1}=\hat{a}_{1,rand}=\frac{1}{M}\sum_{p=1}^{M}\hat{a}_{1}\left(Ech_{p}\right)\\ \triangle a_{1}=\hat{\sigma}_{1,rand}=\sqrt{\frac{\sum_{p=1}^{n}\left[\hat{a}_{1}\left(Ech_{p}\right)-\hat{a}_{1,rand}\right]^{2}}{M-1}}\end{array}\right.\]
    et:
    \[\left\{ \begin{array}{l}\overline{a}_{0}=\hat{a}_{0,rand}=\frac{1}{M}\sum_{p=1}^{M}\hat{a}_{0}\left(Ech_{p}\right)\\ \triangle a_{0}=\hat{\sigma}_{0,rand}=\sqrt{\frac{\sum_{p=1}^{n}\left[\hat{a}_{0}\left(Ech_{p}\right)-\hat{a}_{0,rand}\right]^{2}}{M-1}}\end{array}\right.\]
Remarque 1:
Plaçons-nous dans le cas d'une régression à abscisses fixes (dites alors expliquées).
On s'attend à ce que les résultats des mesures et des incertitudes-type soient très proches de celles de la 1ère méthode.
En effet les randomisations mettent en jeu des distributions centrées sur les points de l'échantillon.
La méthode de Monte-Carlo a un intérêt pédagogique au sens où elle permet de retourner une mesure dans le format requis sans connaissances théoriques en Statistiques Mathématiques.
Remarque 2:
Dans le même esprit, une méthode de Monte-Carlo mettant en jeu des randomisations normales centrées des ordonnées autour de celles \(\left\{ y_{i}\right\} _{1\leq i\leq n}\)(indépendantes) de l'échantillon, auront également une distribution normale dont la variance s'exprimera par la formule de propagation des erreurs.

9.1.5 3ème méthode

On ne prend en que compte l'échantillon de référence \(Ech=\left\{ \left(x_{i},y_{i}\right)\right\} _{1\leq i\leq n}\).
  1. On adopte les estimateurs sans biais \(\hat{a}_{1}\) et \(\hat{a}_{0}\) des moindres carrés de \(a_{1}\), \(a_{0}\), \(\hat{\sigma}^{2}\) de la somme \(\sigma^{2}\) des carrés des erreurs et ceux des variances \(V\left(\hat{a}_{1}\right)\) et \(V\left(\hat{a}_{0}\right)\).
  2. On adopte donc:
    \[\left\{ \begin{array}{l}\overline{a}_{1}=\hat{a}_{1}\left(Ech\right)\\\triangle a_{1}=\hat{\sigma}_{1}=\hat{\sigma}\sqrt{\frac{1}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\end{array}\right.\]
    et:
    \[\left\{ \begin{array}{l}\overline{a}_{0}=\hat{a}_{0}\left(Ech\right)\\\triangle a_{0}=\hat{\sigma}_{0}=\hat{\sigma}\sqrt{\frac{1}{n}+\frac{\bar{x}^{2}}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}}\end{array}\right.\]
    avec:
    \[\hat{\sigma}=\sqrt{\frac{1}{n-2}\frac{\sum_{i=1}^{n}\varepsilon_{i,R}^{2}}{\sum_{l=1}^{n}\left(x_{l}-\bar{x}\right)^{2}}}\]
Remarque:
Examinons le cas où \(\varepsilon_{X}=0\) ou celui pour lequel les erreurs sur les abscisses sont faibles (\(\left|\hat{a}_{1}\varepsilon_{X}\right|\ll\varepsilon_{Y}\)).
L'avantage de cette approche est qu'elle est rigoureuse et ne repose que sur l'échantillon.
Mais elle soulève une difficulté de principe pour la même raison: en effet, elle ne fait pas apparaître explicitement, contrairement aux 2 autres méthodes, l'erreur \(\varepsilon_{Y}\) fixée par l'expérimentateur (de type \(B\)).
La convergence de \(\hat{\sigma}^{2}\) vers \(\sigma^{2}\) lorsque \(n\longrightarrow+\infty\) signifie que l'échantillon, s'il est de taille suffisamment grande, “trahira” l'ensemble des facteurs responsables des erreurs prises en compte par le paramètre inconnu \(\sigma^{2}\).
A \(n\) fixé, on ignore l'écart entre \(\hat{\sigma}^{2}\) et \(\sigma^{2}\) mais, pour \(n\) suffisamment grand, on s'attend à ce que notamment \(\hat{\sigma}_{1,app}\) et \(\hat{\sigma}_{1,rand}\) soient proches.
Dans ces conditions: