3.2 Estimation ponctuelle
3.2.1 Introduction
On s'intéresse à une v.a. continue \(X\) de densité \(f_{\theta}\) dépendant d'un paramètre réel inconnu \(\theta\in\Theta\), où \(\Theta\) est un intervalle donnée de \(\mathbb{R}\).
On va chercher à estimer la valeur de \(\theta\) pour que \(f_{\theta}\) reproduise les observations de manière optimale.
3.2.2 Echantillon et estimateur
On appelle échantillon de \(X\) un \(n\)-uplet \(\left(X_{1},...,X_{n}\right)\) formé de \(n\) v.a.:
- indépendantes (on dit qu'elles possèdent \(k=n\) degrés de liberté)
- identiquement distribuées, i.e. de densité \(f_{i}=f_{\theta}\) identiques à celle de \(X\)
On dira qu'elle forme une famille de \(n\) v.a. iid à \(n\) degrés de liberté.
On appelle estimateur une application:
\[\varphi:\:\left\{ \begin{array}{l}\mathbb{R}^{n}\longrightarrow\Theta\\\left(X_{1},...,X_{n}\right)\longmapsto\hat{\theta}_{n}=\varphi\left(X_{1},...,X_{n}\right)\end{array}\right.\]
indépendante de \(\theta\), mais qui est conçu pour approcher sa valeur.
\(\hat{\theta}_{n}\) est une v.a. appelée estimation de \(\theta\).
Ainsi, si \(\left(x_{1},...,x_{n}\right)\) est une réalisation de \(\left(X_{1},...,X_{n}\right)\), \(\theta_{n}=\varphi\left(x_{1},...,x_{n}\right)\) est une estimation de \(\theta\) pour l'échantillon \(\left(x_{1},...,x_{n}\right)\).
3.2.3 Biais
A \(\theta\) fixé, on appelle biais d'un estimateur \(\varphi\):
\[\boxed{B\left(\hat{\theta}_{n},\theta\right)=E_{\theta}\left(\hat{\theta}_{n}\right)-\theta}\]
où \(E_{\theta}\left(\hat{\theta}_{n}\right)\) est l'espérance de l'estimateur \(\hat{\theta}_{n}\), évalué par la densité \(f_{\theta}\) (dépendant de \(\theta\)).
Un estimateur est dit sans biais si, \(\forall\theta\in\Theta\):
\[B\left(\hat{\theta}_{n},\theta\right)=E\left(\hat{\theta}_{n}\right)-\theta=0\]
Remarque:
Si on se donne l'estimateur \(\varphi\):
\[\hat{\theta}_{n}=\varphi\left(X_{1},...,X_{n}\right)\]
ainsi que les densités associées aux v.a. \(X_{1},...,X_{n}\), il n'est pas possible d'évaluer le biais \(B\left(\hat{\theta}_{n},\theta\right)\) car \(\theta\) est inconnue.
3.2.4 Convergence
L'estimateur est dit convergent en probabilité si, \(\forall\varepsilon>0\):
\[\underset{\scriptsize{n\longrightarrow\infty}}{\textrm{lim}}P\left(\left|\hat{\theta}_{n}-\theta\right|>\varepsilon\right)=0\]
On admettra que pour qu'un estimateur asymptotiquement sans biais soit convergent, il suffit que sa variance tende vers \(0\) si \(n\longrightarrow\infty\):
\[\underset{\scriptsize{n\longrightarrow\infty}}{\textrm{lim}}V\left(\hat{\theta}_{n}\right)=0\]
3.2.5 Risque quadratique
A \(\theta\) fixé, on appelle risque quadratique d'un estimateur \(\hat{\theta}_{n}\):
\[\boxed{R\left(\hat{\theta}_{n},\theta\right)=E_{\theta}\left[\left(\hat{\theta}_{n}-\theta\right)^{2}\right]}\]
On peut donc comparer \(2\) estimateurs en comparant leurs risques quadratiques.
On dit que \(\hat{\theta}_{b,n}\) est un estimateur meilleur que \(\hat{\theta}_{a,n}\) si son risque quadratique est plus faible, i.e. \(\forall\theta\in\Theta\):
\[R\left(\hat{\theta}_{b,n},\theta\right)\leq R\left(\hat{\theta}_{a,n},\theta\right)\]
Dans un ensemble donné \(I\) d'estimateurs, on appelle meilleur estimateur celui parmi \(I\) dont le risque est minimal.
3.2.6 Décomposition de l'erreur
A \(\theta\) fixé:
\[R\left(\hat{\theta}_{n},\theta\right)=E_{\theta}\left[\left(\hat{\theta}_{n}-\theta\right)^{2}\right]=E_{\theta}\left(\hat{\theta}_{n}^{2}\right)-2\theta E_{\theta}\left(\hat{\theta}_{n}\right)+\theta^{2}=E_{\theta}\left(\hat{\theta}_{n}^{2}\right)-E_{\theta}^{2}\left(\hat{\theta}_{n}\right)+\left[E_{\theta}\left(\hat{\theta}_{n}\right)-\theta\right]^{2}\]
soit:
\[\boxed{R\left(\hat{\theta}_{n},\theta\right)=V\left(\hat{\theta}_{n}\right)+B_{\theta}^{2}\left(\hat{\theta}_{n},\theta\right)}\]
Remarque 1:
Si on se donne l'estimateur \(\varphi\):
\[\hat{\theta}_{n}=\varphi\left(X_{1},...,X_{n}\right)\]
ainsi que les densités associées aux v.a. \(X_{1},...,X_{n}\), il n'est pas possible d'évaluer \(R\left(\hat{\theta}_{n},\theta\right)\) car \(B\left(\hat{\theta}_{n},\theta\right)\) car \(\theta\) est inconnue.
Remarque 2:
A variance donnée, le risque est plus élevé pour un estimateur ayant un biais que pour un estimateur sans biais.
3.2.7 Risque d'un estimateur sans biais
Ainsi, pour un estimateur \(\hat{\theta}_{n}\) sans biais:
\[E_{\theta}\left(\hat{\theta}_{n}\right)=\theta\]
Le risque quadratique s'identifie alors à sa variance:
\[\boxed{R\left(\hat{\theta}_{n},\theta\right)=V\left(\hat{\theta}_{n}\right)}\]
de sorte qu'alors, la minimisation du risque s'identifie à la minimisation de la variance.
Remarque:
Si on se donne l'estimateur \(\varphi\):
\[\hat{\theta}_{n}=\varphi\left(X_{1},...,X_{n}\right)\]
ainsi que les densités associées aux v.a. \(X_{1},...,X_{n}\), il est désormais possible d'évaluer \(R\left(\hat{\theta}_{n},\theta\right)\) car il s'identifie à \(V\left(\hat{\theta}_{n}\right)\) et ne fait plus apparaître \(\theta\), qui est inconnu.