<- 1000
K <- 20
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 45.
X[[i]] }
lab02: Ilustración de EMV para muestras grandes
XS3310 Teoría Estadística
Este documento ilustra de manera intuitiva, por medio de simulaciones, las propiedades del EMV para muestras grandes.
1 EMV de \(\bar{X}\) y \(\bar{X}^{-1}\) de la Distribución Exponencial
Suponga que \(X_1,...,X_n\) una muestra aleatoria tal que \(X_i \sim Exp(\beta=0.5)\), para \(i=1,...,n\).
1.1 Comportamiento de la media muestral
<- sapply(X,mean)
media_X hist(media_X)
mean(media_X)
[1] 0.4962818
var(media_X)
[1] 0.01264798
Observe que teóricamente \(E(\bar{X})=0.5\) y \(Var(\bar{X})=\frac{\beta^2}{n}=\frac{0.5^2}{20}=0.0125\). El TLC nos garantiza que \[Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \overset{d}{\rightarrow} N(0,1).\] Es decir, \(Z\) se aproxima cada vez a la normal estándar cuando \(n\rightarrow \infty\). Por ejemplo, con solo \(n=20\), tenemos
=(media_X-0.5)/(sqrt(0.5^2/n))
Zhist(Z,prob=TRUE,ylim=c(0,0.5))
<- seq(min(Z), max(Z), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
mean(Z)
[1] -0.03325625
var(Z)
[1] 1.011838
De la misma forma, puedo calcular
\[ Z_a=n^{\frac{1}{2}}(\bar{X}-\mu) \overset{d}{\rightarrow} N(0,\sigma^2) \]
Recuerde que para la distribución exponencial, \(\sigma=\beta\).
=sqrt(n)*(media_X-0.5)
Zahist(Za,prob=TRUE,ylim=c(0,1.2))
<- seq(min(Za), max(Za), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 0.5), col = 2, lwd = 2)
mean(Za)
[1] -0.01662812
var(Za)
[1] 0.2529596
1.2 Comportamiento de \(\bar{X}^{-1}\)
<- 1/media_X
inv_media_X head(cbind(media_X,inv_media_X))
media_X inv_media_X
[1,] 0.4649204 2.150906
[2,] 0.5897773 1.695555
[3,] 0.4131797 2.420254
[4,] 0.4549265 2.198157
[5,] 0.3540132 2.824753
[6,] 0.5687349 1.758289
hist(inv_media_X)
mean(media_X)
[1] 0.4962818
var(media_X)
[1] 0.01264798
Usando el resultado con el Método Delta (diapositiva 11 de la clase 8).
\[ \sqrt{n}\bigg[\dfrac{1}{\overline{X}_n}-\dfrac 1\mu\bigg]\xrightarrow{d}N\left(0,\dfrac{\sigma ^2}{\mu ^4}\right) \]
=sqrt(n)*(inv_media_X-(1/0.5))
Zahist(Za,prob=TRUE,ylim=c(0,0.25))
<- seq(min(Za), max(Za), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = sqrt(0.5^2/0.5^4)), col = 2, lwd = 2)
mean(Za)
[1] 0.5415072
var(Za)
[1] 4.815359
1.3 Veamos qué pasaría con n grande (n=150).
<- 1000
K <- 150
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 45.
X[[i]] }
<- sapply(X,mean)
media_X <- 1/media_X
inv_media_X =sqrt(n)*(inv_media_X-(1/0.5))
Zahist(Za,prob=TRUE,ylim=c(0,0.25))
<- seq(min(Za), max(Za), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = sqrt(0.5^2/0.5^4)), col = 2, lwd = 2)
mean(Za)
[1] 0.1431849
var(Za)
[1] 4.089688
1.4 Veamos qué pasaría con n grande (n=300).
<- 1000
K <- 300
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 45.
X[[i]] }
<- sapply(X,mean)
media_X <- 1/media_X
inv_media_X =sqrt(n)*(inv_media_X-(1/0.5))
Zahist(Za,prob=TRUE,ylim=c(0,0.25))
<- seq(min(Za), max(Za), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = sqrt(0.5^2/0.5^4)), col = 2, lwd = 2)
mean(Za)
[1] 0.1319572
var(Za)
[1] 3.788877
2 Comportamiento del EMV de la desviación estándar de una población normal
Suponga que \(X_1,...,X_n \sim N(10,2)\).
<- 1000
K <- 30
n <- list()
X for(i in 1:K){
<- rnorm(n=n,mean=10,sd=sqrt(2))
X[[i]] }
Considere el EMV de \(\sigma\):
\[\hat{\sigma} = \left[\frac{\sum\limits_{i=1}^n X_{j}^2}{n}\right]^{1/2}.\]
<- function(x){
sd_MV <- length(x)
n <- sqrt(var(x)*(n-1)/n)
sd_MV return(sd_MV)
}
<- sapply(X,sd_MV)
sd_MV_X hist(sd_MV_X)
mean(sd_MV_X)
[1] 1.383205
var(sd_MV_X)
[1] 0.03225485
Sabemos que para muestras grandes, la distirbución de \(\hat{\sigma}\) converge a una distirbución normal con media \(\sigma=\sqrt{2} \approx 1.41\) y variancia \(1/[I(\sigma)]=\left(\frac{2n}{ \sigma^2}\right)^{-1}=\left( \frac{2 \cdot 30}{2} \right)^{-1} =1/30\approx 0.0334\).
Finalmente, podemos presentar el resultado usando la otra expresión:
\[\left[\frac{2n}{\sigma^2} \right]^{1/2}(\hat{\sigma}_n - \sigma) \stackrel{d}{\longrightarrow} N(0,1)\]
=sqrt(2*n/2)*(sd_MV_X-sqrt(2))
Zahist(Za,prob=TRUE,ylim=c(0,0.5))
<- seq(min(Za), max(Za), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
mean(Za)
[1] -0.1698389
var(Za)
[1] 0.9676455
2.1 Visualización variando \(n\)
<- 1000
K <- c(10,20,30,40,50,60,70,80,90,100)
N <- list()
sd_MV_estimador <- list()
sd_MV_X for(n in 1:length(N)){
for(i in 1:K){
<- rnorm(n=N[n],mean=10,sd=sqrt(2))
x <- sd_MV(x)
sd_MV_X[i]
}<- unlist(sd_MV_X)
sd_MV_X
= sqrt(2*N[n]/2)*(sd_MV_X-sqrt(2))
Za = data.frame(Za,n=N[n])
sd_MV_estimador[[n]]
}
= rlist::list.rbind(sd_MV_estimador)
resultados
library(ggplot2)
library(hrbrthemes)
Warning: package 'hrbrthemes' was built under R version 4.3.3
library(viridis)
Warning: package 'viridis' was built under R version 4.3.3
Loading required package: viridisLite
<- ggplot(data=resultados, aes(x=Za, color=as.factor(n))) +
p2 geom_density(adjust=1.5) +
theme_classic()+ scale_color_viridis(discrete = TRUE, option = "D")
p2