set.seed(100000)
<- 45
n <- rexp(n,rate=1/0.5) #Importante notar que R usa el argumento de "rate" como el inverso de beta.
x hist(x)
mean(x)
[1] 0.4859945
var(x)
[1] 0.2492303
XS3310 Teoría Estadística
Este documento ilustra de manera intuitiva, por medio de simulaciones, las propiedades de la media y variancia muestral, así como el Teorema de Límite Central.
Sea \(X_1,...,X_n\) una muestra aleatoria tal que \(X_i \sim Exp(\beta=0.5)\), para \(i=1,...,n\).
Una muestra aleatoria simulada con \(n=45\) se observa como sigue:
set.seed(100000)
<- 45
n <- rexp(n,rate=1/0.5) #Importante notar que R usa el argumento de "rate" como el inverso de beta.
x hist(x)
mean(x)
[1] 0.4859945
var(x)
[1] 0.2492303
Observe que teóricamente \(E(X)=0.5\) y \(Var(X)=0.5^2=0.25\). A partir de una única una muestra, el estimador \(\bar{X}\) se aproxima “razonablemente” cerca sobre el parámetro de interés \(\beta\).
Ahora, tomo \(K=1000\) muestras aleatorias a partir de una población y las guardo en una lista X
.
<- 1000
K <- 45
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 45.
X[[i]] }
Calculo la media muestral para \(k=1,...,K\) y obtengo la media y variancia (empírica) de las \(K=1000\) medias muestrales.
<- sapply(X,mean)
media_X head(media_X)
[1] 0.5168613 0.5043218 0.4169245 0.5126319 0.3547623 0.3538606
Muestran las primeras 5 medias muestrales.
Nota: Como la media muestral es un estadístico y es una v.a. cada una de las \(K=1000\) repeticiones corresponde a una observación aleatoria del estimador.
El histograma (la distribución empírica) del estimador se ve como sigue:
hist(media_X)
mean(media_X)
[1] 0.5011449
var(media_X)
[1] 0.005764824
Observe que teóricamente \(E(\bar{X})=0.5\) y \(Var(\bar{X})=0.5^2/n=0.5^2/45=0.00556\). Además, el histograma muestra que con la distribución muestral de \(\bar{X}\) es asimétrica positiva y no parece ser normal.
<- 1000
K <- 10
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 10.
X[[i]] }
<- sapply(X,mean)
media_X hist(media_X)
mean(media_X)
[1] 0.5016877
var(media_X)
[1] 0.02423551
Observe que teóricamente \(E(\bar{X})=0.5\) y \(Var(\bar{X})=0.5^2/n=0.5^2/10=0.025\). Además, el histograma muestra que con la distribución muestral de \(\bar{X}\) es asimétrica, al igual que el caso anterior con \(n=45\). Es decir, que no se parece a una distribución normal.
<- 1000
K <- 1000
n <- list()
X for(i in 1:K){
<- rexp(n,2) #X es una lista de las K muestras de tamaño 100.
X[[i]] }
<- sapply(X,mean)
media_X hist(media_X)
mean(media_X)
[1] 0.4989865
var(media_X)
[1] 0.0002412724
Observe que teóricamente \(E(\bar{X})=0.5\) y \(Var(\bar{X})=0.5^2/n=0.5^2/1000=0.00025\). Además, el histograma muestra que la distribución muestral de \(\bar{X}\) es más simétrica que los dos casos anteriores. Es decir, que se aproxima más a una distribución normal.
El TLC nos garantiza que \[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \overset{d}{\rightarrow} N(0,1) \] Es decir, \(Z\) se aproxima cada vez a la normal estándar cuando \(n\rightarrow \infty\). Por ejemplo, con solo \(n=1000\), tenemos
=(media_X-0.5)/(sqrt(0.5^2/n))
Zhist(Z,prob=TRUE,ylim=c(0,0.5))
<- seq(min(Z), max(Z), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
abline()
mean(Z)
[1] -0.06410029
var(Z)
[1] 0.9650898
Ejercicios: copiar estos códigos y hagan ustedes el ejercicio aumentando el valor de \(n\) gradualmente.
Suponga que se tiene una muestra aleatoria \(X_1,...,X_n\) tal que \(X_i \sim Bern(p=0.3), i =1,...,n\).
Una muestra aleatoria simulada con \(n=10\) se observa como sigue:
set.seed(123456789)
<- 10
n <- rbinom(n=n,size=1,prob=0.3)
x hist(x)
x
[1] 0 0 0 1 1 1 0 1 0 0
mean(x)
[1] 0.4
var(x)
[1] 0.2666667
Observe que teóricamente \(E(X)=0.3\) y \(Var(X)=pq=0.3 \cdot 0.7=0.21\).
Ahora, tomo \(K=1000\) muestras aleatorias y las guardo en una lista X
.
<- 1000
K <- 10
n <- list()
X for(i in 1:K){
<- rbinom(n=n,size=1,prob=0.3) #¿Cuáles son las otras formas de hacer?
X[[i]] }
Calculo la media para \(k=1,...,K\) y obtengo la media y variancia (empírica) de la media muestral de las \(K=1000\) medias muestrales.
<- sapply(X,mean)
media_X hist(media_X)
mean(media_X)
[1] 0.3024
var(media_X)
[1] 0.0218561
Observe que teóricamente \(E(\bar{X})=0.3\) y \(Var(\bar{X})=\frac{pq}{n}=\frac{0.3 \cdot 0.7}{10}=0.021\). ¿Qué distribución muestral tiene \(\bar{X}\)?
El TLC nos garantiza que \[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \overset{d}{\rightarrow} N(0,1) \] Es decir, \(Z\) se aproxima cada vez a la normal estándar cuando \(n\rightarrow \infty\). Por ejemplo, con solo \(n=10\), tenemos
=(media_X-0.3)/(sqrt(0.3*0.7/n))
Zhist(Z,prob=TRUE,ylim=c(0,0.7))
<- seq(min(Z), max(Z), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
mean(Z)
[1] 0.01656157
var(Z)
[1] 1.040766
Pero con \(n=100\), tenemos
<- 1000
K <- 100
n <- list()
X for(i in 1:K){
<- rbinom(n=n,size=1,prob=0.3)
X[[i]]
}
<- sapply(X,mean)
media_X =(media_X-0.3)/(sqrt(0.3*0.7/n))
Zhist(Z,prob=TRUE,ylim=c(0,0.6))
<- seq(min(Z), max(Z), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
mean(Z)
[1] 0.01745743
var(Z)
[1] 0.9635159
Volvemos al caso anterior con \(n=10\). Calculo la varviancia muestral para \(k=1,...,K\) y obtengo la media y variancia (empírica) de la media muestral de las \(K=1000\) medias muestrales.
<- 1000
K <- 10
n <- list()
X for(i in 1:K){
<- rbinom(n=n,size=1,prob=0.3) #¿Cuáles son las otras formas de hacer?
X[[i]]
}<- sapply(X,var)
var_X hist(var_X)
mean(var_X)
[1] 0.2099
var(var_X)
[1] 0.004457929
Observe que teóricamente \(E(S^2)=\sigma^2=pq=0.3\cdot 0.7=0.21\). Sin embargo, no tenemos información del valor teórico de \(Var(S^2)\).
Suponga que \(X_1,...,X_n \sim N(10,2)\).
<- 1000
K <- 100
n <- list()
X for(i in 1:K){
<- rnorm(n=n,mean=10,sd=sqrt(2))
X[[i]] }
<- sapply(X,mean)
media_X hist(media_X)
mean(media_X)
[1] 10.00102
var(media_X)
[1] 0.02053045
Observe que teóricamente \(E(\bar{X})=10\) y \(Var(\bar{X})=\frac{\sigma^2}{n}=\frac{2}{10}=0.2\). ¿Qué distribución muestral tiene \(\bar{X}\)?
Por otro lado,el TLC nos garantiza que \[ Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \overset{d}{\rightarrow} N(0,1) \] Es decir, \(Z\) se aproxima cada vez a la normal estándar cuando \(n\rightarrow \infty\). Por ejemplo, con solo \(n=10\), tenemos
=(media_X-10)/(sqrt(2/n))
Zhist(Z,prob=TRUE,ylim=c(0,0.5))
<- seq(min(Z), max(Z), length = 40)
Z2 lines(Z2, dnorm(Z2, mean = 0, sd = 1), col = 2, lwd = 2)
mean(Z)
[1] 0.007184607
var(Z)
[1] 1.026523
<- sapply(X,var)
var_X hist(var_X)
mean(var_X)
[1] 1.996659
var(var_X)
[1] 0.08836783
En el caso de que la población es normal, recuerde que \[E(S^2)=\sigma^2=2,~~ \text{y}~~ Var(S^2)=\frac{2\sigma^2}{n-1}=\frac{2\cdot 2^2}{100-1}=0.08081\]