
Contenido
Un vector aleatorio (o una variable aleatoria) de dimensión \(p\) es un vector columna \(\mathbf{X}=(X_1,...,X_p)'\) con cada componente como una variable aleatoria.
La distribución conjunta \(F\) de \(\mathbf{X}\) es definida como \[F\left(x_1, \ldots, x_p\right)=\operatorname{P}\left[X_1, \leq x_1, \ldots, X_p \leq x_p\right],\label{eq:distconjunta} \qquad(1)\] para todos los números reales \(x_1, \ldots, x_p\).
De manera compacta, se escribe \[F(\mathbf{x})=\operatorname{P}[\mathbf{X} \leq \mathbf{x}],\] para todos vectores reales \(\mathbf{x} = (x_1, \ldots, x_p)'\).
Ejemplo 1
\[F_{X_1}\left(x_1\right)=\operatorname{P}\left[X_1 \leq x_1\right]=F\left(x_1, \infty, \ldots, \infty\right).\]
\[\begin{aligned} F_{X_1, X_{p-1}}\left(x_1, x_{p-1}\right)& = \operatorname{P}\left[X_1 \leq x_1, X_{p-1} \leq x_{p-1}\right] \\ & =F\left(x_1, \infty, \ldots, \infty, x_{p-1},\infty\right). \end{aligned}\]
\[f\left(x_1, \ldots, x_p\right)=\frac{\partial^p F\left(x_1, \ldots, x_p\right)}{\partial x_1 \cdots \partial x_p}.\]
\[\operatorname{E}(g(\mathbf{X}))=\int g(\mathbf{x}) d F(\mathbf{x})=\int g\left(x_1, \ldots, x_p\right) d F\left(x_1, \ldots, x_p\right),\] donde
\[\begin{aligned} & \int g\left(x_1, \ldots, x_p\right) d F\left(x_1, \ldots, x_p\right) \\ & \quad= \begin{cases}\int\limits \cdots \int\limits g\left(x_1, \ldots, x_p\right) f\left(x_1, \ldots, x_p\right) d x_1 \cdots d x_p, & \text {(caso continuo)} \\ \sum\limits_{j_1} \cdots \sum\limits_{j_p} g\left(x_{j_1}, \ldots, x_{j_p}\right) p\left(x_{j_1}, \ldots, x_{j_p}\right), & \text { (caso discreto)}\end{cases} \end{aligned}\]
y \(g\) es cualquier función tal que \(E|g(\mathbf{X})|<\infty\).
\[F\left(x_1, \ldots, x_p\right)=F_{X_1}\left(x_1\right) \cdots F_{X_p}\left(x_p\right).\]
\[f\left(x_1, \ldots, x_p\right)=f_{X_1}\left(x_1\right) \cdots f_{X_p}\left(x_p\right), \qquad(2)\] y función de probabilidad:
\[p\left(x_1, \ldots, x_p\right)=p_{X_1}\left(x_1\right) \cdots p_{X_p}\left(x_p\right).\]
\[f_{\mathbf{Y} \mid \mathbf{X}}(\mathbf{y} \mid \mathbf{x})= \begin{cases}\frac{f_{\mathbf{X}, \mathbf{Y}}(\mathbf{x}, \mathbf{y})}{f_{\mathbf{X}}(\mathbf{x})}, & \text { si } f_{\mathbf{X}}(\mathbf{x})>0, \\ f_{\mathbf{Y}}(\mathbf{y}), & \text { si } f_{\mathbf{X}}(\mathbf{x})=0.\end{cases} \qquad(3)\]
\[\operatorname{E}(g(\mathbf{Y}) \mid \mathbf{X}=\mathbf{x})=\int_{-\infty}^{\infty} g(\mathbf{y}) f_{\mathbf{Y} \mid \mathbf{X}}(\mathbf{y} \mid \mathbf{x}) d \mathbf{y}\]
Si \(\mathbf{X}\) y \(\mathbf{Y}\) son independientes, entonces \(f_{\mathbf{Y} \mid \mathbf{X}}(\mathbf{y} \mid \mathbf{x})=f_{\mathbf{Y}}(\mathbf{y})\). (Por Ecuación 2 y Ecuación 3)
Como consecuencia, la esperanza condicional de \(g(\mathbf{Y})\) dado \(\mathbf{X}=\mathbf{x}\) es
\[\operatorname{E}(g(\mathbf{Y}) \mid \mathbf{X}=\mathbf{x})=\operatorname{E}(g(\mathbf{Y})),\] el cual no depende de \(\mathbf{x}\).
\[\begin{align} \Sigma_{\mathbf{XY}} =& \operatorname{Cov}(\mathbf{X},\mathbf{Y}) = \operatorname{E}\left[ (\mathbf{X}-\mu_\mathbf{X})(\mathbf{Y}-\mu_\mathbf{Y})' \right] \\ =& \operatorname{E} (\mathbf{X}\mathbf{Y}) - \mu_\mathbf{X} \mu_\mathbf{Y}'. \end{align}\]
El elemento \((i,j)\) de \(\Sigma_{\mathbf{XY}}\) es la covariancia \(\operatorname{Cov}(X_i,Y_j)=\operatorname{E}(X_i Y_j) - \mu_{X_i} \mu_{Y_j}\).
Si \(\mathbf{Y}=\mathbf{X}\), \(\Sigma_{\mathbf{XY}}= \operatorname{Cov}(\mathbf{X},\mathbf{Y})\) se reduce a \(\Sigma_{\mathbf{XX}}= \operatorname{Cov}(\mathbf{X},\mathbf{X}):=\Sigma_{\mathbf{X}}\).
\[\mu_{\mathbf{Y}} = \operatorname{E}(\mathbf{Y})= \mathbf{a} + \mathbf{B} \operatorname{E}(\mathbf{X}),~~~~~\text{y}~~\Sigma_{\mathbf{YY}}=\mathbf{B}\Sigma_{\mathbf{XX}} \mathbf{B}'.\]
Proposición 1 La matriz de covariancia \(\Sigma_{\mathbf{X}}\) de un vector aleatorio \(\mathbf{X}\) es simétrica y definida no negativa, es decir \[\mathbf{b}'\Sigma_{\mathbf{X}}\mathbf{b} \geq 0,\] para cualquier vector \(\mathbf{b}=(b_1,...,b_p)'\).
Proposición 2 Toda matriz de covariancia \(n \times n\), \(\Sigma\) se puede factorizar como \[ \Sigma = P \Lambda P'\] donde \(P\) es una matriz ortogonal (es decir, \(P'=P^{-1}\)) cuyas columnas son un conjunto ortonormal de autovectores corresondientes a los autovalores \(\lambda_1,...,\lambda_p\) de \(\Sigma\) y \(\Lambda\) es la matriz diagonal \[\Lambda=\left[\begin{array}{llll} \lambda_1 & 0 & \cdots & 0 \\ 0 & \lambda_2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_n \end{array}\right].\]
Específicamente, \(\Sigma\) es no singular si y solo si todos los autovalores son estrictamente positivos.
Nota
Dada una matriz de covariancia \(\Sigma\), es común y útil encontrar su raíz cuadrada \(A=\Sigma^{1/2}\) que cumple la condición \(AA'=\Sigma\). De Proposición 2, se puede deducir que
\[A=\Sigma^{1/2}= P\Lambda^{1/2}P'.\] Note que \(AA'=\Sigma^{1/2}= P\Lambda^{1/2}P'P\Lambda^{1/2}P'=P\Lambda P'.\)
Contenido
Un vector aleatorio \(\mathbf{X}= (X_1,X_2)'\) es binormal (o normal bivariado), si su densidad es \[f_{\mathbf{X}}(\mathbf{x})= \frac{1}{2 \pi \sigma_1 \sigma_2\left(1-\rho^2\right)^{1 / 2}} e^{-\frac {1} { 2 ( 1 - \rho^2) } \left[\left(\frac{x_1-\mu_1}{\sigma_1}\right)^2\right.\left.-2 \rho\left(\frac{x_1-\mu_1}{\sigma_1}\right)\left(\frac{x_2-\mu_2}{\sigma_2}\right)+\left(\frac{x_2-\mu_2}{\sigma_2}\right)^2\right]}.\]
Más adelante, veremos que esta distribución es un caso particular de la distribución normal multivariada con media \[\mathbf{\mu}=\begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix},\] y matriz de covariancia \[\Sigma=\left[\begin{array}{cc} \sigma_1^2 & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^2 \end{array}\right], \quad \sigma_1>0, \sigma_2>0, -1<\rho<1.\]
Los parámetros \(\sigma_1^2\), \(\sigma_1^2\) y \(\rho\) son desviaciones estándares de los componentes \(X_1\) y \(X_2\) y la correlación, respectivamente.
Ejemplo 2 La visualización de la densidad de una binormal con \[\mathbf{\mu}=\begin{pmatrix} 0 \\ 0 \end{pmatrix}, ~~\text{y} ~~~\Sigma=\left[\begin{array}{cc} 1 & 0.7 \\ 0.7 & 1 \end{array}\right].\]
Figura 3: Muestra aleatoria de una binormal (n=200) y contornos de densidad teórica.
Contenido
La distribución normal multivariada es una de las distribuciones más importantes en estadística.
Sea \(\mathbf{X}=(X_1,...,X_p)'\) un vector aleatorio. \(\mathbf{X}\) tiene distribución normal multivariada con media \(\mathbf{\mu}\) y matriz de covariancia \(\Sigma=\Sigma_{XX}\) (no singular), denotada por \(\mathbf{X} \sim N(\mathbf{\mu},\Sigma)\), si \[f_{\mathbf{X}}(\mathbf{x})=(2 \pi)^{-n / 2}(\operatorname{det} \Sigma)^{-1 / 2} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\prime} \Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}.\]
Si \(\mathbf{X} \sim N(\mathbf{\mu},\Sigma_X)\), entonces podemos definir el vector aleatorio estandarizado, aplicando \[\mathbf{Z}=\Sigma^{-1/2}(\mathbf{X}-\mu).\] Como resultado, \(\mathbf{Z}\) tiene media \(\mathbf{0}\) y \(\Sigma_{ZZ}=I_p\), una matriz de identidad \(p \times p\).
Usando el método del cambio de variables, la densidad de \(\mathbf{Z}\) es dada por: \[\begin{aligned} f_{\mathbf{Z}}(\mathbf{z}) & =(\operatorname{det} \Sigma)^{1 / 2} f_{\mathbf{X}}\left(\Sigma^{1 / 2} \mathbf{z}+\boldsymbol{\mu}\right) \\ & =(\operatorname{det} \Sigma)^{1 / 2}(2 \pi)^{-n / 2}(\operatorname{det} \Sigma)^{-1 / 2} \exp \left\{-\frac{1}{2}\left(\Sigma^{-1 / 2} \mathbf{z}\right)^{\prime} \Sigma^{-1} \Sigma^{-1 / 2} \mathbf{z}\right\} \\ & =(2 \pi)^{-n / 2} \exp \left\{-\frac{1}{2} \mathbf{z}^{\prime} \mathbf{z}\right\} \\ & =\left((2 \pi)^{-1 / 2} \exp \left\{-\frac{1}{2} z_1^2\right\}\right) \cdots\left((2 \pi)^{-1 / 2} \exp \left\{-\frac{1}{2} z_p^2\right\}\right),\end{aligned}\] es decir, \(Z_1,...,Z_p\) son variables aleatorias i.i.d. \(N(0,1)\).
También se puede construir una distribución normal multivariada con media \(\mathbf{0}\) y matriz de covariancias \(\Sigma\), por medio de una distribución normal multivariada estándar: \[\mathbf{X}=\Sigma^{1 / 2} \mathbf{Z}+\mu.\]
Proposición 3
\(\mathbf{X}^{(1)}\) y \(\mathbf{X}^{(2)}\) son idependientes si y solo si \(\Sigma_{12}=0\).
La distribución condicional de \(\mathbf{X}^{(1)}\) dado \(\mathbf{X}^{(2)}=\mathbf{x}^{(2)}\) es \(N\left(\boldsymbol{\mu}^{(1)}+\Sigma_{12} \Sigma_{22}^{-1}\left(\mathbf{x}^{(2)}-\right.\right. \left.\left.\boldsymbol{\mu}^{(2)}\right), \Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}\right).\) Específicamente, \[\operatorname{E}\left(\mathbf{X}^{(1)} \mid \mathbf{X}^{(2)}=\mathbf{x}^{(2)}\right)=\boldsymbol{\mu}^{(1)}+\Sigma_{12} \Sigma_{22}^{-1}\left(\mathbf{x}^{(2)}-\boldsymbol{\mu}^{(2)}\right).\]
Ejemplo 3
Sea \(\mathbf{X}=(X_1,X_2)\) una variable aleatoria binormal.
Podemos deducir que \(X_1\) y \(X_2\) son independientes si y solo si \(\rho \sigma_1 \sigma_2=0\) (es decir, \(\rho=0\)).
La distirbución condicional de \(X_1\) dado \(X_2\) es normal con media
\[\operatorname{E}(X_1 \mid X_2=x_2)= \mu_1 + \rho \sigma_1 \sigma_2^{-1}(x_2-\mu_2),\] y la variancia \[\operatorname{Var}(X_1 \mid X_2=x_2)= \sigma_1^2 (1-\rho^2).\]
Contenido
\(\left\{X_t\right\}\) es una serie temporal gaussiana (o modelo de serie temporal gaussiano) si todas sus distribuciones conjuntas son normales multivariadas, es decir, si para cualquier colección de números enteros \(i_1, \ldots, i_n\), el vector aleatorio \(\left(X_{i_1}, \ldots, X_{i_n}\right)^{\prime}\) tiene una distribución normal multivariada.
Nota
Si \(\{X_t\}\) es una serie temporal gaussiana, entonces todas sus distribuciones conjuntas son completamente determinadas por medio de la función media \(\mu_t=\operatorname{E}(X_t)\) y la función de autocovariancia \(\gamma(t,s)=\operatorname{Cov}(X_t,X_s)\).
Además, si el proceso es estacionario, entonces