Saltar al contenido principal

02.02 - Pruebas de bondad de ajuste

Modelos de Simualción


Introducción

Las pruebas de bondad de ajuste se utilizan para verificar si una distribución de probabilidad propuesta es adecuada para representar un conjunto de datos observados. Estas pruebas son útiles cuando se desea modelar el comportamiento de un fenómeno real con una distribución de probabilidad teórica.


Prueba chi-cuadrado de bondad de ajuste

Una prueba comúnmente utilizada para la bondad de ajuste es la prueba chi-cuadrado.

  • La prueba chi-cuadrado compara las frecuencias observadas en los datos con las frecuencias esperadas según la distribución de probabilidad propuesta.
  • La hipótesis nula en esta prueba es que la distribución propuesta se ajusta adecuadamente a los datos observados.

Pasos para realizar la prueba chi-cuadrado de bondad de ajuste

  • Agrupar los datos observados en intervalos o categorías.

  • Calcular las frecuencias esperadas para cada intervalo o categoría utilizando la distribución de probabilidad propuesta.

  • Calcular la estadística chi-cuadrado:

    χ2=(OE)2E\chi^2 = \sum \frac{(O - E)^2}{E}

    O representa las frecuencias observadas E representa las frecuencias esperadas la suma se realiza sobre todos los intervalos o categorías.


  • Determinar:

    • el valor crítico de chi-cuadrado para un nivel de significancia dado (por ejemplo, 0.05)
    • los grados de libertad (número de intervalos o categorías menos 1)
  • Comparar la estadística chi-cuadrado calculada con el valor crítico.

  • Si la estadística chi-cuadrado es mayor que el valor crítico, rechazar la hipótesis nula y concluir que la distribución propuesta no se ajusta adecuadamente a los datos observados.


Prueba χ2\chi^2 - Implementación práctica

Esta prueba es válida para muestras grandes (30\geq 30), tanto para distribuciones continuas como discretas. Dada la muestra de nn observaciones de una va XX, y un nivel de significación α\alpha, el test consiste en los siguientes pasos:

  • Dividir el intervalo en kk clases disjuntas, sub-intervalos de la misma amplitud.
  • El número de clases kk se determina de acuerdo a alguno de los siguientes criterios:
    • k=nk = \sqrt{n}
    • k=1+3.222×lognk = 1 + 3.222 \times \log n (Fórmula de Sturges)
    • donde nn es el número de observaciones.

  • Para cada clase, contar el número de elementos OiO_i que cae en la clase ii (i=1,2,,ki = 1, 2, \dots, k).

  • Determinar la frecuencia esperada Ei=npiE_i = n p_i, en cada intervalo ii, donde pip_i es la probabilidad teórica de la distribución supuesta asociada al intervalo de clase:

    • pi=P(X=xi)p_i = P(X = x_i) Caso discreto, donde cada valor corresponde a una clase.

    • pi=ai1aif(x)dxp_i = \int_{a_{i-1}}^{a_i} f(x) dx Caso continuo, donde ai1a_{i-1} y aia_i son los extremos del intervalo de clase.

El valor de EiE_i debe ser mayor a 5. Si no, combinar el intervalo de clase adyacente.


Interpretación del Estadístico χ2\chi^2

Como sabemos a partir de los valores de OiO_i y EiE_i se determina el estadístico χ2\chi^2 mediante la ecuación:

χprueba2=i=1k(OiEi)2Ei\chi^2_{prueba} = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}

Para nn grande, χprueba2\chi^2_{prueba} sigue una distribución χ2\chi^2 con ks1k - s - 1 grados de libertad. Donde ss es el número de parámetros estimados de la distribución propuesta.

Se rechaza la hipótesis nula si: χprueba2>χks1,α2\chi^2_{prueba} > \chi^2_{k-s-1, \alpha}

Donde el test de hipótesis es:

  • H0H_0: la va XX sigue la distribución supuesta con los parámetros estimados.
  • HAH_A: la va XX sigue otra distribución distinta a la supuesta.

Algunas consideraciones sobre la prueba χ2\chi^2:

  • La fórmula de χprueba2\chi^2_{prueba} mide la discrepancia entre las frecuencias observadas y esperadas al calcular la suma de las diferencias al cuadrado (OiEi)2(O_i - E_i)^2, normalizada por las frecuencias esperadas EiE_i.

  • La normalización se realiza dividiendo cada término por la frecuencia esperada correspondiente (Ei)(E_i). Esto asegura que las diferencias entre las frecuencias observadas y esperadas sean ponderadas en función de su importancia relativa.

  • Por ejemplo, una diferencia de 10 en frecuencias cuando se esperaban 1000 ocurrencias es menos relevante que la misma diferencia cuando se esperaban solo 20 ocurrencias.


El estadístico Chi-cuadrado sigue aproximadamente una distribución Chi-cuadrado cuando la hipótesis nula es verdadera.

La distribución Chi-cuadrado es una familia de distribuciones de probabilidad con un parámetro llamado "grados de libertad". En el caso de la prueba de bondad de ajuste, los grados de libertad son generalmente iguales al número de categorías o intervalos menos uno, menos la cantidad de parámetros de la distribución que debieron ser estimados.

Cuando calculamos el valor p para la prueba Chi-cuadrado, lo que hacemos es comparar el valor calculado del estadístico χprueba2\chi^2_{prueba} con los valores críticos de la distribución Chi-cuadrado con los grados de libertad correspondientes.


Un valor p pequeño indica que es poco probable que la discrepancia observada entre las frecuencias observadas y esperadas haya ocurrido por azar, lo que sugiere que hay evidencia para rechazar la hipótesis nula y concluir que los datos no siguen la distribución teórica propuesta.

El valor p es una medida de la probabilidad de observar un resultado al menos tan extremo como el que se obtuvo en los datos, suponiendo que la hipótesis nula es verdadera. En otras palabras, el valor p nos indica qué tan probable es obtener un resultado como el observado, dado que la hipótesis nula es cierta.


Para calcular el valor p en la prueba Chi-cuadrado de bondad de ajuste, recordamos que deben seguirse los pasos:

  • Calcular el estadístico Chi-cuadrado (χ^2) utilizando la fórmula mencionada anteriormente:

    χ2=Σ[(OiEi)2/Ei]χ^2 = Σ[(O_i - E_i)^2 / E_i]

    Donde O_i son las frecuencias observadas, E_i son las frecuencias esperadas y la suma se realiza sobre todas las categorías o intervalos.

  • Determinar los grados de libertad para la prueba. En general, los grados de libertad son igual al número de categorías o intervalos menos uno (k - 1), donde k es el número de categorías o intervalos.


  • Consultar una tabla de la distribución Chi-cuadrado o utilizar un software estadístico para encontrar el valor p correspondiente al estadístico Chi-cuadrado calculado (χ^2) y los grados de libertad.

La distribución Chi-cuadrado es una función que relaciona los valores del estadístico χ^2 con sus probabilidades asociadas.

El valor p obtenido representa la probabilidad de obtener un valor del estadístico χ^2 igual o más extremo que el calculado, suponiendo que la hipótesis nula es verdadera.


Por lo general, se establece un nivel de significancia (α) para decidir si se rechaza o no la hipótesis nula. Un nivel de significancia común es 0.05 (5%).

  • Si el valor p es menor que el nivel de significancia (p < α), se rechaza la hipótesis nula, lo que sugiere que los datos no se ajustan a la distribución teórica propuesta.

  • Por otro lado, si el valor p es mayor que el nivel de significancia (p ≥ α), no se puede rechazar la hipótesis nula, y no hay evidencia suficiente para afirmar que los datos no siguen la distribución teórica.