Distribución chi-cuadrado. Distribuciones de estadística matemática en MS EXCEL.

Propósito del criterio χ 2 - criterio de Pearson El criterio χ 2 se utiliza para dos propósitos: 1) comparar la distribución empírica de una característica con la teórica: uniforme, normal o alguna otra; 2) comparar dos, tres o más distribuciones empíricas de la misma característica. Descripción del criterio El criterio χ 2 responde a la pregunta de si diferentes significados característica en distribuciones empíricas y teóricas o en dos o más distribuciones empíricas. La ventaja del método es que permite comparar las distribuciones de características presentadas en cualquier escala, empezando por la escala de nombres. En el muy caso sencillo distribución alternativa “sí - no”, “permitió un defecto - no permitió un defecto”, “resolvió un problema - no resolvió un problema”, etc. ya podemos aplicar el criterio χ 2. Cuanto mayor sea la discrepancia entre las dos distribuciones comparadas, mayor será el valor empírico de χ 2 . Cálculo automático de χ 2 - Criterio de Pearson Para realizar el cálculo automático de χ 2 - Criterio de Pearson se deben realizar dos pasos: Paso 1. Especifique el número de distribuciones empíricas (de 1 a 10); Paso 2. Ingrese frecuencias empíricas en la tabla; Paso 3. Obtén una respuesta.

La ventaja del criterio de Pearson es su universalidad: puede usarse para probar hipótesis sobre varias leyes distribuciones.

1. Probar la hipótesis de distribución normal.

Dejemos que se obtenga una muestra suficientemente grande. PAG con mucho de diferentes significados opción. Para facilitar su procesamiento, dividimos el intervalo desde el valor más pequeño al más grande de la opción en s a partes iguales y asumiremos que los valores de las opciones que caen en cada intervalo son aproximadamente iguales al número que especifica la mitad del intervalo. Al contar el número de opciones que caen en cada intervalo, crearemos la llamada muestra agrupada:

opciones………….. X 1 X 2 … xs

frecuencias…………. PAG 1 PAG 2 … n s ,

Dónde xyo son los valores de los puntos medios de los intervalos, y n yo– número de opciones incluidas en i-intervalo (frecuencias empíricas).



A partir de los datos obtenidos, se puede calcular la media muestral y la media muestral. Desviación Estándar σB. Comprobemos el supuesto de que la población se distribuye según una ley normal con parámetros. METRO(X) = , D(X) = . Luego puedes encontrar la cantidad de números del tamaño de la muestra. PAG, que debería aparecer en cada intervalo bajo este supuesto (es decir, frecuencias teóricas). Para ello, utilizando la tabla de valores de la función de Laplace, encontramos la probabilidad de entrar en iésimo intervalo:

,

Dónde y yo Y b yo- límites i-ésimo intervalo. Multiplicando las probabilidades obtenidas por el tamaño de muestra n, encontramos las frecuencias teóricas: p i = n · p i Nuestro objetivo es comparar las frecuencias empíricas y teóricas, que, por supuesto, difieren entre sí, y descubrir si estas diferencias son insignificantes y no refutan la hipótesis de una distribución normal de la variable aleatoria en estudio, o si son tan grandes que contradicen esta hipótesis. Para ello se utiliza un criterio en forma de variable aleatoria.

. (20.1)

Su significado es obvio: se suman las partes que forman los cuadrados de las desviaciones de las frecuencias empíricas de las teóricas a partir de las frecuencias teóricas correspondientes. Se puede demostrar que, independientemente de la ley de distribución real de la población, la ley de distribución de la variable aleatoria (20.1) tiende a la ley de distribución (ver lección 12) con el número de grados de libertad. k = s – 1 – r, Dónde r– el número de parámetros de la distribución esperada estimados a partir de los datos de la muestra. La distribución normal se caracteriza por dos parámetros, por lo tanto k = s – 3. Para el criterio seleccionado, se construye una región crítica del lado derecho, determinada por la condición

(20.2)

Dónde α - Nivel significativo. En consecuencia, la región crítica está dada por la desigualdad y el área de aceptación de la hipótesis es .

Entonces, para probar la hipótesis nula norte 0: la población tiene una distribución normal; es necesario calcular el valor observado del criterio a partir de la muestra:

, (20.1`)

y de la tabla de puntos críticos de la distribución χ 2 encontrar punto crítico usando valores conocidosα y k = s – 3. Si - se acepta la hipótesis nula, si se rechaza.

2. Probar la hipótesis de distribución uniforme.

Cuando se utiliza la prueba de Pearson para probar la hipótesis de que la población está distribuida uniformemente con la densidad de probabilidad estimada

Es necesario, habiendo calculado el valor a partir de la muestra disponible, estimar los parámetros. A Y b según las fórmulas:

Dónde A* Y b*- evaluaciones A Y b. De hecho, para una distribución uniforme METRO(X) = , , donde puede obtener un sistema para determinar A* Y b*: , cuya solución son las expresiones (20.3).

Entonces, suponiendo que , puedes encontrar las frecuencias teóricas usando las fórmulas

Aquí s– el número de intervalos en los que se divide la muestra.

El valor observado del criterio de Pearson se calcula mediante la fórmula (20.1`), y el valor crítico se calcula mediante la tabla, teniendo en cuenta el hecho de que el número de grados de libertad k = s – 3. Después de esto, los límites de la región crítica se determinan de la misma manera que para probar la hipótesis de una distribución normal.

3. Probar la hipótesis sobre la distribución exponencial.

En este caso, habiendo dividido la muestra existente en intervalos de igual longitud, consideramos la secuencia de opciones, igualmente espaciadas entre sí (asumimos que todas las opciones que caen en i- ésimo intervalo, tomar un valor coincidente con su punto medio), y sus correspondientes frecuencias n yo(número de opciones de muestra incluidas en i– ésimo intervalo). Calculemos a partir de estos datos y tomemos como estimación del parámetro λ tamaño. Luego las frecuencias teóricas se calculan mediante la fórmula

Luego se comparan los valores observado y crítico del criterio de Pearson, teniendo en cuenta que el número de grados de libertad k = s – 2.

En esta nota, la distribución χ 2 se utiliza para probar la coherencia de un conjunto de datos con una distribución de probabilidad fija. El criterio de acuerdo a menudo oh Los que pertenecen a una categoría particular se comparan con las frecuencias que teóricamente se esperarían si los datos realmente tuvieran la distribución especificada.

La prueba utilizando el criterio de bondad de ajuste χ 2 se realiza en varias etapas. Primero, se determina una distribución de probabilidad específica y se compara con los datos originales. En segundo lugar, se plantea una hipótesis sobre los parámetros de la distribución de probabilidad seleccionada (por ejemplo, su expectativa matemática) o se realiza su evaluación. En tercer lugar, a partir de la distribución teórica se determina la probabilidad teórica correspondiente a cada categoría. Finalmente, se utiliza el estadístico de prueba χ2 para comprobar la coherencia de los datos y la distribución:

Dónde f 0- frecuencia observada, f e- frecuencia teórica o esperada, k- número de categorías que quedan después de la fusión, R- número de parámetros a estimar.

Descarga la nota en formato o, ejemplos en formato

Utilizando la prueba de bondad de ajuste de χ2 para la distribución de Poisson

Para calcular usando esta fórmula en Excel, es conveniente utilizar la función =SUMAPRODUCTO() (Fig. 1).

Para estimar el parámetro λ puedes usar la estimación . Frecuencia teórica Xéxitos (X = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y más) correspondientes al parámetro λ = 2,9 se puede determinar usando la función =POISSON.DIST(X;;FALSE). Multiplicando la probabilidad de Poisson por el tamaño de la muestra norte, obtenemos la frecuencia teórica f e(Figura 2).

Arroz. 2. Tasas de llegada por minuto reales y teóricas

Como se desprende de la Fig. 2, la frecuencia teórica de nueve o más llegadas no supera 1,0. Para que cada categoría contenga una frecuencia igual a 1,0 o más, la categoría “9 o más” debe combinarse con la categoría “8”. Es decir, quedan nueve categorías (0, 1, 2, 3, 4, 5, 6, 7, 8 y más). Dado que la expectativa matemática de la distribución de Poisson se determina sobre la base de datos de muestra, el número de grados de libertad es igual a k – p – 1 = 9 – 1 – 1 = 7. Usando un nivel de significancia de 0,05, encontramos la valor crítico de la estadística χ 2, que tiene 7 grados de libertad según la fórmula =CHI2.OBR(1-0.05;7) = 14.067. La regla de decisión se formula de la siguiente manera: hipótesis H 0 se rechaza si χ 2 > 14.067, en caso contrario la hipótesis H 0 no se desvía.

Para calcular χ 2 utilizamos la fórmula (1) (Fig. 3).

Arroz. 3. Cálculo del criterio de bondad de ajuste χ 2 para la distribución de Poisson

Dado que χ 2 = 2,277< 14,067, следует, что гипотезу H 0 no puede ser rechazado. En otras palabras, no tenemos ninguna razón para afirmar que la llegada de clientes al banco no obedece a la distribución de Poisson.

Aplicación de la prueba de bondad de ajuste de χ 2 para distribución normal

En notas anteriores, al probar hipótesis sobre variables numéricas, asumimos que la población en estudio tenía una distribución normal. Para comprobar esta suposición, puede utilizar herramientas gráficas, por ejemplo, un diagrama de caja o un gráfico de distribución normal (para más detalles, consulte). Para tamaños de muestra grandes, se puede utilizar la prueba de bondad de ajuste de χ 2 para una distribución normal para probar estos supuestos.

Consideremos, como ejemplo, datos sobre los rendimientos a cinco años de 158 fondos de inversión (Fig. 4). Supongamos que quiere creer si los datos se distribuyen normalmente. Las hipótesis nula y alternativa se formulan de la siguiente manera: H 0: el rendimiento a 5 años sigue una distribución normal, H 1: El rendimiento a 5 años no sigue una distribución normal. La distribución normal tiene dos parámetros: la expectativa matemática μ y la desviación estándar σ, que pueden estimarse a partir de datos de muestra. En este caso = 10.149 y S = 4,773.

Arroz. 4. Una matriz ordenada que contiene datos sobre el rendimiento anual promedio de cinco años de 158 fondos.

Los datos sobre los rendimientos de los fondos se pueden agrupar, por ejemplo, en clases (intervalos) con una anchura del 5% (Fig. 5).

Arroz. 5. Distribución de frecuencia para rendimientos anuales promedio a cinco años de 158 fondos

Dado que la distribución normal es continua, es necesario determinar el área de las figuras delimitadas por la curva de distribución normal y los límites de cada intervalo. Además, dado que la distribución normal teóricamente oscila entre –∞ y +∞, es necesario tener en cuenta el área de las formas que quedan fuera de los límites de clase. Entonces, el área bajo la curva normal a la izquierda del punto –10 es igual al área de la figura que se encuentra debajo de la curva normal estandarizada a la izquierda del valor Z igual a

Z = (–10 – 10,149) / 4,773 = –4,22

El área de la figura que se encuentra bajo la curva normal estandarizada a la izquierda del valor Z = –4,22 está determinada por la fórmula =DIST.NORM(-10;10.149;4.773;TRUE) y es aproximadamente igual a 0.00001. Para calcular el área de la figura que se encuentra bajo la curva normal entre los puntos –10 y –5, primero debe calcular el área de la figura que se encuentra a la izquierda del punto –5: =DIST.NORM( -5,10.149,4.773,VERDADERO) = 0.00075 . Entonces, el área de la figura que se encuentra bajo la curva normal entre los puntos –10 y –5 es 0,00075 – 0,00001 = 0,00074. De manera similar, puedes calcular el área de la figura limitada por los límites de cada clase (Fig. 6).

Arroz. 6. Áreas y frecuencias esperadas para cada clase de rentabilidad a 5 años

Se puede observar que las frecuencias teóricas en las cuatro clases extremas (dos mínimas y dos máximas) son menores que 1, por lo que combinaremos las clases, como se muestra en la Fig. 7.

Arroz. 7. Cálculos asociados con el uso de la prueba de bondad de ajuste χ 2 para la distribución normal

Usamos el criterio χ 2 para la concordancia de datos con una distribución normal usando la fórmula (1). En nuestro ejemplo, después de fusionarse, quedan seis clases. Dado que el valor esperado y la desviación estándar se estiman a partir de datos de muestra, el número de grados de libertad es kpag – 1 = 6 – 2 – 1 = 3. Utilizando un nivel de significancia de 0,05, encontramos que el valor crítico del estadístico χ 2, que tiene tres grados de libertad = CI2.OBR(1-0,05;F3) = 7,815. Los cálculos asociados con el uso del criterio de bondad de ajuste χ 2 se muestran en la Fig. 7.

Se puede observar que χ 2 -estadístico = 3,964< χ U 2 7,815, следовательно гипотезу H 0 no puede ser rechazado. En otras palabras, no tenemos fundamento para afirmar que los rendimientos a cinco años de los fondos de inversión centrados en un alto crecimiento no estén sujetos a una distribución normal.

Varias publicaciones recientes han explorado diferentes enfoques para analizar datos categóricos. Se describen métodos para probar hipótesis sobre datos categóricos obtenidos del análisis de dos o más muestras independientes. Además de las pruebas de chi-cuadrado, se consideran procedimientos no paramétricos. Se describe la prueba de rango de Wilcoxon, la cual se utiliza en situaciones donde no se cumplen las condiciones de aplicación. t-criterios para probar la hipótesis de igualdad expectativas matemáticas dos grupos independientes, así como la prueba de Kruskal-Wallis, que es una alternativa al análisis de varianza unidireccional (Fig. 8).

Arroz. 8. Diagrama de bloques de métodos para probar hipótesis sobre datos categóricos.

Se utilizan materiales del libro Levin et al. – M.: Williams, 2004. – pág. 763–769

En este artículo hablaremos sobre el estudio de la dependencia entre signos, o como prefieras, valores aleatorios, variables. En particular, veremos cómo introducir una medida de dependencia entre características utilizando la prueba de Chi-cuadrado y compararla con el coeficiente de correlación.

¿Por qué podría ser necesario esto? Por ejemplo, para comprender qué características dependen más de la variable objetivo al construir la calificación crediticia, es decir, determinar la probabilidad de incumplimiento del cliente. O, como en mi caso, comprender qué indicadores se deben utilizar para programar un robot comercial.

Por otra parte, me gustaría señalar que utilizo el lenguaje C# para el análisis de datos. Quizás todo esto ya esté implementado en R o Python, pero usar C# para mí me permite entender el tema en detalle, además, es mi lenguaje de programación favorito.

Comencemos con un ejemplo muy simple, creemos cuatro columnas en Excel usando un generador de números aleatorios:
X=ALEATORIO ENTRE(-100,100)
Y =X*10+20
z =X*X
t=ALEATORIO ENTRE(-100,100)

Como puedes ver, la variable Y linealmente dependiente de X; variable z cuadráticamente dependiente de X; variables X Y t independiente. Hice esta elección a propósito, porque compararemos nuestra medida de dependencia con el coeficiente de correlación. Como se sabe, entre dos variables aleatorias es igual módulo 1 si el tipo de dependencia "más difícil" entre ellas es lineal. Existe correlación cero entre dos variables aleatorias independientes, pero la igualdad del coeficiente de correlación a cero no implica independencia. A continuación veremos esto usando el ejemplo de variables. X Y z.

Guarde el archivo como data.csv y comience las primeras estimaciones. Primero, calculemos el coeficiente de correlación entre valores. No inserté el código en el artículo; está en mi github. Obtenemos la correlación para todos los pares posibles:

Se puede ver que linealmente dependiente X Y Y el coeficiente de correlación es 1. Pero X Y z es igual a 0,01, aunque establecemos la dependencia explícitamente z=X*X. Claramente, necesitamos una medida que "sienta" mejor la adicción. Pero antes de pasar a la prueba de Chi-cuadrado, veamos qué es una matriz de contingencia.

Para construir una matriz de contingencia, dividimos el rango de valores de las variables en intervalos (o categorizamos). Hay muchas maneras de hacer esto, pero no existe una forma universal. Algunos de ellos se dividen en intervalos para que contengan el mismo número de variables, otros se dividen en intervalos de igual longitud. Personalmente me gusta combinar estos enfoques. Decidí usar este método: resto la puntuación del tapete de la variable. expectativas, luego divida el resultado por la estimación de la desviación estándar. En otras palabras, centro y normalizo la variable aleatoria. El valor resultante se multiplica por un coeficiente (en este ejemplo es 1), después de lo cual todo se redondea al número entero más cercano. La salida es una variable de tipo int, que es el identificador de clase.

Así que tomemos nuestras señales X Y z, categorizamos de la manera descrita anteriormente, después de lo cual calculamos el número y las probabilidades de aparición de cada clase y las probabilidades de aparición de pares de características:

Esta es una matriz por cantidad. Aquí en las líneas: el número de apariciones de las clases de variables. X, en columnas: el número de apariciones de clases de la variable z, en celdas: el número de apariciones de pares de clases simultáneamente. Por ejemplo, la clase 0 ocurrió 865 veces para la variable X, 823 veces para una variable z y nunca hubo un par (0,0). Pasemos a las probabilidades dividiendo todos los valores entre 3000 (número total de observaciones):

Obtuvimos una matriz de contingencia obtenida después de categorizar las características. Ahora es el momento de pensar en el criterio. Por definición, las variables aleatorias son independientes si las álgebras sigma generadas por estas variables aleatorias son independientes. La independencia de las álgebras sigma implica la independencia por pares de los eventos respecto de ellas. Dos eventos se llaman independientes si la probabilidad de que ocurran conjuntamente es igual al producto de las probabilidades de estos eventos: Pij = Pi*Pj. Es esta fórmula la que usaremos para construir el criterio.

Hipótesis nula: signos categorizados X Y z independiente. Equivalente a ello: la distribución de la matriz de contingencia se especifica únicamente por las probabilidades de ocurrencia de clases de variables (probabilidades de filas y columnas). O esto: las celdas de la matriz se encuentran mediante el producto de las probabilidades correspondientes de las filas y columnas. Usaremos esta formulación de la hipótesis nula para construir regla decisiva: discrepancia significativa entre pij Y Pi*Pj será la base para rechazar la hipótesis nula.

Sea la probabilidad de que aparezca la clase 0 en una variable. X. nuestro total norte clases en X Y metro clases en z. Resulta que para establecer la distribución matricial necesitamos conocer estos norte Y metro probabilidades. Pero, de hecho, si sabemos n-1 probabilidad para X, entonces este último se encuentra restando la suma de los demás a 1. Por tanto, para encontrar la distribución de la matriz de contingencia necesitamos saber l=(n-1)+(m-1) valores. ¿O tenemos yo-espacio paramétrico dimensional, cuyo vector nos da nuestra distribución deseada. La estadística de Chi-cuadrado se verá así:

y, según el teorema de Fisher, tienen una distribución Chi-cuadrado con n*m-l-1=(n-1)(m-1) grados de libertad.

Establezcamos el nivel de significancia en 0,95 (o la probabilidad de un error de tipo I es 0,05). Encontremos el cuantil de la distribución de Chi cuadrado para un nivel de significancia dado y grados de libertad del ejemplo. (n-1)(m-1)=4*3=12: 21.02606982. El propio estadístico Chi-cuadrado para las variables X Y z es igual a 4088,006631. Está claro que no se acepta la hipótesis de la independencia. Es conveniente considerar la relación entre el estadístico Chi-cuadrado y el valor umbral; en este caso es igual a Chi2Coef=194,4256186. Si esta relación es menor que 1, entonces se acepta la hipótesis de independencia; si es mayor, entonces no lo es. Encontremos esta relación para todos los pares de características:

Aquí Factor1 Y Factor2- nombres de funciones
src_cnt1 Y src_cnt2- número de valores únicos de características iniciales
mod_cnt1 Y mod_cnt2- número de valores de características únicos después de la categorización
chi2- Estadísticas de chi-cuadrado
chi2max- valor umbral del estadístico Chi-cuadrado para un nivel de significancia de 0,95
chi2Coeff- relación entre el estadístico Chi-cuadrado y el valor umbral
corri- coeficiente de correlación

Se puede observar que son independientes (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) Y ( Z,T), lo cual es lógico, ya que la variable t se genera aleatoriamente. variables X Y z dependiente, pero menos que linealmente dependiente X Y Y, lo cual también es lógico.

Publiqué el código de la utilidad que calcula estos indicadores en github, donde también está el archivo data.csv. La utilidad toma un archivo csv como entrada y calcula las dependencias entre todos los pares de columnas: PtProject.Dependency.exe data.csv

Considere la distribución Chi-cuadrado. Usando la función MS EXCELDISTR.CH2() Tracemos la función de distribución y la densidad de probabilidad, y expliquemos el uso de esta distribución para fines de estadística matemática.

Distribución chi-cuadrado (X2, XI2, Ingléschi- al cuadradodistribución) utilizado en varios métodos de estadística matemática:

  • durante la construcción;
  • en ;
  • en (los datos empíricos concuerdan con nuestra suposición sobre la función de distribución teórica o no, bondad de ajuste en inglés)
  • at (utilizado para determinar la relación entre dos variables categóricas, prueba de asociación inglesa Chi-cuadrado).

Definición: Si x 1 , x 2 , …, x n son variables aleatorias independientes distribuidas sobre N(0;1), entonces la distribución de la variable aleatoria Y=x 1 2 + x 2 2 +…+ x n 2 tiene distribución x2 con n grados de libertad.

Distribución x2 depende de un parámetro llamado grado de libertad (df, gradosdelibertad). Por ejemplo, al construir numero de grados de libertad es igual a df=n-1, donde n es el tamaño muestras.

Densidad de distribución x2 expresado por la fórmula:

Gráficos de funciones

Distribución x2 tiene una forma asimétrica, igual a n, igual a 2n.

EN archivo de ejemplo en la hoja de gráficos dado gráficos de densidad de distribución probabilidades y función de distribución acumulativa.

Propiedad útil Distribuciones de CH2

Sean x 1 , x 2 , …, x n variables aleatorias independientes distribuidas sobre ley normal con los mismos parámetros μ y σ, y X av es significado aritmetico estos valores de x.
Entonces valor aleatorio y igual

Tiene x2 -distribución con n-1 grados de libertad. Usando la definición, la expresión anterior se puede reescribir de la siguiente manera:

Por eso, distribución muestral estadísticas y, en muestra de distribución normal, Tiene x2 -distribución con n-1 grados de libertad.

Necesitaremos esta propiedad cuando . Porque dispersión sólo puede ser un número positivo, y x2 -distribución se utiliza para evaluarlo, entonces y db >0, como se indica en la definición.

Distribución de CH2 en MS EXCEL

En MS EXCEL, a partir de la versión 2010, para x2 -distribuciones hay una función especial CHI2.DIST(), nombre inglés– CHISQ.DIST(), que permite calcular densidad de probabilidad(ver fórmula arriba) y (la probabilidad de que una variable aleatoria X tenga CI2-distribución, tomará un valor menor o igual a x, P(X<= x}).

Nota: Porque Distribución de CH2 es un caso especial, entonces la fórmula =DIST.GAMMA(x;n/2;2;VERDADERO) para un entero positivo n devuelve el mismo resultado que la fórmula = DISTR.CHI2.(x;n; VERDADERO) o =1-CHI2.DIST.PH(x;n) . y la formula =DIST.GAMMA(x;n/2;2;FALSO) devuelve el mismo resultado que la fórmula = DISTR.CHI2.(x;n; FALSO), es decir. densidad de probabilidad Distribuciones de CH2.

La función HI2.DIST.PH() devuelve función de distribución, más precisamente, probabilidad del lado derecho, es decir P(X > x). Es obvio que la igualdad es verdadera.
=DIST.CHI2.PH(x;n)+DIST.CHI2(x;n;VERDADERO)=1
porque el primer término calcula la probabilidad P(X > x), y el segundo P(X<= x}.

Antes de MS EXCEL 2010, EXCEL solo tenía la función CHIDIST(), que permite calcular la probabilidad del lado derecho, es decir P(X > x). Las capacidades de las nuevas funciones de MS EXCEL 2010 XI2.DIST() y XI2.DIST.PH() cubren las capacidades de esta función. La función CH2DIST() se deja en MS EXCEL 2010 por compatibilidad.

CHI2.DIST() es la única función que devuelve densidad de probabilidad de la distribución chi2(el tercer argumento debe ser FALSO). El resto de funciones regresan. función de distribución acumulativa, es decir. probabilidad de que la variable aleatoria tome un valor del rango especificado: P(X<= x}.

Las funciones de MS EXCEL anteriores se proporcionan en .

Ejemplos

Encontremos la probabilidad de que la variable aleatoria X tome un valor menor o igual al dado X: P(X<= x}. Это можно сделать несколькими функциями:

DISTR.CHI2(x; n; VERDADERO)
=1-HI2.DIST.PH(x; n)
=1-DISTCHI2(x; n)

La función CH2.DIST.PH() devuelve la probabilidad P(X > x), la llamada probabilidad de la mano derecha, por lo que para encontrar P(X<= x}, необходимо вычесть ее результат от 1.

Encontremos la probabilidad de que la variable aleatoria X tome un valor mayor que uno dado X: P(X > x). Esto se puede hacer con varias funciones:

1-CHI2.DIST(x; n; VERDADERO)
=HI2.DIST.PH(x; n)
= DISTR.CHI2(x; n)

Función de distribución inversa de chi2

La función inversa se utiliza para calcular alfa- , es decir. para calcular valores X para una probabilidad dada alfa, y X debe satisfacer la expresión P(X<= x}=alfa.

La función CH2.INV() se utiliza para calcular intervalos de confianza de la varianza de la distribución normal.

La función CHI2.OBR.PH() se utiliza para calcular , es decir Si se especifica un nivel de significancia como argumento de la función, por ejemplo 0,05, entonces la función devolverá un valor de la variable aleatoria x para el cual P(X>x)=0,05. A modo de comparación: la función XI2.INR() devolverá un valor de la variable aleatoria x para el cual P(X<=x}=0,05.

En MS EXCEL 2007 y versiones anteriores, en lugar de HI2.OBR.PH(), se utilizaba la función HI2OBR().

Las funciones anteriores se pueden intercambiar, porque las siguientes fórmulas devuelven el mismo resultado:
=CHI.OBR(alfa;n)
=HI2.OBR.PH(1-alfa;n)
=CHI2INV(1- alfa;n)

Algunos ejemplos de cálculos se dan en archivo de ejemplo en la hoja de Funciones.

Funciones de MS EXCEL utilizando la distribución CH2

A continuación se muestra la correspondencia entre los nombres de funciones en ruso e inglés:
CH2.DIST.PH() - Inglés. nombre CHISQ.DIST.RT, es decir DISTribución CHI-Cuadrado Cola Derecha, la distribución Chi-cuadrado(d) de cola derecha
CH2.OBR() - Inglés. nombre CHISQ.INV, es decir Distribución CHI-Cuadrado INVerse
CH2.PH.OBR() - Inglés. nombre CHISQ.INV.RT, es decir Distribución CHI-Cuadrado INVerse Right Tail
CH2DIST() - Inglés. nombre CHIDIST, función equivalente a CHISQ.DIST.RT
CH2OBR() - Inglés. nombre CHIINV, es decir Distribución CHI-Cuadrado INVerse

Estimación de parámetros de distribución.

Porque generalmente Distribución de CH2 utilizado con fines de estadística matemática (cálculo intervalos de confianza, probar hipótesis, etc.), y casi nunca para construir modelos de valores reales, entonces para esta distribución no se analiza aquí la estimación de los parámetros de la distribución.

Aproximación de la distribución CI2 por la distribución normal

Con el número de grados de libertad n>30 distribución X 2 bien aproximado distribución normal con valor promedioµ=n y varianza σ=2*n (ver archivo de hoja de ejemplo Aproximación).

chi-cuadrado Pearson es la prueba más sencilla para comprobar la importancia de una relación entre dos variables categorizadas. El criterio de Pearson se basa en el hecho de que en una tabla de dos entradas esperado Las frecuencias bajo la hipótesis “no hay dependencia entre las variables” se pueden calcular directamente. Imagine que se pregunta a 20 hombres y 20 mujeres sobre su elección de agua con gas (marca A o marca B). Si no existe una conexión entre preferencia y género, entonces, naturalmente, esperar igual elección de marca A y marcas B para cada género.

Significado de estadísticas chi-cuadrado y su nivel de significancia depende del número total de observaciones y del número de celdas de la tabla. De acuerdo con los principios discutidos en la sección , las desviaciones relativamente pequeñas de las frecuencias observadas con respecto a las esperadas resultarán significativas si el número de observaciones es grande.

Sólo hay una limitación significativa en el uso del criterio. chi-cuadrado(aparte del supuesto obvio de selección aleatoria de observaciones), que es que las frecuencias esperadas no deben ser muy pequeñas. Esto se debe a que el criterio chi-cuadrado por controles de naturaleza probabilidades en cada celda; y si las frecuencias esperadas en las celdas se vuelven pequeñas, por ejemplo menos de 5, entonces estas probabilidades no pueden estimarse con suficiente precisión utilizando las frecuencias disponibles. Para un análisis más detallado, véase Everitt (1977), Hays (1988) o Kendall y Stuart (1979).

Prueba de chi-cuadrado (método de máxima verosimilitud).Chi-cuadrado de máxima probabilidad tiene como objetivo probar la misma hipótesis sobre las relaciones en tablas de contingencia que el criterio chi-cuadrado Pearson. Sin embargo, su cálculo se basa en el método de máxima verosimilitud. En la práctica, las estadísticas del MP chi-cuadrado muy cercano en magnitud a la estadística regular de Pearson chi-cuadrado. Puede encontrarse más información sobre estas estadísticas en Bishop, Fienberg y Holland (1975) o Fienberg (1977). en el capitulo Análisis loglineal estas estadísticas se analizan con más detalle.

Enmienda de Yates. Aproximación de estadísticas chi-cuadrado para tablas de 2x2 con un pequeño número de observaciones en celdas se puede mejorar reduciendo el valor absoluto de las diferencias entre las frecuencias esperadas y observadas en 0,5 antes de elevar al cuadrado (el llamado enmienda de Yates). La corrección de Yates, que hace que la estimación sea más moderada, generalmente se aplica en los casos en que las tablas contienen sólo frecuencias pequeñas, por ejemplo, cuando algunas frecuencias esperadas son menores que 10 (para una discusión más detallada, ver Conover, 1974; Everitt, 1977; Hays). , 1988; Kendall y Stuart, 1979 y Mantel, 1974).

Prueba exacta de Fisher. Este criterio sólo es aplicable para mesas de 2x2. El criterio se basa en el siguiente razonamiento. Dadas las frecuencias marginales de la tabla, supongamos que ambas variables tabuladas son independientes. Preguntémonos: ¿cuál es la probabilidad de obtener las frecuencias observadas en la tabla, a partir de las marginales dadas? Resulta que esta probabilidad se calcula exactamente contando todas las tablas que se pueden construir a partir de las marginales. Así, el criterio de Fisher calcula preciso la probabilidad de ocurrencia de frecuencias observadas bajo la hipótesis nula (sin relación entre las variables tabuladas). La tabla de resultados muestra niveles unilaterales y bilaterales.

Chi-cuadrado de McNemar. Este criterio se aplica cuando las frecuencias en la tabla 2x2 representan dependiente muestras. Por ejemplo, observaciones de los mismos individuos antes y después de un experimento. En particular, se puede contar el número de estudiantes que tienen un rendimiento mínimo en matemáticas al principio y al final del semestre o la preferencia de los mismos encuestados antes y después del anuncio. Se calculan dos valores. chi-cuadrado: ANUNCIO Y ANTES DE CRISTO. chi-cuadrado A/D prueba la hipótesis de que las frecuencias en las células A Y D(arriba a la izquierda, abajo a la derecha) son iguales. B/C chi-cuadrado pone a prueba la hipótesis sobre la igualdad de frecuencias en las células B Y C(arriba a la derecha, abajo a la izquierda).

Coeficiente phi.plaza phi representa una medida de la relación entre dos variables en una tabla de 2x2. Sus valores varían de 0 (sin dependencia entre variables; chi-cuadrado = 0.0 ) antes 1 (relación absoluta entre dos factores de la tabla). Para más detalles, véase Castellan y Siegel (1988, p. 232).

Correlación tetracórica. Esta estadística se calcula (y se aplica) sólo a tablas de tabulación cruzada de 2x2. Si una tabla de 2x2 puede verse como el resultado de una partición (artificial) de los valores de dos variables continuas en dos clases, entonces el coeficiente de correlación tetracórico nos permite estimar la relación entre estas dos variables.

Coeficiente de conjugación. El coeficiente de contingencia se basa estadísticamente. chi-cuadrado una medida de la relación de características en la tabla de contingencia (propuesta por Pearson). La ventaja de este coeficiente sobre las estadísticas convencionales. chi-cuadrado es que es más fácil de interpretar, porque el rango de su cambio está en el rango de 0 antes 1 (Dónde 0 corresponde al caso de independencia de las características de la tabla, y un aumento en el coeficiente muestra un aumento en el grado de conexión). La desventaja del coeficiente de contingencia es que su valor máximo “depende” del tamaño de la mesa. Este coeficiente puede alcanzar un valor de 1 sólo si el número de clases no está limitado (ver Siegel, 1956, p. 201).

Interpretación de medidas de comunicación. Un inconveniente importante de las medidas de asociación (discutidas anteriormente) es la dificultad de interpretarlas en términos convencionales de probabilidad o "proporción de varianza explicada", como en el caso del coeficiente de correlación. r Pearson (ver Correlaciones). Por lo tanto, no existe una medida o coeficiente de asociación generalmente aceptado.

Estadísticas basadas en rangos. En muchos problemas que surgen en la práctica, tenemos mediciones sólo en ordinal escala (ver Conceptos básicos de estadística.). Esto se aplica especialmente a mediciones en el campo de la psicología, la sociología y otras disciplinas relacionadas con el estudio del hombre. Supongamos que entrevistó a varios encuestados para conocer su actitud hacia determinados deportes. Representas las medidas en una escala con las siguientes posiciones: (1) Siempre, (2) generalmente, (3) A veces y (4) nunca. Obviamente la respuesta a veces me pregunto muestra menos interés del encuestado que la respuesta normalmente estoy interesado etc. De este modo, es posible ordenar (clasificar) el grado de interés de los encuestados. Este es un ejemplo típico de escala ordinal. Las variables medidas en una escala ordinal tienen sus propios tipos de correlaciones que permiten evaluar las dependencias.

R Spearman. Estadísticas R Spearman se puede interpretar de la misma manera que la correlación de Pearson ( r Pearson) en términos de la proporción de varianza explicada (teniendo en cuenta, sin embargo, que el estadístico de Spearman se calcula por rangos). Se supone que las variables se miden al menos en ordinal escala. Un análisis exhaustivo de la correlación de rangos de Spearman, su poder y eficacia se puede encontrar, por ejemplo, en Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel y Castellan (1988), Kendall (1948). ), Olds (1949) y Hotelling y Pabst (1936).

Tau Kendall. Estadísticas Tau El equivalente de Kendall R Spearman bajo algunos supuestos básicos. Sus poderes también son equivalentes. Sin embargo, normalmente los valores R Lancero y Tau Los de Kendall son diferentes porque difieren tanto en su lógica interna como en la forma en que se calculan. En Siegel y Castellan (1988), los autores expresaron la relación entre estas dos estadísticas de la siguiente manera:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Más importante aún, las estadísticas de Kendall Tau y lancero R tienen diferentes interpretaciones: mientras que las estadísticas R Spearman puede considerarse como un análogo directo de las estadísticas. r Pearson, calculado por rangos, estadísticas de Kendall Tau más bien basado en probabilidades. Más precisamente, prueba que existe una diferencia entre la probabilidad de que los datos observados estén en el mismo orden para dos cantidades y la probabilidad de que estén en un orden diferente. Kendall (1948, 1975), Everitt (1977) y Siegel y Castellan (1988) analizan con gran detalle Tau Kendall. Normalmente se calculan dos estadísticas. Tau Kendall: Tau b Y Tau C. Estas medidas difieren sólo en la forma en que manejan las clasificaciones coincidentes. En la mayoría de los casos sus significados son bastante similares. Si surgen diferencias, entonces parece que la forma más segura es considerar el menor de los dos valores.

Coeficiente d de Sommer: d(X|Y), d(Y|X). Estadísticas d La medida de Sommer es una medida asimétrica de la relación entre dos variables. Esta estadística está cerca de Tau b(ver Siegel y Castellan, 1988, pp. 303-310).

Estadísticas gamma. Si hay muchos valores coincidentes en los datos, las estadísticas gama preferible R Lancero o Tau Kendall. En términos de supuestos básicos, las estadísticas gama equivalente a las estadísticas R Spearman o tau de Kendall. Su interpretación y cálculos son más similares a las estadísticas Tau de Kendall que a las estadísticas R de Spearman. Para decirlo brevemente, gama también representa probabilidad; más precisamente, la diferencia entre la probabilidad de que el orden de clasificación de dos variables coincida, menos la probabilidad de que no coincida, dividida por uno menos la probabilidad de coincidencias. Así que las estadísticas gama básicamente equivalente Tau Kendall, excepto que las coincidencias se tienen en cuenta explícitamente en la normalización. Discusión detallada de las estadísticas. gama se puede encontrar en Goodman y Kruskal (1954, 1959, 1963, 1972), Siegel (1956) y Siegel y Castellan (1988).

Coeficientes de incertidumbre. Estos coeficientes miden comunicación de información entre factores (filas y columnas de la tabla). Concepto dependencia de la información se origina en el enfoque teórico de la información para el análisis de tablas de frecuencia, se pueden consultar manuales relevantes para aclarar esta cuestión (ver Kullback, 1959; Ku y Kullback, 1968; Ku, Varner y Kullback, 1971; ver también Bishop, Fienberg y Holanda, 1975, págs. 344-348). Estadísticas S(Y,X) es simétrico y mide la cantidad de información en una variable Y relativo a la variable X o en una variable X relativo a la variable Y. Estadísticas S(X|Y) Y S(Y|X) expresa dependencia direccional.

Respuestas multidimensionales y dicotomías. Variables como la respuesta multivariada y las dicotomías multivariadas surgen en situaciones en las que el investigador está interesado no sólo en las frecuencias “simples” de los eventos, sino también en algunas propiedades cualitativas (a menudo no estructuradas) de estos eventos. La naturaleza de las variables multidimensionales (factores) se comprende mejor a través de ejemplos.

  • · Respuestas multidimensionales
  • · Dicotomías multidimensionales
  • · Tabulación cruzada de respuestas multivariadas y dicotomías
  • Tabulación cruzada por pares de variables con respuestas multivariadas
  • · Comentario final

Respuestas multidimensionales. Imagine que en el proceso de una gran investigación de mercados, le pidió a los clientes que nombraran los 3 mejores refrescos desde su punto de vista. Una pregunta típica podría verse así.

2024 ongun.ru
Enciclopedia sobre calefacción, suministro de gas, alcantarillado.