Cómo calcular el coeficiente de correlación

Hay muchas preguntas que hacer cuando se mira un gráfico de dispersión. Una de las más comunes es preguntarse qué tan bien una línea recta se aproxima a los datos. Para ayudar a responder esto, hay una estadística descriptiva llamada coeficiente de correlación. Veremos cómo calcular esta estadística.

El Coeficiente de Correlación

El coeficiente de correlación, denotado por r, nos dice cuán cerca caen los datos en un gráfico de dispersión a lo largo de una línea recta. Cuanto más se acerque el valor absoluto de r a uno, mejor se describen los datos mediante una ecuación lineal. Si r =1 o r = -1 entonces el conjunto de datos está perfectamente alineado. Los conjuntos de datos con valores de r cercanos a cero muestran poca o ninguna relación de línea recta.

Debido a los largos cálculos, es mejor calcular r con el uso de una calculadora o un software estadístico. Sin embargo, siempre es un esfuerzo que vale la pena saber qué hace la calculadora cuando está calculando. Lo que sigue es un proceso para calcular el coeficiente de correlación principalmente a mano, con una calculadora usada para los pasos aritméticos de rutina.

Pasos para el cálculo de r

Comenzaremos enumerando los pasos para el cálculo del coeficiente de correlación. Los datos con los que estamos trabajando son datos emparejados, cada par de los cuales estará denotado por (xi,yi).

  1. Empezamos con unos pocos cálculos preliminares. Las cantidades de estos cálculos se utilizarán en los pasos siguientes de nuestro cálculo de r:Calcular x̄, la media de todas las primeras coordenadas de los datos xi.Calcular ȳ, la media de todas las segundas coordenadas de los datos yi.Calcular s x la desviación estándar de la muestra de todas las primeras coordenadas de los datos xi.Calcular s y la desviación estándar de la muestra de todas las segundas coordenadas de los datos yi.
  2. Utiliza la fórmula (zx)i = (xi – x̄) / s x y calcula un valor normalizado para cada xi.
  3. Utiliza la fórmula (zy)i = (yi – ȳ) / s y y calcula un valor estandarizado para cada yi.
  4. Multiplica los valores estandarizados correspondientes: (zx)i(zy)i
  5. Sume los productos del último paso.
  6. Dividir la suma del paso anterior por n – 1, donde n es el número total de puntos en nuestro conjunto de datos emparejados. El resultado de todo esto es el coeficiente de correlación r.

Este proceso no es difícil, y cada paso es bastante rutinario, pero la recopilación de todos estos pasos es bastante implicada. El cálculo de la desviación estándar es bastante tedioso por sí solo. Pero el cálculo del coeficiente de correlación implica no sólo dos desviaciones estándar, sino una multitud de otras operaciones.

Un ejemplo

Para ver exactamente cómo se obtiene el valor de r miramos un ejemplo. Una vez más, es importante señalar que para aplicaciones prácticas querríamos utilizar nuestra calculadora o software estadístico para calcular r para nosotros.

Comenzamos con una lista de datos emparejados: (1, 1), (2, 3), (4, 5), (5,7). La media de los valores de x, la media de 1, 2, 4 y 5 es x̄ = 3. También tenemos que ȳ = 4. La desviación estándar de la

Los valores de x son sx = 1,83 y sy = 2,58. En el cuadro que figura a continuación se resumen los demás cálculos necesarios para r. La suma de los productos de la columna de la derecha es 2,969848. Como hay un total de cuatro puntos y 4 – 1 = 3, dividimos la suma de los productos por 3. Esto nos da un coeficiente de correlación de r = 2,969848/3 = 0,989949.

Tabla para el ejemplo de cálculo del coeficiente de correlación

xyzxzyzxzy11-1.09544503-1.1618949581.27279205723-0.547722515-0.3872983190.212132009450.5477225150.3872983190.212132009571.095445031.1618949581.272792057

Leave a Reply