30 de octubre de 2018

Objetivos de la sesión

  1. Introducir el concepto de correlación como medida de la relación entre variables numéricas.
  • Cálculo de covarianza como paso previo a la determinación de la correlación.
  1. Coeficiente de correlación lineal \(r_{Pearson}\)
  • Noción de linealidad
  1. Correlación parcial.

Correlación

  • La pregunta detrás de un análisis de correlación es si existe una relación entre dos variables.
    • El coeficiente de correlación también informa sobre otras propiedades de la relación
      • dirección
      • fuerza

En otras palabras, se busca saber si existe una covariación entre dos variables: una tendencia a moverse de forma conjunta.

Correlación y causalidad

  • Es un insumo básico para saber si existe una relación causal entre variables, aunque la correlación no equivale a causalidad.

  • Determinar la existencia de una relación causal supone operaciones más exigentes que la de
    • establecer la existencia de una asociación -
    • establecer la antecedencia temporal de una variable sobre otra
    • controlar los efectos de terceras variables
    • postular e identificar un mecanismo causal.

Correlación y linealidad

  • Las medidas de correlación que utilizamos con más frecuencia suponen que la relación entre las variables tiene una forma lineal.

  • El grado de asociación entre ambas variables es constante a lo largo de todo el recorrido de las variables.

Problemas con la aproximación lineal

Cuarteto de Anscombe

Cuarteto de Anscombe

Cuarteto de Anscombe

  • Estos cuatro conjuntos de datos se denominan “cuarteto de Anscombe”.
  • Todos tienen la misma media de X e Y (9, 7.5); la misma varianza de X e Y (11, 4.125); el mismo coeficiente de correlación lineal (0.816).
  • Sin embargo, se trata de relaciones muy distintas.

Graficar, graficar, graficar

Cantidades de interés

Una relación entre dos variables se caracteriza por varios aspectos:

  1. Existencia de una relación (no independencia)
  2. Magnitud de la relación (fuerte, moderada, débil)
  3. Sentido de la relación (directo/inverso; positivo/negativo)
  4. Forma de la relación (lineal, cuadrática, exponencial, logarítmica…)

El análisis de correlación permite conocer los primeros tres; supone que la relación tiene una forma lineal.

Correlaciones de algunos pares de variables

Correlaciones de algunos pares de variables

El cálculo de la covarianza

  • El coeficiente de correlación se calcula con base en la covarianza de dos variables.
  • La covarianza indica si dos variables tienden a variar de manera conjunta.

Método de cálculo 1.

  • Cada observación (fila) tiene un valor en cada variable.
    • Que conforman un par de valores que llamaremos \(x_i\) y \(y_i\)
    • Donde \(_i\) inica la posición en el vector.
  • Cada variable \(x\) o \(y\) tiene una media, que denotamos como \(\overline{x}\) y \(\overline{y}\).
  • Calculamos para cada par \(_i\) la medida en que se desvía de las medias de cada variable.
    • Y multiplicamos estas desviaciones.
  • Obteniendo una medida de variación conjunta para ese caso.

Ecuación para la covarianza de una observación

\(\left( x_{i} - \overset{\overline{}}{X} \right)\left( y_{i} - \overset{\overline{}}{Y} \right)\)

Ejemplo 1

En este ejemplo, tenemos 10 alumnos, caracterizados por dos variables: horas de estudio (X) y calificación en un examen (Y).

Caso X Y
1 1 78
2 2 34
3 3 54
4 4 69
5 5 56
6 6 40
7 7 57
8 8 79
9 9 86
10 10 98

  • La fila 1 tiene los valores \(x_1 = 1\) y \(y_1 = 78\).

  • \(\overline{x}=5.5\) y \(\overline{y}=65.1\)

\(\left( x_{1} - \overset{\overline{}}{X} \right)\left( y_{1} - \overset{\overline{}}{Y} \right) = \left( - 4.5 \right)\left( 12.9 \right) = - 58.05\)

Referencia a la media

  • ¿Por qué incluir a la media de la variable en el cálculo de la covarianza?
    • Intuitivamente solo la diferencia entre \(x_i\) y \(y_i\) no daría una pauta de su variación recíproca.
    • Cuando menor la diferencia, mayor relación entre las variables.
  • Sin embargo las variables pueden estar medidas en escalas numéricas muy diferentes.
    • La referencia a la media tiene un efecto de centrado.
  • Adicionalmente este método de cálculo da información sobre la dirección de la relación.

Dirección de la correlación

  • En el caso de que las variaciones respecto de la media sean, para cada caso, en el mismo sentido (positivo o negativo), el resultado será positivo.
  • En cambio, cuando sean para sentidos opuestos, el resultado será negativo. En otras palabras, la medida es sensible al sentido de la covariación.

Intensidad o fuerza de la relación

  • También es sensible a la fuerza: cuanto mayor es una desviación conjunta, más grande es su valor.

Cálculo de la covarianza para dos variables

  • Repetimos la operación para \(x_i^{n}\) y \(y_i^{n}\), es decir para todos los valores de \(_i\) hasta \(^n\).
  • Sumamos el resultado

\[\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{X} \right)\left( y_{i} - \overset{\overline{}}{Y} \right)}\]

Ejemplo de cálculo de la covarianza.

Gráfico

Ejemplo de cálculo de la covarianza

Caso x y media_x media_y difx dify producto
1 1 78 5.5 65.1 -4.5 12.9 -58.05
2 2 34 5.5 65.1 -3.5 -31.1 108.85
3 3 54 5.5 65.1 -2.5 -11.1 27.75
4 4 69 5.5 65.1 -1.5 3.9 -5.85
5 5 56 5.5 65.1 -0.5 -9.1 4.55
6 6 40 5.5 65.1 0.5 -25.1 -12.55
7 7 57 5.5 65.1 1.5 -8.1 -12.15
8 8 79 5.5 65.1 2.5 13.9 34.75
9 9 86 5.5 65.1 3.5 20.9 73.15
10 10 98 5.5 65.1 4.5 32.9 148.05

Sumatoria de producto: 308

Ajuste por n

  • Así calculada la magnitud de lacovarianza depende del número de observaciones.

    • A mayor \(n\) mayor debería ser la sumatoria.

Por eso debemos dividirla entre n. De esta forma, llegamos al cálculo de la covarianza.

\[Cov_{(x,y)} = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{X} \right)\left( y_{i} - \overset{\overline{}}{Y} \right)}}{n}\]

En nuestro caso:

\[C_{\text{xy}} = \frac{308}{10} = 30.8\]

Interpretación

  • Si las variables son totalmente independientes,
    • La covarianza es cero
    • El sentido y la magnitud de todas las desviaciones conjuntas se cancelan.
  • Si las variables tienen una relación positiva intensa el valor de \(Cov\) es positivo y “grande”
  • Si las variables tienen una relación negativa intensa el valor de \(Cov\) es negativo y “grande”

Sacar las comillas a “grande”

  • La covarianza es una medida que depende de las escalas de las variables.
    • No se pueden comparar las covarianzas de diferentes pares de variables con diferentes escalas.
  • Como medida no tiene límites superiores o inferiores,
    • Los límites dependen de la intensidad de la Cov y de la escala de la variable.

El coeficiente de correlación producto-momento \(r\) de Pearson

  • Estos problemas los corrige el coeficiente de correlación producto-momento de Pearson
  • Este coeficiente se calcula estandarizando la covarianza al dividirla entre el producto de las desviaciones estándar de las dos variables.

\[r_{\text{xy}} = \frac{C_{\text{xy}}}{S_{x}S_{y}}\]

Notación completa del Coeficiente r de Pearson

\[r_{pearson(xy)} = \frac{\frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{X} \right)\left( y_{i} - \overset{\overline{}}{Y} \right)}}{n}}{\sqrt{\frac{\sum_{i = 1}^{n}\left( x_{i} - \overset{\overline{}}{X} \right)^{2}}{n}}\sqrt{\frac{\sum_{i = 1}^{n}\left( y_i - \overset{\overline{}}{Y} \right)^{2}}{n}}}\]

Nota: al dividir la covarianza por la multiplicación de los dos desvíos estándar, se la divide por el valor máximo posible que podría tomar la covarianza.

Propiedades de \(r\)

El coeficiente \(r\) tiene las siguientes propiedades:

  1. Varía entre -1 y 1.
  2. Es independiente del tamaño de muestra
  3. Es independiente de las unidades de medida
  4. Es simétrico: el resultado no depende de la posición de las variables (por lo tanto, no establece una relación de dependencia).
  5. Es lineal: puede dar cuenta únicamente de asociaciones lineales
  6. Es muy sensible a casos desviados
  7. Su cuadrado \(r^2\) se denomina coeficiente de determinación, y es interpretado como la proporción de varianza total explicada por las variables.

El valor de r y la intensidad de una relación

  • Con un límite inferior y superior definidos tenemos parámetros para interpretar la “fuerza” de una relación.

Por convención

r Interpretación
r < .10 despreciable
.10 < r < .29 baja
.30 < r < .49 moderada
.50 < r < .69 fuerte
.70 < r muy fuerte

Nota sobre la interpretación

Aunque disponemos de un criterio convencional la interpretación de la fuerza de una correlación específica debe hacerse en un contexto empírico y teórico determinado.

Matriz de correlación.

##             POB_TOT       ANALF       SPRIM     PL<5000
## POB_TOT  1.00000000 -0.02854209 -0.04246269 -0.05015843
## ANALF   -0.02854209  1.00000000  0.88551451  0.45430736
## SPRIM   -0.04246269  0.88551451  1.00000000  0.58701665
## PL<5000 -0.05015843  0.45430736  0.58701665  1.00000000

Correlación parcial

  • Una de las razones por las cuales el coeficiente de correlación no puede utilizarse para identificar una relación causal es por la intervención de variables confusoras.

  • Habitualmente, una variable independiente suele estar influida por múltiples variables, las cuales, además, están relacionadas entre sí.

  • El problema es que, si no controlamos por estas relaciones entre las variables “independientes”, podemos atribuir a nuestra variable independiente los efectos de otras variables relacionadas con ella.

  • Controlar los efectos de otras variables supone ingresar en el terreno del análisis multivariado. Antes de iniciar con los modelos de regresión, sin embargo, conviene conocer el coeficiente de correlación parcial. Este coeficiente descuenta, de la correlación original, las otras correlaciones posibles.

Ejemplo: relación tripartita (?) entre PO2SM, ANALF y SPRIM

Pregunta:

  • ¿Existe una relación entre la proporción de población que gana menos de dos salarios mínimos y la proporción de población analfabeta en un municipio?
##           PO2SM     ANALF
## PO2SM 1.0000000 0.6033726
## ANALF 0.6033726 1.0000000

Respuesta simple: sí.

¿Qué pasa cuando agregamos a la correlación la proporción de población sin primaria completa?

##            PO2SM      ANALF     SPRIM
## PO2SM 1.00000000 0.07547935 0.3158776
## ANALF 0.07547935 1.00000000 0.8139372
## SPRIM 0.31587757 0.81393718 1.0000000

Muchas cosas:

  1. La correlación entre analfabetismo y salarios desaparece.
  2. Y emerge una relación entre población sin primaria y salarios.
  • Bourdieu estaría contento: no es la competencia sino el diploma lo que importa.
  1. Obviamente hay una relación muy intensa entre población sin primaria y analfabeta.

Correlaciones para variables con distintos niveles de medición

Coeficientes correlación según el tipo de variables.
Nivel de medición Cocientes o razones Ordinal Nominal dicotómica
Cocientes o razones Pearson Poliserial Punto Biserial
Ordinal Poliserial Policórica Rango biserial
Nominal Punto Biserial Rango biserial Tetracórica

Estos coeficientes asumen una distribución contínua subyacente