31 de octubre de 2018

Objetivos

  • Presentar a los modelos lineales como herramienta para el análisis cuantitativo
  • Uso
  • Supuestos
  • Manejar la función lm() para ajustar modelos lineales en R
  • Sintaxis de fórmula
  • Cantidades de interés

¿Para qué usamos modelos lineales?

  • En líneas generales los modelos lineales se usan en dos contextos:
    • Predicción: estimar valores no conocidos de \(y\) a partir de valores conocidos de \(x_1 ... x_i\).
    • Explicativos: conocer qué variables independientes afectan a una variable dependiente.
      • Y cuales no tienen un efecto.
      • Controlando a su vez el efecto de terceras variables.
      • Tanto en su efecto directo como en la interacción con otra variable.
  • En ciencias sociales es mucho más frecuente el uso explicativo que el uso predictivo.

¿Qué tipos de variables puedo incluir en un modelo lineal?

  • Cualquier tipo de variable, siempre que se cumplan los supuestos distribucionales de normalidad.
  • En los modelos lineales OLS la variable dependiente es métrica (numérica continua).
    • Pero admiten variables categóricas como independientes.
  • En los modelos logit la variable dependiente es categórica dicotómica o politómica.
    • También admiten variables independientes mixtas.
    • La literatura los refiere como Modelos Lineales Generalizados.

Tipos especiales

  • Existen algunos tipos de modelos especiales para proporciones (\(\beta\)), conteos de poblaciones no determinadas (Poisson), de percentiles, etc.

Hoy nos centramos en el tipo básico de modelo lineal: Mínimos Cuadrados Ordinarios (OLS)

Relaciones lineales

  • De manera similar al análisis de correlación la regresión busca relaciones lineales entre dos o más variables.
  • Sin embargo a diferencia del análisis de correlación el modelado lineal no es simétrico.
  • Una variable ocupa el lugar de dependiente, otra el de independiente
  • Por lineales entendemos que toda la dispersión de \(y\) en relación a \(x\) se expresa como el ajuste en una línea.

Primera aproximación: una función lineal

\[y=2x\]

\[x=[2, 3, 4, 5, 6]\] \[y=[4, 6, 8, 10, 12]\]

Conociendo los valores de \(x\) podemos saber cuales son los valores de \(y\), ya que conocemos la función que los relaciona.

Gráfico de una función lineal

x <- c(2, 3, 4, 5, 6); y <- 2*x
ggplot(data.frame(x, y), aes(x = x, y = y)) + geom_line()

Modelado lineal y funciones

  • En el ejemplo anterior la función que relaciona a \(x\) y \(y\) es conocida a priori.
  • En los casos prácticos de análisis cuantitativo la función no es conocida a priori.

El modelado lineal consiste en descubrir, a de partir unos datos, la función lineal que mejor los relaciona.

  • De antemano sabemos el ajuste de la función a los datos no será perfecto, a menos que estos se ajusten perfectamente en un línea (hint: esto no pasa nunca)
  • Por lo tanto a la función básica debemos agregar un término de error.
    • De lo contrario no podríamos usar el \(=\)
  • La función que utilizamos es la que minimiza el error.

Ecuación de un modelo lineal

\[y=\hat\beta_0+\hat\beta_1x+\epsilon\]

  • Expresamos a \(y\) como una función de \(x\).
  • \(\hat\beta_0\) (beta 0)es el valor de \(y\) cuando \(x=0\) y se suma como una constante.
    • Es la ordenada al origen.
  • \(\hat\beta_1\) (beta uno de x) la pendiente, el número por el que multiplicamos a \(x\) para calcular el valor de \(y\)
  • \(\epsilon\) el error

Los sombreros \(\hat{}\) indican que es un valor estimado y por lo tanto hay un error en la estimación.

Gráfico de dispersión

Pregunta

¿Cómo podemos expresar a al porcentaje de población que gana menos de 2 salarios mínimos como una función del porcentaje de población adulta sin educación primaria?

Aguascalientes, AGS

marginacion %>% limpiar() %>% 
  slice(1)
## # A tibble: 1 x 2
##   SPRIM PO2SM
##   <dbl> <dbl>
## 1  9.54  31.1

\[\frac{y}{x}\] \[\frac{31.1}{9.54} = 3.2599\]

Funciona, pero para un municipio solo. ¿Cómo hacemos para que funcione para todos?

Buscando una recta, en lugar de un punto

Posibles rectas de ajuste