Análisis cuantitativo

Martín Paladino

Presentación

El curso se propone como una continuación de la formación en Métodos Cuantitativos que reciben los estudiantes de los programas de posgrado de Instituto Mora. Aprovechando aportes recientes en el campo nos centraremos en métodos aplicables a variables categóricas, nominales u ordinales, de uso frecuente en las ciencias sociales. Los métodos que aplicaremos atienden a dos problemas frecuentes en la investigación social: el de descripción (incluyendo sumarios y gráficos) de datos cuantitativos y el de modelado de las relaciones entre conjuntos de variables heterogéneas (modelos lineales generalizados).

La parte práctica del curso tendrá lugar a partir de la implementación de las técnicas en la plataforma de análisis estadístico R. Adicionalmente cada unidad estará acompañada de la lectura de al menos una investigación reciente en el ámbito de la sociología en la que el método en cuestión sea aplicado. De este modo podremos dar cuenta del proceso de inferencia sustantiva a través del cuál se ponen en relación los resultados del análisis con las hipótesis teóricas de algún campo temático.

La comunicación durante el curso, incluyendo la publicación de los ejercicios semanales, se hará a través del sitio https://metodoscuantitativos2018.netlify.com/

Las guías de R están disponibles en https://martinpaladino.github.io/rsociales/

Objetivos

Al concluir el curso los alumnos podrán:

Evaluación del curso

Para la evaluación del curso se tomarán en consideración los siguientes items.

Temario

0. Presentación del curso

1. Análisis de datos con R

1.1. El paquete de software estadístico R

El paquete estadístico R ofrece un entorno de trabajo y un conjunto de herramientas muy completo para la carga, manejo y análisis de datos cuantitativos. Comparado con otras herramientas como SPSS o Stata R tiene algunas ventajas que conviene señalar:

  1. Es de fuente abierta (open source) por lo que no tiene costo alguno y no estamos sujetos a las políticas de licencias o precios de una empresa.

  2. Cuenta con una comunidad de desarrolladores amplia, por lo que se actualiza permanentemente e incorpora frecuentemente innovaciones en métodos estadísticos.

  3. Cuenta con una gran comunidad de usuarios, diversa, amable y solidaria que se encarga de manera voluntaria de documentar el software y proveer soporte técnico a través de sitios de preguntas como StackOverflow.

  4. La metodología de trabajo implícita en R favorece la reproducibilidad de resultados e impide la corrupción de datos.

  5. Es multiplataforma: funciona en Windows, Mac y Linux.

No obstante es necesario aclarar a los interesados e interesadas en el curso deberán estar dispuestos a aprender un paradigma de uso de software diferente al usual. Si bien algunas operaciones de R pueden hacerse seleccionando opciones través de menus, la mayor parte del trabajo se lleva a cabo escribiendo comandos en una consola. En sentido estricto R es un lenguaje de programación y un entorno de desarrollo de software aplicado al análisis de datos más que un paquete de análisis estadístico. A pesar de la dificultad que este cambio de paradigma puede significar no hay que perder de vista que R es un lenguaje de programación fácil de aprender dentro de su género.

En esta sesión cubriremos:

1.2. Manejo y exploración de datos con R

Un hecho inevitable del análisis cuantitativo es que pasaremos más tiempo limpiando y ordenando nuestros datos que analizándolos. R tiene varias funciones que simplifican este proceso y minimizan el tiempo que le dedicamos. Además nos permite manejar los datos de forma flexible: generar subconjuntos, ordenarlos, filtrarlos y extraer medidas sumarias. Utilizando las funciones de las librerías del metapaquete tidyverse aprenderemos a realizar operaciones muy complejas encadenando comandos muy simples. Además de la facilidad de uso, tidyverse tiene la ventaja de ser totalmente escalable: con una misma librería trabajamos con bases de datos de unos kilobytes a unos cientos de gigabytes.

1.3.1. Gráficos en R

Una de las características más potentes de R es la capacidad de generar gráficos completamente personalizados. R cuenta con varios motores de gráficos: la función básica plot(x) produce, con comandos muy simples, gráficos básicos para exploración, mientras que ggplot nos permite personalizar completamente la geometría y apariencia de los gráficos. Con gran poder viene gran responsabilidad: el estilo minimalista de Cleveland y Tufte nos servirá de guía para hacer gráficos tan elocuentes como rigurosos y legibles, evitando información superflua (chartjunk) y un manejo engañoso de las escalas.

1.3.2. Gráficos en R (II)

Personalización de gráficos en R con la librería ggplot2.

1.4. Aplicación

Sesión práctica de análisis descriptivo de datos. Se sugiere tener identificada, para esta sesión, una base de datos de interés sobre la que realizar el ejercicio.

Análisis de datos

2.1. Sumarios descriptivos

Uno de los usos más prácticos de la estadística descriptiva es la obtención de sumarios: medidas diseñadas para presentar de manera resumida la información contenida en una variable o la relación entre dos o más variables.

2.2. Tablas de contingencia

Las tablas de contingencia fueron el método pionero para datos categóricos. Más allá de su utilidad intrínseca también nos sirven para introducir dos conceptos fundamentales del análisis cuantitativo en el marco frecuentista: las pruebas de hipótesis y los modelos de independencia.

2.3. Modelos de independencia.

2.4. Medidas de asociación entre variables categóricas y continuas.

Estimar la asociación de dos variables es un paso fundamental en el análisis de datos, nos permite pasar de describir variables a establecer relaciones entre ellas. En esta unidad consideraremos especialmente tipos de correlación para datos categóricos, nominales u ordinales y funciones para generar matrices de covarianza heterogéneas. La introducción de matrices de covarianza servirá también como introducción al análisis factorial.

Modelos lineales generalizados

3.1. Modelos lineales

Los modelos lineales nos permiten modelar numéricamente hipótesis explicativas: expresar el valor de una variable como función de otra u otras. Son una de las herramientas más aplicadas del análisis cuantitativo en las ciencias sociales, y ello por buenos motivos. Con frecuencia los fenómenos que investigamos incluyen múltiples factores explicativos y es necesario distinguir a los relevantes de los irrelevantes, así como cuantificar la importancia de cada uno cuando todos los demás están presentes. Las cantidades de interés que extraemos del ajuste de un modelo lineal nos permiten hacer estas operaciones.

3.2. Modelos lineales para variables dependientes dicotómicas (GLM)

Aunque tienen su origen en las variables continuas es posible extenderlos a variables dependientes categóricas, dicotómicas o politómicas, a partir de distribuciones binomiales y polinomiales. En esta unidad conoceremos los aspectos básicos de los modelos lineales, enfatizando sobre todo su aplicación a hipótesis de las ciencias sociales.

3.3. Modelos lineales para variables dependientes politómicas.

3.4. Aplicación.

Aplicación de modelos lineales para controlar los efectos de distintas variables en las trayectorias escolares.

\newpage

Bibliografía


  1. Una columna es una variable y una fila una observación.
  2. O por qué, lamentablemente, p(H~0~|D) $\neq$ p(D|H~0~).