16 de octubre de 2018

Variables categóricas

Entendemos por datos categóricos a aquellos que definen la pertenencia de un objeto estadístico a una categoría o clase de acuerdo a alguno de sus atributos.

x = [Sí, No, Sí, Sí, No, No, Sí, Sí, Sí, No]

x Es una variable

[Sí, No] Son las categorías de la variable x

Notación: en las ecuaciones se suele expresar a las categorías como k

Operaciones con variables categóricas

Por el nivel de medición no es posible llevar a cabo operaciones aritméticas con variables categóricas.

Sólo podemos llevar a cabo operaciones lógicas de igualdad o no igualdad.

Esas operaciones también se pueden expresar como operaciones de conjuntos. (pertenece, no pertenece, unión, intersección)

Tablas

Las tablas presentan la frecuencia de las categorías de una o más variables categóricas.

Dimensiones de una tabla

La cantidad de variables con las que se crea la tabla difene sus dimensiones.

Para una sola variable obtenemos una tabla unidimensional.

Tabla de x:

Sí | No
---|---
6  | 4

Para dos dimensiones obtenemos una tabla bidimensional:

y = [2, 2, 3, 4, 3, 2, 3, 4, 2, 4]

Tabla de x y y

    |Sí   | No 
----|-----|-----
2   |2    |2
3   |1    |2
4   |1    |2

Propiedades de las tablas

Una tabla es, desde el punto de vista matemático, una matriz.

La matriz son los números, los nombres de fila y columna son metadatos

  • La sumatoria de la matriz es igual a la n de las variables. sum (2, 2, 1, 2, 1, 2) = 10

  • La sumatoria de los totales de columnas es igual a la n de las variables.

      |Sí   | No 

    —-|—–|—– 2 |2 |2 3 |1 |2 4 |1 |2 —-|—–|—– mar |4 | 6 = 10

  • La sumatoria de los totales de fila es igual a la n de las variables.

      |Sí   | No  |margen

    —-|—–|—–|—— 2 |2 |2 | 4 3 |1 |2 | 3 4 |1 |2 | 3 = 10

Definición: al vector conformado por las sumas de filas o columnas lo llamamos margen

Proporciones

Una tabla “cruda” expresa las frecuencias cruzadas en números absolutos.

Es posible convertir esos números absolutos en proporciones.

  • Del total de la tabla

      |Sí   | No 

    —-|—–|—– 2 |2/n |2/n 3 |1/n |2/n 4 |1/n |2/n

    n = 10

      |Sí   | No 

    —-|—–|—– 2 |0.2 |0.2 3 |0.1 |0.2 4 |0.1 |0.2

La sumatoria de las proporciones da 1

Proporciones de margen

  • Tabla cruda con margen de columnas.
       |Sí   | No 
-------|-----|-----
2      |2    |2
3      |1    |2
4      |1    |2
-------|-----|-----
margen |4    | 6 

  • Matriz intermedia: operaciones necesarias.
           |Sí   | No 
    -------|-----|-----
    2      |2/4  |2/6
    3      |1/4  |2/6
    4      |1/4  |2/6
    -------|-----|-----
    margen |4    | 6 
  • Matriz con proporciones de columna.
           |Sí   | No 
    -------|-----|-----
    2      |0.5  |0.33
    3      |0.25 |0.33
    4      |0.25 |0.33
    -------|-----|-----
    margen |1    | 1 (son periódicos)

Expectativa estadística

  • Tabla con márgenes.
           |Sí   | No  | margen
    -------|-----|-----|--------
    2      |2    |2    |4
    3      |1    |2    |3
    4      |1    |2    |3
    -------|-----|-----|------
    margen |4    | 6   |10

¿Qué pasó?

       |Sí   | No  | margen
-------|-----|-----|--------
2      |x    |x    |4
3      |x    |x    |3
4      |x    |x    |3
-------|-----|-----|------
margen |4    | 6   |10

¿Cuánto vale cada x?

       |Sí                             |No                                | margen
-------|-------------------------------|----------------------------------|--------
2      |(margen_fila*margen_columna)/n |(margen_fila*margen_columna)/n    |4
3      |(margen_fila*margen_columna)/n |(margen_fila*margen_columna)/n    |3
4      |(margen_fila*margen_columna)/n |(margen_fila*margen_columna)/n    |3
-------|-------------------------------|----------------------------------|--------
margen |4                              | 6                                |10

       |Sí       | No     | margen
-------|---------|--------|--------
2      |(4*4)/10 |(4*6)/10|4
3      |(3*4)/10 |(3*6)/10|3
4      |(3*4)/10 |(3*6)/10|3
-------|---------|--------|------
margen |4        | 6      |10

  • Tabla de expectativas estadísticas
       |Sí   | No  | margen
-------|-----|-----|--------
2      |1.6  |2.4  |4
3      |1.2  |1.8  |3
4      |1.2  |1.8  |3
-------|-----|-----|------
margen |4    | 6   |10
  • Tabla original
       |Sí   | No  | margen
-------|-----|-----|--------
2      |2    |2    |4
3      |1    |2    |3
4      |1    |2    |3
-------|-----|-----|------
margen |4    | 6   |10

Noticia de último momento

¡Acabamos de calcular un modelo de independencia!

Modelo de independencia

Definición:

Independencia estadística: la probabilidad de un evento no afecta la probabilidad de otro.

La probabilidad de “Sí” no afecta la probabilidad de “2”. Filas y columnas se distribuyen independientemente.

Ejemplo intuitivo:

Exquisita pregunta de investigación:

¿La probabilidad de estar o no de acuerdo con recibir en nuestra casa a personas gais (sic) afecta la probabilidad de estar o no de acuerdo con recibir en nuestra casa a personas lesbianas?

Si estos eventos son independientes la elección de uno no debería afectar a la otra. Entonces conociendo los márgenes de filas y columnas podría reproducir la tabla perdida.

Ejemplo intuitivo:

##     p7_10
## p7_4  No  Sí
##   No 286  20
##   Sí  20 447

Ejercicio en clase

  • Calcule la esperanza estadística para la tabla de p7_4 y p7_10
  • Compárela con la observada de esas mismas variables.

Estadístico de \(\chi^2\)

\[\chi^2=\frac{\sum(O-E)^2}{E}\]

Dónde:

\(O\) son los valores observados

\(E\) son los valores esperados calculados como la probabilidad conjunto de cada fila y cada columna

Ejercicio en clase:

Calcule estadístico \(\chi^2\) para la tabla de p7_4 y p7_10.

Próxima clase: pruebas de hipótesis.