9 de octubre de 2018

Objetivos

  • Introducir conceptos básicos de estadística.
  • Introducir a la notación matemática usual en estadística.
  • Probar en R algunos de los conceptos aprendidos.

Definiciones

Concepto Definición Notación
POBLACIÓN total de sujetos o unidades de análisis de interés en el estudio Mayúsculas: \(N\)
MUESTRA cualquier subconjunto de los sujetos o unidades de análisis de la población, en el cual se recolectarán los datos Minúsculas: \(n\)
PARÁMETRO una medida resumen calculada sobre la población Directo o letras griegas \(\mu\)
ESTADÍSTICO una medida resumen calculada sobre la muestra Con sombrero: \(\bar{x}\)

Estadística descriptiva vs. inferencial

Descriptiva

  • Conjunto de técnicas y procedimientos para describir resumidamente a un conjunto de datos

Inferencial

  • Conjunto de técnicas y procedimientos para tomar decisiones en situaciones de incertidumbre
    • Información incompleta
    • Altos niveles de ruido
  • La operación principal es la prueba de hipótesis estadísticas
    • O su prima hermana, la estimación de intervalos de confianza

Estadística y probabilidad

  • La probabilidad es un ámbito de las matemáticas más amplio que la estadística.
    • Tiene otros usos
  • Sin embargo es la base de la estadística inferencial.
    • Que consiste, primordialmente, en asignar probabilidades a eventos inciertos.
    • ¿Cuál es la probabilidad de que la mediana de ingreso de una población sea \(x\)?
    • ¿Cuál es la probabilidad de que, dada una distribución, el valor paramétrico de una medida se encuentre en un intervalo numérico?

Medidas estadísticas

  • Tendencia central
  • Dispersión

Tendencia central

Buscan un valor representativo de una variable. Asumimos que el valor “central” es el más represetativo.

Media aritmética para una muestra

\[\bar{x}=\frac{\sum{x}}{n}\]

\[x=[25, 41, 15, 16]\]

\[\bar{x}=\frac{25+41+15+16}{4}\]

\[\bar{x}=24.15\]

sum(x)/length(x)

Mediana

  • Medida de orden
    • Se refiere a la mediana como el valor de una variable ordenada de menor a mayor en la posición que la divide en dos grupos de igual magnitud.
    • No considera todos los valores de la variable, sólo el largo de la variable y el valor del registro en la posición central.
  • Se calcula de manera distinta para vectores de largo par o largo impar.

Mediana en R a partir de primitivos

x = c(24, 41, 15, 16,  16)
ifelse(length(x)%%2 == 0,
      (sort(x)[floor((length(x)+1)/2)] + sort(x)[ceiling((length(x)+1)/2)])/2,    
      sort(x)[(length(x)+1)/2]
      )
## [1] 16

Moda

  • Es el valor de mayor frecuencia en una variable.
    • Una variable puede ser unimodal o multimodal.

\[x=[22, 45, 22, 18, 31, 65, 22, 31, 31]\] ## Moda en R

  • R no tiene una función interna para calcularla.
  • mode() regresa el modo de almacenamiento interno de un objeto. Una propiedad interna de R.
## [1] "16"

Se puede usar la librería modeest::

Medidas de dispersión

Buscan dar cuenta de la homogeneidad o heterogeneidad de una variable. Cuán concentrados o dispersos están sus valores con respecto a una medida de tendencia central.

Rango

Diferencia entre el valor máximo y mínimo de una variable.

Varianza

Para una población

\[Var(x) = \frac{\displaystyle\sum_{i=1}^{n}(x_i - \mu)^2} {n}\]

Sumatoria de los desvíos a la media al cuadrado entre la n

Desviación estándar

\[\sigma = \sqrt{Var(x)}\]

Al reducir \(Var(x)\) a su raíz cuadrada se expresa en unidades naturales de la variables.

Rango intercuartil

  • La mediana es un caso particular de los ntiles: números que ubican en determinadas posiciones cuando dividimos una variable ordenada en \(n\) grupos
  • Por ejemplo: 3 cuartiles dividen a una variable en 4 grupos (las colas de la distribución están “sueltas”)
  • El rango intercuartil se calcula como la diferencia entre el 3er y el 1er cuartil.

\[iqr(x) = Q_3^x-Q_1^x\]

IQR()

EN MAYUSCULAS!