28 Sep
Análisis de Variables Cualitativas y Regresión
Exploración de Variables Cualitativas
Opciones para Explorar Variables Cualitativas
En general, al explorar variables cualitativas, nos limitamos a analizar la cantidad de casos por grupo, tanto en cantidades absolutas (counts) como porcentuales (count grupo/count total).
Relaciones entre Variables Cualitativas
Para analizar relaciones entre variables cualitativas, podemos realizar cortes (slicing-dicing) en el dataset y luego comparar los sumarios y gráficos univariantes/multivariantes de los cortes generados.
Regresión Lineal
Objetivo del Modelado con Regresiones Lineales
El objetivo del modelado con regresiones lineales es encontrar la relación entre variables independientes y una variable dependiente continua. Matemáticamente, esta relación se puede modelar linealmente con una ecuación de la forma:
Y = β*X + β0
Donde:
- Y es la variable dependiente.
- β son los parámetros (coeficientes).
- X es (o son) la(s) variable(s) independiente(s).
Al “regresionar”, estamos estimando los parámetros (desconocidos) a través de datos anteriores.
En el caso de la regresión simple, estaremos estimando β0 que representa el intercepto y β1 que representa la pendiente de la recta. Estos parámetros también muestran el grado de cambio que provoca una variable independiente sobre la variable dependiente. Por ejemplo, si un β vale 0.5, esto quiere decir que por cada unidad de X, Y aumenta en 0.5 unidades.
Método de Estimación de Parámetros en la Regresión Lineal
El método de estimación de parámetros utilizado normalmente es el de los mínimos cuadrados ordinarios, que corresponde a encontrar el conjunto de parámetros que minimiza el error cuadrático medio. Gráficamente, esto significa encontrar el conjunto de parámetros (recta) donde la suma del cuadrado de los residuales se hace lo más pequeña posible. Cada residual es la diferencia entre el valor estimado (el valor que nos entrega la recta) para una X y su valor real.
Usos de los Parámetros Estimados
Con los parámetros estimados, podemos realizar tres tipos de tareas:
- Inferencia: Podemos determinar si una variable independiente explica significativamente la variable dependiente y con qué grado de confianza. Por ejemplo, la altura explica con un 99.5% de confianza el peso de una persona.
- Predicción: Podemos calcular un valor de Y para nuevos valores de X. Por ejemplo, si el peso (Y) se determina por la altura (X) de una persona y encontramos la siguiente fórmula (Y = 36X + 10), si una persona mide 1.7 metros, según la regresión realizada, esta persona debería pesar 71.2 kg.
- Descriptiva: Podemos determinar cuánto explica una variable descriptiva. Si el peso (Y) se determina por la altura (X) de una persona y encontramos la siguiente fórmula (Y = 36X + 10), podríamos decir que una persona aumenta su peso en 36 kg por cada metro que mide.
Supuestos de la Regresión Lineal
- Linealidad: La relación entre los predictores y la variable dependiente debería ser lineal. Se puede verificar mediante scatterplots.
- Multicolinealidad: No debe existir una correlación importante entre dos o más variables independientes.
- Homocedasticidad: Las distribuciones bivariantes (entre una variable independiente y la variable dependiente) deberían distribuirse con la misma variabilidad a lo largo de la recta de ajuste.
- Independencia de errores: No debe existir autocorrelación entre los errores de la variable de respuesta.
Evaluación de la Calidad del Ajuste del Modelo
Para evaluar la calidad del ajuste del modelo, podemos utilizar el R cuadrado, que corresponde a 1 menos la razón entre el error cuadrático medio de la función obtenida por regresión lineal (residuales cuadrados de las predicciones versus los valores actuales) y el error cuadrático medio de (residuales cuadrados de la media versus los valores actuales). Este valor es menor a uno y comúnmente mayor a cero, aunque cuando una regresión es muy mala, es posible ver valores negativos.
Regresión Logística
Objetivo del Modelado con Regresiones Logísticas
Al igual que en el caso de la regresión lineal, el objetivo del modelado con regresiones logísticas es encontrar la relación entre una variable dependiente y una o más variables independientes. A diferencia de la regresión lineal, la variable dependiente es una variable cualitativa. Similar a la regresión lineal, también estamos buscando una función, pero que relacione la probabilidad de que un caso pertenezca a una clase y ciertas variables independientes.
Deja un comentario