29 Jul
1. Introducción al Data Mining y Tipos de Aprendizaje
1.a. ¿Qué es Data Mining?
Según Al Fayyad, Data Mining es la práctica de aplicar algoritmos a los datos para detectar hipótesis. Esto puede ser por:
- Verificación: Comprobar una hipótesis creada por un humano.
- Descubrimiento: Detectar patrones autónomamente.
1.b. Aprendizaje Supervisado vs. Aprendizaje No Supervisado
Aprendizaje supervisado: Cada caso tiene variables independientes con una variable dependiente asociada.
Aprendizaje no supervisado: No tenemos una variable dependiente asociada.
1.c. Diferencias entre Regresión y Clasificación
La diferencia radica en el tipo de variable dependiente:
- Continua: Edad, altura, peso.
- Cualitativa: Diagnóstico de cáncer, género.
Regresión: Variable dependiente continua.
Clasificación: Variable dependiente cualitativa.
1.c.i. ¿A qué tipo de aprendizaje corresponden?
Ambas corresponden a aprendizaje supervisado, ya que tienen variables dependientes asociadas a las variables independientes.
1.c.ii. ¿Qué es Clustering? ¿Cómo se compara?
El clustering es un problema de aprendizaje no supervisado. Determina si una observación (vector de variables independientes) pertenece a un grupo determinado. A diferencia de la regresión y la clasificación, no tiene variables dependientes asociadas.
2. Tipos de Datos y Análisis Exploratorio
2.a. Tipos de Datos en un Dataset
2.a.i. Variables Cuantitativas
Representadas por números. Ejemplos: Renta, Edad.
2.a.ii. Variables Cualitativas/Categóricas
Representan una categoría o grupo discreto. Ejemplos: Sí o No.
2.a.iii. Variables Ordinales
Tienen algún grado de orden sin ser posible representarlas con números. Ejemplos: Primero/Segundo/Tercero.
2.b. Tipos de Análisis Exploratorio
2.b.i. Análisis Univariante
Se realiza sobre una sola variable. Incluye análisis de sumario y gráficos univariantes como countplots, histogramas y boxplots.
2.b.ii. Análisis Multivariante
Se realiza en dos o más variables a la vez. Incluye análisis gráfico, cortes y análisis de correlaciones.
2.c. Medidas de Tendencia Central y Dispersión
Medidas de tendencia central: Hablan del valor central o típico de una distribución.
Medidas de dispersión: Indican cuánto varían los datos en una distribución. Mientras más pequeña es una medida de dispersión, más homogénea es la distribución con respecto a sus medidas de tendencia central.
2.d. Números Clave para Variables Continuas
- Media: (Suma de Registros) / (Número de Registros)
- Moda: Valor que más se repite en la variable.
- Mínimo: Menor valor de la variable.
- Máximo: Mayor valor de la variable.
- Primer Cuartil: Valor de la variable en el 25%.
- Mediana: Valor de la variable en el 50%.
- Tercer Cuartil: Valor de la variable en el 75%.
2.d.i. Medidas de Dispersión y Tendencia Central
- Medidas de Tendencia Central: Moda, Media, Mediana.
- Medidas de Dispersión: Mínimo, Máximo, Primer Cuartil, Tercer Cuartil, Desviación Estándar.
2.d.ii. Utilidad de las Medidas
Generalmente, es útil tener todas las medidas a la vez, o al menos acompañarlas de un gráfico univariante para conocer la distribución de los datos.
2.d.iii. Medidas para Variables Categóricas y Ordinales
En general, al trabajar con variables categóricas u ordinales solo podemos utilizar counts y la moda.
2.e. Gráficos para Variables Continuas
- Histograma: Muestra las frecuencias de los valores de una variable.
- Boxplot: Muestra gráficamente los valores mínimos, máximos, mediana, cuartiles y también da una noción de los outliers.
2.f. Relaciones entre Variables
2.f.i. Métodos Numéricos y Gráficos
Para ver la relación entre dos variables cuantitativas, se utiliza la correlación de Pearson. También es posible analizar la relación entre dos variables continuas gráficamente utilizando un scatterplot.
2.f.ii. Fuerza de la Correlación
En general, una correlación es:
- Débil: Cuando el factor (valor absoluto) es inferior a 0.3.
- Fuerte: Cuando es mayor a 0.7.
Deja un comentario