Guía Completa de Análisis Estadísticos en Investigación de Mercados

27 Jul

Por profesor
En Matemáticas
Comentarios Ninguno

Causalidad

Relación causa-efecto entre 2 variables: la ocurrencia de la variable independiente (VI) aumenta la probabilidad de ocurrencia de la variable dependiente (VD). Para que haya causalidad se necesita:

Condiciones para la Causalidad

Variación Concomitante

Correlación entre X e Y: cuando aumenta X, Y también se tiene que mover (variación en conjunto).

Orden Temporal de Ocurrencia de Factores

Primero tiene que moverse X (independiente) y luego moverse Y (dependiente).

Ausencia de Otros Factores

No tienen que haber otros factores causales (el único motivo para que varíe la VD es por la VI).

Conceptos Clave

Variable extraña: incide en la VD pero no es la que estoy estudiando (bajé el precio pero las ventas no subieron porque la competencia sacó una promoción).
Unidades de prueba: sujeto/objeto que estoy estudiando (si estudio ventas en puntos de venta, la unidad es Dot, Unicenter, etc.).
Experimento: manipular la VI para medir el efecto en la VD, controlando variables extrañas.
Diseño experimental: documento donde se detalla todo lo que se va a hacer (especificación de la unidad de prueba, variables, procedimiento de muestreo, etc.).
Validez:
- Interna: mide si estoy cumpliendo bien el diseño experimental, siguiendo bien los pasos (el laboratorio tiene mayor validez interna porque puedo controlar más variables).
- Externa: mide la capacidad de generalización, si se puede aplicar a una situación real (el campo tiene mayor validez externa porque es más similar a la realidad).

Clasificación de Variables Extrañas

Formas en que se puede presentar una variable extraña:

Historia: evento que sucede en paralelo al experimento (COVID-19, inflación, guerra).
Maduración: durante el experimento hay una modificación en la unidad de prueba (pañales, el bebé crece).
Instrumentación: modificación en la toma de datos (tablet en el subsuelo de UADE sin wifi, 20 formularios online y 80 encuestas en papel, cambió el instrumento).
Efecto de la prueba: la medición anterior puede tener efecto en la medición posterior (simuladores).
1. Efecto principal (EP): medición anterior IGUAL a la posterior (test-retest de un spot publicitario).
2. Efecto interactivo (EI): medición anterior DIFERENTE a la posterior (experimento con la bebida B5 y después te pregunto qué tanto te gusta mi marca).
Sesgo de selección: problema en la asignación de unidades de prueba a los tratamientos (20 y 20, pero los primeros son más aplicados y comprometidos, lo que afecta al experimento. Hay que hacer la asignación al azar o 1 y 1).
Mortalidad: pérdida de unidades de prueba durante el experimento (muerte, abandono, mudanza de CABA a Córdoba).
Sesgo de regresión a la media: en una escala Likert con muchos 1 y 5, la media da 3.

Símbolos

X: exponer a la persona al tratamiento (ve el spot, se le baja el precio, prueba el producto).
O: observar/medir (te mostré el spot y evalúo cuánto te gusta del 1 al 5, bajé el precio y veo si compró).
A: asignar al azar los grupos.
GE: Grupo experimental, al que se expone al tratamiento (sí o sí tiene X).
GC: Grupo de control, no se expone al tratamiento (en el punto de venta no modifico el precio, no puede tener X).

Formas de Controlar Variables Extrañas

Aleatorización: asignar al azar los órdenes de las unidades de prueba a los tratamientos.
Pareamiento: asegurarse de que la muestra esté balanceada en cuanto a la variable (género: 50%/50%).
Control estadístico: usar estadísticos que eliminen el efecto de la variable extraña (ANCOVA o correlación parcial – covariables).
Diseño de control: escalas prearmadas.
1. Preexperimentales: no controlan factores extraños aleatoriamente (caso único XO/pretest postest con 1 grupo OXO/grupo estático: GE: XO/GC: -0).
2. Experimentales verdaderos: controlan, eligen aleatoriamente (pretest postest con grupo de control, solo postest con grupo de control o 4 grupos Solomon).
3. Cuasiexperimentales: tienen cierto grado de control pero no completo (series de tiempo: mido ventas de enero a junio, cambio el precio, de julio a diciembre; series de tiempo múltiples).
4. Estadísticos: tienen control pero también permiten analizar el efecto de variables extrañas.

Tabulación Cruzada

Mide el grado de relación entre 2 variables categóricas.

Chi²: dice si hay relación sistemática entre ellas (Sig < 0,05).
V de Cramer: dice la fuerza de la relación si al menos una variable es nominal (0.3 débil, 0.7 fuerte).
Tau-c: lo mismo que la V de Cramer pero con 2 variables ordinales.

Correlación de Pearson

Mide la fuerza y dirección de la relación entre 2 variables métricas (cuadro de correlaciones paramétricas).

Sig < 0,05: hay correlación entre las variables (directa: + / inversa: -).
Si tiene * o ** es que hay correlación significativa.

Correlación de Spearman

Se utiliza cuando al menos una variable es ordinal (cuadro de correlaciones no paramétricas).

Correlación Parcial

Mide la relación entre 2 variables métricas, eliminando el efecto de una tercera variable (covariable).

Cuadro de correlaciones donde se contemple la variable de control (que no sea ninguna de las dos variables principales): Sig < 0,05 hay correlación entre las variables / «Correlación» ves si es + o -.

Coeficiente de Correlación de Partes

Hay una covariable que repercute en una de las dos variables y se la elimina solo a esa y no a las dos (la covariable «dieta» afecta solo al nivel de colesterol pero no al ejercicio semanal).

Correlación No Métrica

Mide la relación entre dos variables ordinales, una métrica y una ordinal, o dos métricas que no cumplan con los supuestos de Pearson (normalidad, linealidad u homocedasticidad). Se usa Spearman.

Covarianza

Solo indica la dirección de la relación, cómo dos variables métricas varían juntas (1 fuerte, 0 débil).

ANOVA

Evalúa si hay diferencias entre las medias de dos o más poblaciones (variable independiente categórica / variable dependiente métrica).

Cuadro Prueba de Levene: Sig > 0,05, la varianza de los grupos es igual. Podemos continuar con ANOVA / si Sig < 0,05 -> La varianza de los grupos es desigual. No podemos continuar con ANOVA, hacemos la prueba de Welch (cuadro de comparaciones múltiples Games-Howell).
Eta parcial cuadrado: mide la fuerza de la relación (0.3 débil / 0.7 fuerte).
Cuadro de comparaciones múltiples: si Sig < 0,05 hay diferencias entre las medias de esos dos grupos / «Diferencia de medias» dice qué media es superior, si la de la primera columna o la de la segunda.

MANOVA

Una variable independiente categórica y más de dos variables dependientes métricas (si el género tiene efecto sobre la satisfacción de compra y el servicio).

Cuadro prueba M de Box: Sig > 0,05 las matrices de covarianzas son iguales, se cumple el supuesto.
Cuadro pruebas multivariantes: me fijo en la variable independiente (si mi Sig fue < 0,05 veo la Traza de Pillai, si fue > 0,05 veo la Lambda de Wilks). El eta parcial cuadrado dice la fuerza de la relación y la potencia observada la probabilidad de no cometer error tipo 2 (no rechazar H₀ que era falsa).

ANOVA de 1 Factor

Una variable independiente categórica y una variable dependiente métrica.

ANOVA de N Factores

Más de dos variables independientes categóricas y una variable dependiente métrica.

ANOVA de Medidas Repetidas

Compara las medias de una variable en distintos momentos o condiciones (si la muestra sufrió un cambio en la media de la variable dependiente). Ejemplo: mido la intención de compra, hago un cambio en el producto, vuelvo a medir para ver si el cambio afectó a la intención.

ANCOVA

Mide la diferencia de medias entre grupos cuando quiero eliminar o agregar el efecto de una covariable métrica (quiero que la edad no me afecte).

ANOVA No Métrico

Se utiliza cuando no hay variables métricas o cuando hay una variable métrica pero no tiene una distribución normal.

Análisis Factorial

Permite encontrar relaciones entre ítems y ponerlos juntos en categorías. Sirve para agrupar variables en una cantidad reducida de factores y validar un constructo que no puedo medir de forma directa. Se usa entre variables métricas.

KMO: mide si hay una adecuación correcta de la muestra a las variables, es decir, si las variables tienen correlaciones parciales grandes o pequeñas, cuanto más pequeñas más cerca de 1 y mejor (-0,5 inaceptable; 0,5 pobre; 0,6 mediocre; 0,7 mediano; 0,8 buena; +0,9 muy buena).
Prueba de Bartlett: < 0,05 no correlacionan, si es > 0,05 correlacionan y no puedo seguir el análisis.
Análisis de determinante: está debajo de todo en el cuadro de la matriz de correlaciones, si tiende a cero significa que la correlación de las variables es significativa.
Varianza total explicada: los autovalores iniciales totales indican el autovalor de cada factor (el primer factor explica la varianza de X variables). Deben conservarse los autovalores mayores a 1, los menores a 1 no deberían conservarse o se conservan hasta el factor que tenga un 70% de varianza acumulada.

Análisis Cluster

Permite clasificar casos o sujetos en distintos grupos relativamente homogéneos (parecidos). La diferencia con el análisis discriminante es que en el discriminante se conocen los grupos de pertenencia, pero en el análisis cluster no. No hay variables independientes y dependientes, sino variables que permiten agrupar según la semejanza.

Average Linkage (between groups): indica la distribución de los clústeres y permite tomar una decisión en base a los objetivos para ver qué estrategia conviene más (conviene la que tenga la muestra distribuida de forma más pareja).
Una vez seleccionada la estrategia (usar dos clústeres), hay que definir los clústeres. Si las variables son categóricas: se hacen tablas cruzadas con la variable independiente (dos clústeres) y las variables dependientes (las variables categóricas). Si las variables son métricas: se usa el procedimiento de medias para segmentar la base de datos y ver la media de cada variable métrica (independiente: clúster / dependientes: variables) – medias: si hay diferencia entre las mismas o no / Sig en ANOVA, si hay diferencia entre los dos segmentos.

Escalamiento Multidimensional (EMD)

: permite hacer representación espacial y expresar visualmente las percepciones y preferencias de los encuestados (mapa perceptual/de posicionamiento). Se suele usar para medir posicionamiento y percepciones de marcas.

Cuadro medidas de estrés y de ajuste – Estrés Bruto normalizado: explica cuál es el estrés del modelo (0,1-0,2 buena/moderada calidad / >0,2 modelo con calidad pobre y no satisfactoria)
Dispersión contada para (DAF) y Coeficiente de congruencia de Tucker: cuán bueno es el modelo. Oscilan entre 0 y 1, cuanto más cerca a 1, mejor
Puntos de objetos, Espacio Común: Primero analizás cómo están distribuidos los estímulos y después nombras las 2 dimensiones (Eje X e Y).
EJ FOTO: vemos que Volvo está muy arriba (se los conoce como muy seguros) y abajo Mini Cooper y Ferrari (se los conoce como autos deportivos, no muy seguros). Ahí podes definir que el eje vertical (dimensión 2) puede ser «seguridad». Analizando el eje horizontal, bien a la derecha tenes marcas caras como Rolls Royce y a la izquierda más baratas como Ford o Fiat. Entonces, podes definir el eje horizontal (dimensión 1) como «precio». Después, en base a la distribución armas grupos (en la foto, por cómo están distribuidos, se puede armar 4 grupos por ejemplo)

Etiquetas: análisis estadístico, Causalidad, experimentos, Investigacion de mercados, Variables