Intervalos de confianza y Regresión Lineal: Ejercicios prácticos

14 Jul

Por profesor
En Matemáticas
Comentarios Ninguno

EJERCICIO 1

Parte 1

Dada una variable N (m=5, s=2), hallar un intervalo [a, b] en el que la probabilidad de que se encuentren los valores centrales de dicha variable sea del 75%.

P(a < N (m=5, s=2) < b) = 0,75

P(N (5, 2) > b) = 0,75 / 2 = 0,125

P(N (0, 1) > (b-5)/2) = 0,125

(b-5)/2 = z_0,125 = 1,15

b = 7,3

P(N (5, 2) < a) = 0,125

P(N (0, 1) < (a-5)/2) = 0,125

(a-5)/2 = – z_0,125 = -1,15

a = 2,7

[2,7, 7,3]

Parte 2

Una central hortofrutícola comercializa kiwis en envases de un kg de fruta. El peso de cada caja (envase + fruta) es una variable aleatoria normal de media = 1kg y de s = 0,05 kg. Si se seleccionan al azar 50 cajas, ¿cuál es la probabilidad de que más de 20 pesen menos de 1 kg?

X: Peso de una caja de kiwis es N(1, 0,05)

P(X < 1) = P(N(0,1) < (1-1) / 0,05 = 0) = 0,5 (en tablas)

Y: número de envases que pesan menos de 1 kg en un total de 50, seguirá una distribución Binomial (N=50, P=0,5), cuya media será = Np = 25

…y cuya desviación estándar será √NP(1-P) = 3,54

P(Y ≥ 21) aproximando a la binomial (por ser Np(1-p) = 12,5 > 9) será aproximadamente igual a P(N(25, 3,54) > 20,5) = P(N(0,1) > (20,5 – 25) / 3,54 = P(N(0,1) > -1,27) = 1 – P(N(0,1) < -1,27 = 1 – 0,1020 = 0,898

EJERCICIO 2

A partir de los rendimientos obtenidos en 8 parcelas experimentales cultivadas con una variedad nueva de tomate, se ha obtenido una media muestral de 35,75 y un intervalo de confianza al 95% para el rendimiento medio poblacional de [30,52; 40,98]:

a. Explicar por qué la media muestral es una variable aleatoria e indicar sobre qué población está definida dicha variable. (20%)

La media muestral es una variable aleatoria porque su valor varía de una muestra a otra. En este caso, la media muestral se calcula a partir de los rendimientos obtenidos en 8 parcelas experimentales. Si se tomara otra muestra de 8 parcelas, es muy probable que la media muestral fuera diferente. La población sobre la que está definida la media muestral es la población de rendimientos de la nueva variedad de tomate.

b. ¿Puede aceptarse que el rendimiento medio en la población es de 42 para un grado de confianza del 95%? ¿Y para un grado de confianza del 90%? (Justificar las respuestas). (35%)

Puesto que el intervalo de confianza para la media poblacional m es el conjunto de todas las hipótesis compatibles con los datos y 42 no pertenece al intervalo [30,52; 40,98], no puede aceptarse la hipótesis de que el rendimiento medio poblacional sea m = 42.

El intervalo para un nivel de confianza del 90% sería más estrecho que el de 95%, por lo tanto tampoco contendría dicho valor y no se podría aceptar dicha hipótesis.

c. Teniendo en cuenta que la desviación típica del rendimiento obtenido en las 8 parcelas experimentales ha sido de 6,25 unidades, calcular un intervalo de confianza al 99% para la desviación típica poblacional. ¿Qué interpretación práctica tiene la probabilidad 0,99 asociada a este intervalo de confianza?

Intervalo de confianza para σ: = √7 * 6,25² / 0,989 = (3,67, 16,63).

La probabilidad 0,99 asociada a este intervalo de confianza significa que si se repitiera el experimento un número grande de veces, en el 99% de los casos el intervalo calculado contendría el verdadero valor de la desviación típica poblacional.

EJERCICIO 3

Una empresa que comercializa semillas estudia el rendimiento (en Kg/m²) de 2 nuevas variedades de pepino (A y B) a las que se ha aplicado dos dosis diferentes de abonado nitrogenado de cobertera durante la fase de aclareo (80 y 100 Kg/Ha). Cada uno de los 4 tratamientos ha sido aplicado a dos parcelas experimentales (dos repeticiones). TABLA Df: 1.1.1.4.7. Mean square: 0,36125. 0,171125. 0,03125. 0,00875. Fratio: 41,29. 195,57. 3,57

Puesto que F_1,4(α=0,05) = 7,71, serán significativos los efectos de la variedad, de la dosis puesto que sus F-calculadas > 7,71, sin embargo la interacción no es significativa.

Utilizando el método adecuado, elegir las condiciones operativas óptimas para la maximización del rendimiento. (30%)

Dado que la interacción no ha salido significativa, no es necesario realizar el gráfico de la interacción para elegir condiciones operativas óptimas.

Los dos factores simples han salido en el ANOVA significativos, en un principio podría pensarse en construir los intervalos LSD, pero como solo se tienen dos variantes de cada factor y, sabemos que sus intervalos LSD no se solapan, elegimos la variante de cada factor que haya dado mayor media.

Las condiciones operativas óptimas son pues Variedad B y Dosis de abonado 100 Kg/Ha.

EJERCICIO 4

Para analizar la relación entre el consumo familiar (C), la renta disponible (R, medida como diferencia entre la renta familiar y la renta media nacional) y el sexo del cabeza de familia (S, variable ficticia que toma el valor 1 si el cabeza de familia es mujer, y 0 en caso contrario), se han estudiado 3 modelos a partir de una muestra de 30 familias, obteniéndose los siguientes resultados:

E(C) = 105 + 400 · S + 4’7 · R + 8’3 · S · R (Varianza residual = 14’71)

E(C) = 250 + 3’5 · R + 9’0 · S · R (Varianza residual = 20’15)

E(C) = 124 + 557 · S + 7’3 · R (Varianza residual = 15’14)

a) Suponiendo que el primer modelo fuera el adecuado:

a.1. Interpreta los 4 coeficientes estimados en el primero de los modelos de regresión.

105 = Valor medio del consumo cuando la renta es la media nacional y el cabeza de familia es un hombre.
4,7 = Incremento de consumo medio por incremento unitario de renta y el cabeza de familia es un hombre.
400 = Diferencia de consumo medio entre familias con cabeza de familia mujer y cabeza de familia hombre cuando la renta es la media nacional.
8,3 = Diferencia de incremento de consumo medio por incremento unitario de renta, entre familias con cabeza de familia mujer y cabeza de familia hombre cuando la renta es la media nacional.

a.2. ¿Entre qué valores oscilará el consumo del 80% de las familias con una renta familiar 5 unidades superior a la media nacional, y con una mujer como cabeza de familia? (20%)

E(C) = 505 + 13 * 5 = 570

T_glr(α=0,20) = 1,315

[570 ± 1,315 * 14,71^1/2] = [564,96, 575,04]

b) Efectúa los contrastes que consideres necesarios para decidir cuál es el modelo que mejor se ajusta a los datos (Razona adecuadamente los cálculos realizados e interpretaciones obtenidas a partir de ellos).

Primero comprobamos si en el primer modelo reducido se incrementa la suma de cuadrados residual de forma significativa respecto al modelo completo, aplicando el test F correspondiente:

H₀: β₂ = 0

H₁: β₂ ≠ 0

F_calc = ((20,15 * 27 – 14,71 * 26) / 1) / 14,71 = 10,99 > F_1,26(α=0,05), por lo que se rechaza la hipótesis nula y se concluye que el coeficiente β₂ es significativamente distinto de cero. Esto significa que el primer modelo reducido no es adecuado.

Realizamos el mismo procedimiento con el segundo modelo reducido:

H0: b3= 0…H1: b3¹0 ….Fcalc =(15,14*27*14,71*26)/1)/14,7=1,79

c) ¿Qué significado tiene el coeficiente R2 que se obtiene tras ajustar un modelo de regresión lineal múltiple? (20%) R2 *100 mide el porcentaje de variabilidad de la Y explicada por las variables independientes del modelo que se ha ajustado a los datos.

Etiquetas: Distribución normal, Estadistica, Intervalos de confianza, matemáticas, probabilidad, Regresión Lineal