Medidas de posición central
Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando. Estas medidas permiten conocer diversas características de esta serie de datos. Las medidas de posición son de dos tipos:
a) Medidas de posición central: informan sobre los valores medios de la serie de datos.
b) Medidas de posición no centrales: informan de como se distribuye el resto de los valores de la serie.
a) Medidas de posición central
Las principales medidas de posición central son las siguientes:
Las principales medidas de posición central son las siguientes:
1.- Media: es el valor medio ponderado de la serie de datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:
a) Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite. La suma de todos estos productos se divide por el total de datos de la muestra:
b) Media geométrica: se eleva cada valor al número de veces que se ha repetido. Se multiplican todo estos resultados y al producto fiinal se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).
Xm =
(X1 * n1) + (X2 * n2) + (X3 * n3) + .....+ (Xn-1 * nn-1) + (Xn * nn) --------------------------------------------------------------------------------------- n
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.
La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.
Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.
Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.
2.- Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50% de valores son inferiores y otro 50% son superiores).
No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se ha repetido).
3.- Moda: es el valor que más se repite en la muestra.
Ejemplo: vamos a utilizar la tabla de distribución de frecuencias con los datos de la estatura de los alumnos que vimos en la lección 2ª.
Vamos a calcular los valores de las distintas posiciones centrales:
Variable | Frecuencias absolutas | Frecuencias relativas | ||
(Valor) | Simple | Acumulada | Simple | Acumulada |
x | x | x | x | x |
1,20 | 1 | 1 | 3,3% | 3,3% |
1,21 | 4 | 5 | 13,3% | 16,6% |
1,22 | 4 | 9 | 13,3% | 30,0% |
1,23 | 2 | 11 | 6,6% | 36,6% |
1,24 | 1 | 12 | 3,3% | 40,0% |
1,25 | 2 | 14 | 6,6% | 46,6% |
1,26 | 3 | 17 | 10,0% | 56,6% |
1,27 | 3 | 20 | 10,0% | 66,6% |
1,28 | 4 | 24 | 13,3% | 80,0% |
1,29 | 3 | 27 | 10,0% | 90,0% |
1,30 | 3 | 30 | 10,0% | 100,0% |
1.- Media aritmética:
Luego:
Por lo tanto, la estatura media de este grupo de alumnos es de 1,253 cm.
2.- Media geométrica: Xm = | (1,20*1) + (1,21*4) + (1,22 * 4) + (1,23 * 2) + ......... + (1,29 * 3) + (1,30 * 3) |
-------------------------------------------------------------------------------------------------- | |
30 |
Xm = | 1,253 |
X = | ((1,20^ 1) * (1,21^4) * (1,22^ 4) * .....* (1,29^3)* (1,30^3)) ^ (1/30) |
Xm = | 1,253 |
3.- Mediana:
La mediana de esta muestra es 1,26 cm, ya que por debajo está el 50% de los valores y por arriba el otro 50%. Esto se puede ver al analizar la columna de frecuencias relativas acumuladas.
En este ejemplo, como el valor 1,26 se repite en 3 ocasiones, la media se situaría exactamente entre el primer y el segundo valor de este grupo, ya que entre estos dos valores se encuentra la división entre el 50% inferior y el 50% superior.
4.- Moda:
Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo tanto esta seria cuenta con 3 modas.
Media aritmética.
La media aritmética de n valores, es igual a
la suma de todos ellos dividida entre n. Tenemos:
Înter%”http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS CUANTITATIVOS/Pye/u1_1.gif”
Si se cuenta con una distribución de datos entonces se aplica la fórmula:
Înter% “http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS CUANTITATIVOS/Pye/u1_2.gif”
Mediana:
La mediana es el punto central de una serie de
datos, para datos agrupados la mediana viene dada por:
Înter%”http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS CUANTITATIVOS/Pye/u1_6.gif”
EJEMPLO:
Hallar la mediana en los siguientes datos. 25,30,28,26,32
SOLUCION:
Se ordenan en forma creciente o
decreciente y se toma el valor central.
25,26,28,30,32 mediana = 28
Moda
Es aquel valor de mayor frecuencia, la moda puede ser no única e inclusive no existir. Para distribuciones de frecuencia la moda viene dada por: Înter%”http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS CUANTITATIVOS/Pye/u1_9.gif” EJEMPLO. Hallar la moda en los siguientes datos. 16,18,15,20,16
SOLUCION:
Moda = 16
Înter%MEDIDAS DE POSICIÓN
Las medidas de posición nos facilitan información sobre la
serie de datos que estamos analizando.
Son indicadores usados para señalar que porcentaje de datos dentro de una distribución de frecuencias superan estas expresiones, cuyo valor representa el valor del dato que se encuentra en el centro de la distribución de frecuencia, por lo que también se les llama “ Medidas de Tendencia Central “.
Pero estas medidas de posición de una distribución de frecuencias han de cumplir determinadas condiciones para
que lean verdaderamente representativas de la variable a la que resumen.
A continuación se describen las medidas de posición más
comunes utilizadas en estadística, como lo son:
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tecer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).
Medidas de posición central Son aquellas medidas que nos ayudan a saber donde están los datos pero sin indicar como se distribuyen.
a) Media o promedio
La media aritmética o simplemente media, que denotaremos por, es el resultado obtenido al dividir la suma de todos los valores de la variable entre el número total de observaciones, expresada por la siguiente fórmula:
Función PROMEDIO
Devuelve el promedio (media aritmética) de los argumentos.
Sintaxis
PROMEDIO(número1;número2;...)
Número1, número2, ... son entre 1 y 30 argumentos numéricos cuyo promedio desea obtener.
Observaciones
- Los argumentos deben ser números o nombres, matrices o referencias que contengan números.
- Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías, estos valores no son considerados; sin embargo, las celdas con valor cero son incluidas.
Sugerencia
Cuando calcule el promedio de celdas, tenga en cuenta la diferencia existente entre las celdas vacías, de manera especial si ha quitado la marca a la casilla Valores cero en la ficha Ver (comando Opciones en el menú Herramientas). Las celdas vacías no se cuentan pero sí los valores cero.
Ejercicio 03 (Media aritmética)
¿Cuál será la media aritmética de los números 10, 5, 8, 14, 13?
1º aplicando la fórmula (28), tenemos:
2º Aplicando la función Promedio de Excel, tenemos:
En el CD que acompaña la obra, encontrará la solución de la mayoría de ejercicios en la hoja de Excel. Igualmente, la mayoría de ejercicios en el CD, contienen etiquetas explicativas (esquineros de color rojo) del proceso operativo de las diferentes funciones. Ver la siguiente ilustración:
b) Mediana
La mediana de una serie de datos ordenados en orden de magnitud es el valor medio o la media aritmética de los dos valores medios.
Función MEDIANA
Devuelve la mediana de los números. La mediana es el número que se encuentra en medio de un conjunto de números, es decir, la mitad de los números es mayor que la mediana y la otra mitad es menor.
Sintaxis
MEDIANA(número1;número2; ...)
Número1, número2, ... son entre 1 y 30 números cuya mediana desea obtener.
Observaciones
- Los argumentos deben ser números o nombres, matrices o referencias que contengan números. Microsoft Excel examina todos los números en cada argumento matricial o de referencia.
- Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
- Si la cantidad de números en el conjunto es par, MEDIANA calcula el promedio de los números centrales.
Ejercicio 02 (Mediana)
(1) Tenemos la siguiente serie:
La mediana de esta serie es 6.
(2) Tenemos la siguiente serie:
La mediana de esta serie de números es 10:
c) Moda
La moda es el valor de la variable que más veces se repite, es decir, es el valor más común o más de moda. La moda puede no existir, incluso si existe puede no ser única.
Función MODA
Devuelve el valor que se repite con más frecuencia en una matriz o rango de datos. Al igual que MEDIANA, MODA es una medida de posición.
Sintaxis
MODA(número1;número2; ...)
Número1, número2, ... son de 1 a 30 argumentos cuya moda desea calcular. También puede utilizar una matriz única o una referencia matricial en lugar de argumentos separados con punto y coma.
Observaciones
- Los argumentos deben ser números, nombres, matrices o referencias que contengan números.
- Si el argumento matricial o de referencia contiene texto, valores lógicos o celdas vacías, estos valores se pasan por alto; sin embargo, se incluirán las celdas con el valor cero.
- Si el conjunto de datos no contiene puntos de datos duplicados, MODA devuelve el valor de error #N/A.
En un conjunto de valores, la moda es el valor que se repite con mayor frecuencia; la mediana es el valor central y la media es el valor promedio. Ninguna de estas medidas de la tendencia central tomada individualmente proporciona una imagen completa de los datos. Supongamos que los datos están agrupados en tres áreas, la mitad de las cuales es un valor bajo que se repite y la otra mitad consiste en dos valores elevados. Tanto PROMEDIO como MEDIANA devolverán un valor situado en una zona central relativamente vacía, y MODA devolverá el valor bajo dominante.
Ejemplo 1
La serie: 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 12, 18 la moda es 9
Ejemplo 2
La serie: 3, 5, 8, 10, 12, 15, 16 no tiene moda
Ejemplo 3
La serie: 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas,
por ello es bimodal
RELACIÓN DE EJERCICIOS DE ESTADÍSTICA DESCRIPTIVA.
Ejercicio 1: (Medidas de centralización y dispersión)En un centro hospitalario de la provincia de Sevilla se ha tratado, con un nuevo medicamento llamado SINDOLORCABEZON, durante 5 días a un grupo de pacientes, todos ellos padecen de jaqueca crónica (se despiertan todos los días con dolor de cabeza). Se realiza un estudio sobre el nº de días que un paciente sufre mejoría con el anterior medicamento obteniendo la tabla:
Valores xi | Frecuencias ni |
0 | 100 |
1 | 250 |
2 | 300 |
3 | 500 |
4 | 450 |
5 | 2000 |
Calcula también el porcentaje de pacientes que sienten mejoría con el medicamento en todos los días del tratamiento.
¿Por qué no calculamos el coeficiente de variación para ver la representatividad de la media? ¿Habría que hallarlo?.
Calcula el D3.¿Qué significado tiene?
A aquellos pacientes que sienten mejoría todos los días del tratamiento se les realiza un estudio sobre el tiempo de reacción del medicamento (en minutos), encontrándose recogido los datos en la siguiente tabla:
Tiempo de reacción | Nº de pacientes |
0-10 | 300 |
10-20 | 500 |
20-30 | 400 |
30-40 | 500 |
40-60 | 300 |
Escribir las fórmulas de las diferentes medias e indicar cuál de las tres te parece más adecuada para aplicar en este ejercicio (Razonadamente).Ejercicio 2: (Medidas de centralización y dispersión)
A todos los pacientes que tardan en reaccionar más de 35’ se le aplica el medicamento complementario PAQUENODUELA para acelerar los efectos de SINDOLORCABEZON. Hallar el número de pacientes a los que se le aplica este segundo medicamento.
Estudiar la representatividad del tiempo medio de reacción. ¿Es representativo? ¿ Por qué?
El Gobierno está pensando en introducir un medicamento con las características de SINDOLORCABEZON. Existen en el mercado junto con este dos productos más PALACABEZA y SINJAQUECAHOY. El tiempo medio de reacción de cada uno de ellos es respectivamente 25 y 30 minutos, con una varianza de 200 y 300 minutos2. Explica detalladamente que criterio de selección estadístico podría aplicar el Gobierno. Según el criterio anterior que medicamento sería el que pasaría a engrosar la lista de medicamentos de la Seguridad Social.
La empresa automovilística COCHESALMENDRON ha realizado un control de potencia sobre los 1000 motores diesel que se han fabricado a lo largo del mes de noviembre del año 1997 obteniendo la siguiente tabla:
Potencia en CV | Frecuencias | xi ni |
0-50 | 50 | |
50-60 | 200 | |
60-65 | 400 | |
65-70 | 300 | |
Más de 70 | 50 | 4000(*) |
Sin utilizar el dato en negrita que aparece en la tabla anterior, ¿podrías representar gráficamente el histograma de frecuencias? ¿Por qué? (Razona detalladamente)Los motores con menos de 55 CV se apartan de los demás y se estudia el número de piezas defectuosa que han motivado la pérdida global de potencia, obteniéndose la siguiente tabla:
Calcula la potencia mediana de los motores. Sin el dato en negrita no podrías calcular ni la media (¿Por qué?) ni la moda (¿Por qué?), sin embargo calcular ambos promedios haciendo uso del dato en negrita. e indicando que se ha supuesto para estos cálculos.
En la especificación técnica del motor se indica que tiene una potencia mínima de 55 CV. Hallar el porcentaje de motores con una potencia mayor que está (Nota: Realizarlo por dos métodos: Cuartiles y proporcionalidad).
Estudiar la representatividad de la media aritmética. ¿Sería representativa?
Valores xi | Frecuencias ni |
1 | 40 |
2 | 30 |
3 | 20 |
4 | 10 |
Representa gráficamente los distribución de frecuencias de la tabla.
Calcula la moda y el recorrido intercuartílico.
¿Qué diferencia existe entre subpoblación y encuesta?
¿Según que criterio nos permite diferenciar las características de una población?
Ejercicio 3: (Medidas de centralización y dispersión)
Se ha realizado una estadística en el centro comercial CONTINENTOL sobre los gastos (en miles de pesetas) que una familia tiene cuando realiza sus compras un día cualquiera de la semana. Este estudio nos aporta la siguiente tabla:
Intervalos | Frecuencias |
0-5 | 1000 |
5-10 | 1100 |
10-20 | 1600 |
20-50 | 1000 |
50-100 | 300 |
¿Cuál es el motivo por el que los datos se presentan en intervalos?Ejercicios 4: (Medidas de centralización y dispersión)
¿ Te parece coherentes los datos de la tabla, o bien tendrías que estudiar su procedencia antes de continuar el estudio?
Halla los ingresos que en ese día tuvo el centro comercial y el gasto medio, modal y mediano de cada familia.
Si a todas las familias que gastan más de 40.000 pesetas, se les obsequia con una bolsa de deporte o una cafetera, ambas valoradas en 2.500 pesetas. Hallar el número de regalos que realiza el centro comercial, así como el porcentaje de clientes que se benefician de ellos. (Nota: utilizar percentiles )
Hallar el primer cuartil. ¿Qué significado tiene?
Estudiar la representatividad del gasto medio. ¿Es representativa? ¿ Por qué?
De las diez personas encargadas de realizar la encuesta se sabe, de años anteriores, que tres de ellos se equivocan al elaborar la encuesta un 10% de las veces; cuatro rellenan ellos mismos el cuestionario y se equivocan el 75% de las veces y el resto son muy detallistas y cumplen perfectamente su trabajo. Se pide: ¿Cuál es la variable? ¿Cuál es la frecuencia? ¿Por qué los datos no se dividen en intervalos? Hallar la media de la variable.
Se realiza una estadística en dos centros de enseñanza, uno público y otro privado, referente a la nota global del bachillerato de cada uno de los alumnos que van a acudir a los exámenes de selectividad. Las distribuciones de frecuencias son las siguientes:
Centro privado
Nota global de cada alumno. | Frecuencias |
5,5 | 10 |
6.5 | 15 |
7.5 | 20 |
8.5 | 30 |
9.5 | 15 |
Centro público
Nota global de cada alumno. | Frecuencias |
[5 , 6] | 250 |
(6 , 7] | 150 |
(7 , 9] | 100 |
(9, 10] | 20 |
a) A la vista de la tabla, te sugiere algún comentario de especial importancia. ¿Cuál es el motivo de que los datos se presente en dos tablas de diferente tipo ?
b) Estudiar las diferentes medidas de tendencia central (promedios) en las dos distribuciones. En cada distribución ¿cuál te parece más representativo? ¿por qué?
c) Hallar el porcentaje de alumnos que en cada centro tiene una nota global superior al 7.
d) Hallar los cuartiles primero y tercero de las dos distribuciones.
e) Estudiar la representatividad de las medias obtenidas en las distribuciones por separado. ¿En cuál de las dos es más representativa?
f) Dos alumnos pertenecientes el primero al centro privado y el segundo, al centro público, solicitan una beca para continuar sus estudios en la universidad mejicana de Acapulco. el primero tiene una nota global de un 8.5 y el otro de un 7. Si sólo se concede una beca ¿quién sería el candidato a obtenerla aplicando el criterio estadístico de la variable tipificada?
Ejercicios 5: (Medidas de centralización y dispersión)
A la finalización del curso "Informática e Internet" se realizó un examen tipo test a los 300 alumnos obteniéndose la siguiente tabla relativa al número de preguntas acertadas:
Nº preguntas acertadas | Nº de alumnos |
0-10 | 10 |
10-15 | 20 |
15-20 | 60 |
20-23 | 100 |
23-25 | 70 |
25-30 | 30 |
30-40 | 10 |
Representa gráficamente la distribución de frecuencias anteriorPara la realización de la segunda parte del curso se convocan sesenta plazas. Hallar el número de preguntas mínima que ha debido acertar un alumno para poder realizar la continuación del curso.
Hallar la media
¿Cuál será el número de preguntas tal que la mitad de los alumnos obtengan un número de preguntas acertadas mayor que está?
¿Cuál es el número de preguntas que más se repite? Contesta con todo detalle.
Una vez finalizado este segundo curso, se realiza un examen a los alumnos obteniéndose las siguientes notas:
Notas | Nº Alumnos |
4 | 8 |
5 | 12 |
5.5 | 15 |
6 | 14 |
6.5 | 6 |
8 | 5 |
¿Por qué no se agrupan los datos en intervalos, como anteriormente?Ejercicio 6: (Regresión y correlación)
Halla la mediana, la moda, la media armónica y el recorrido intercuartílico.
Hallar y estudiar la media y su representatividad.
¿Qué resulta más meritorio, obtener 28 preguntas acertadas en el primer examen u obtener un 6.5 en el segundo?
Si se concede un 15% de diplomas entre los alumnos de la segunda parte del curso. ¿A partir de qué nota se concederán?
Dada la difícil situación por la que atraviesa actualmente la empresa QUEMALAPATA en la que hemos empezado a trabajar, se propone la reducción de determinados gastos. Para ello se estudia la relación que existe entre dos variables como son: los gastos en publicidad (variable X) y los beneficios (variable Y). De ambas variables disponemos de los siguientes datos:
Año | 1993 | 1994 | 1995 | 1996 | 1997 |
Gastos en Publicidad (105 ptas) | 70 | 75 | 80 | 90 | 104 |
Beneficios (106 ptas) | 33 | 45 | 50 | 65 | 67 |
¿Se puede considerar que ambas variables guardan algún tipo de relación? ¿Cuál sería la variable dependiente y cuál la independiente?Ejercicio 7: (Regresión y correlación)
Realizando un gráfico adecuado. ¿Se puede suponer que la relación que las liga es de tipo lineal?
Construye las dos rectas de regresión mínimo cuadrática asociada con las variables.
Si la empresa para el próximo año realizará un esfuerzo para poder invertir 11.500.000 ptas en publicidad. ¿Cuáles resultarían ser sus beneficios? ¿Con qué fiabilidad realizaría usted la predicción?
¿Cuáles resultarían ser sus beneficios si la predicción se efectúa considerando tan solo como variable explicativa el tiempo? ¿Cuál sería la fiabilidad de esta otra predicción? Comente los resultados.
Un estudiante de Estadística de la provincia de Sevilla, para poder pagarse sus estudios debe trabajar como camarero en un bar de copas de su localidad CASTILLEJADELCUESTON, al cual suelen acudir todos los jóvenes de la zona. Este año con los conocimientos aprendidos decide por fin estudiar la relación existente entre las galletas saladas y el consumo de bebidas, ya que, es costumbre, dar al cliente este aperitivo cuando se pide una consumición.
Las galletas no pueden tener una concentración de sal superior a 35 gramos por cada 10.000 galletas, y por ello decide ir variando a partir de 10 gramos la concentración de 5 en 5 gramos cada semana e ir anotando el incremento en caja semanalmente. Obteniendo la siguiente tabla:
Gramos de sal por cada 1000 galletas | 1 | 1.5 | 2 | 2.5 | 3 |
Ingresos en caja ( en pesetas) | 140300 | 150000 | 165000 | 175000 | 200000 |
Establecer un modelo lineal que relaciona las dos variables, estudiando la fiabilidad de dicho modeloEjercicio 8: (Regresiónsimple-múltiple y correlación)
Como consecuencia de los resultados anteriores el propietario del bar decide añadir a las galletas 40’25 gramos de sal, que coincide con toda la sal que tiene , en los almacenes . Realiza una predicción de los ingresos en caja y comente el resultado.
Si el propietario desea unos ingresos de 160.000 pesetas que cantidad de sal aportaría a las galletas. Si aporta 2,75, ¿cuál sería el ingreso en caja?. Explicar cual de las dos perdiciones te merece mayor confianza.
Un holding formado por cinco empresas públicas, decide en vista de una próxima privatización realizar un análisis conjunto de sus actividades.
La valoración del conjunto de todas las empresas es de 20 (en miles de millones de pesetas), donde las empresas A y B representan cada una de ellas el 30% de la valoración total. La empresa C supone un 10% de dicha valoración repartiéndose a partes iguales el resto las otras dos empresas.
Se pide:
Hallar el valor medio de las empresas del holding y estudiar si este es representativo.Si el beneficio neto que obtuvieron las empresas en el periodo anterior fue el siguiente:
Empresa | Beneficios (en millones de pesetas) |
A | 22’4 |
B | 23’3 |
C | 10’7 |
D | 15’5 |
E | 13’0 |
¿Es equitativo el reparto de los beneficios entre las empresas?.Aparece una nueva variable: número de empleados (en cientos de trabajadores). Sabemos que la recta de regresión del nº del empleados respecto a la valoración es:
Construye un modelo lineal que explique los beneficios en función del valor de la empresa. ¿Es aceptable el modelo construido?
nº empleados=0.53+1.07 Valoración,
con un coeficiente de determinación igual a 0’97. También sabemos que el coeficiente de correlación de la recta de regresión del beneficio respecto al número de empleado es igual a 0’95. Se pide:
Hallar la matriz de varianza-covarianza de las tres variables y el porcentaje de varianza explicada por el plano de regresión que explica el comportamiento del beneficio en función del número de empleados y la valoración de la empresa.Ejercicio 9: (Regresión simple-múltiple y correlación)
Un hipermercado ha decidido ampliar el negocio. Decide estudiar de forma exhaustiva el número de cjas registradoras que va a instalar, para evitar grandes colas. Para ello, se obtuvieron los siguientes datos procedentes de otros establecimientos similares acerca del número de cajas registradoras (variable X2) y del tiempo medio de espera (variable X1).
Nº de cajas registradoras | 10 | 12 | 14 | 12 | 18 | 20 |
Tiempo medio de espera | 59 | 51 | 42 | 32 | 26 | 22 |
¿Cómo varía el tiempo medio de espera por cada unidad de caja adicioanl?Ejercicio 10: (Regresión simple y correlación)
Si se instalaran 17 cajas registradoras, ¿Cuál sería el tiempo medio de espera? ¿Es fiable dicho dato?
Posteriormente, se penso que podía ser conveniente para explicar el tiempo de espera tener en cuenta además el número de clientes que acuden diariamente a estos establecimientos (variable X3), por lo que se estudio el tema, obteniéndose un coeficiente de correlación lineal entre ambas variables de 0’9343, siendo el número medio de clientes para los establecimientos anteriores de 850 personas, con un coeficiente de variación del 10’74%. Además, la covarianza entre el número de cajas y el número de clientes que acuden diariamente a estos establecimientos resulto ser de -300. Calcule los parámetros del modelo lineal que explica el tiempo medio de espera en función del número de cajas y del número de clientes que acuden diariamente.
La empresa GURSO, S.A. ha recibido sugerencias para que invierta sus excesos de tesorería en acciones de un poderoso grupo financiero nacional, dado que su cotización diaria en la Bolsa de Valores nacionales proporciona una gran liquidez a estas inversiones, y la evolución reciente de sus cotizaciones permiten pronosticar interesantes rentabilidades. El Departamento de Análisis Financiero de GURSO, S.A. recibe el encargo de realizar un estudio sobre la rentabilidad a corto plazo de estas acciones.
El Sr. González, Director del Departamento de Análisis Financiero, ha estudiado la rentabilidad de estas acciones utilizando la información sobre las variaciones de las cotizaciones bursátiles, en un ejercicio simulado de cinco operaciones de compraventa de un mismo número de títulos de este grupo en cortos periodos recientes, siempre con referencia a la Bolsa de Valores de Madrid.
Ha observado que los precios en el primer y último periodo eran iguales y un 10% superiores a los precios de los periodos segundo y cuarto, que a su vez eran un 10% inferiores al precio del tercer periodo que es de 1000 pesetas. ¿Se podría suponer que el precio medio resultante de estas operaciones simuladas suficientemente representativo de este conjunto de cinco precios?
Vistas las rentabilidades obtenidas el Sr. González se ha propuesto explicar el beneficio de cada operación simulada mediante una relación lineal del precio de adquisición de las acciones, ya que ha encontrado que para un precio de adquisición de 950 pesetas por acción, se obtiene un beneficio de 400 pesetas en cada título negociado, y que cuando el precio de las acciones se incrementan en 2 pesetas, el beneficio de la operación de compraventa se reduce en 10 pesetas. Los cálculos internos del Departamento de Análisis financiero de GURSO, S.A. muestran que la varianza de los beneficios simulados es 26 veces la varianza de los precios de adquisición. ¿Cuál es la expresión numérica de la función que están manejando en el Departamento de Análisis Financiero de GURSO, S.A.? ¿Cuál es el beneficio medio de las cinco operaciones de compraventa simuladas en dicho Departamento? ¿Puede indicarnos, razonadamente, si dicha función lineal proporciona un grado de explicación aceptable para el beneficio por el precio de adquisición?
La Dirección de GURSO, S.A. sólo está dispuesta a realizar estas inversiones si el beneficio por acción es de, al menos, 400 pesetas. ¿Qué precio máximo es el que determinará el Sr. González para poder recomendar la inversión?
Ejercicio 11: (Regresión simple-múltiple y correlación)
La dirección de la empresa THALESSA ha llevado a cabo un análisis del coste salarial mensual S (datos en 104 pesetas) de sus 115 empleados en relación con un determinado indicador de productividad P, habiendo resultado la siguiente tabla de frecuencias conjunta:
Intervalos de clase | Intervalos de clase de P | |||
de S | 6-8 | 8-10 | 10-12 | 12-14 |
10-12 | 28 | 2 | 0 | 0 |
12-15 | 3 | 31 | 1 | 0 |
15-18 | 2 | 19 | 2 | 0 |
18-22 | 0 | 6 | 6 | 0 |
22-28 | 0 | 0 | 8 | 1 |
28-38 | 0 | 0 | 0 | 6 |
¿Qué porcentaje de sus empleados tiene un coste salarial por encima del coste salarial medio?
Para el próximo ejercicio económico la dirección tiene pensado plantear al Comité Laboral un incremento lineal de 5.000 pesetas mensuales para los salarios más bajos que suponen el 30% del coste total salarial actual. Para el grupo de los restantes empleados desea proponer un incremento salarial proporcional a sus salarios actuales. ¿En qué porcentaje deberían aumentarse los costes salariales de este segundo grupo de modo que ambos criterios den lugar al mismo resultado para el salario que separa ambos grupos? ¿En qué porcentaje se incrementaría el coste total salarial?
¿En qué medida puede pensarse que el coste salarial explica mediante una relación lineal el indicador de productividad?
Supuesto que se ha calculado esta relación lineal, ¿para qué coste salarial se verifica que un incremento del 1% se traduce en un incremento del 0.5% del indicador de productividad?
La dirección dispone además de los datos sobre absentismo laboral de sus empleados, medido por el número de ausencias en los últimos doce meses, y desea introducir esta variable A en su análisis. Los cálculos conducen a las siguientes covarianzas: Cov(S, A) =-15, Cov(P, A) = -5. Trabajando con un ajuste lineal que explique el indicador de productividad de sus empleados mediante el coste salarial y la medida de si absentismo laboral, observa que manteniendo constante el coste salarial un incremento de una ausencia laboral se traduce en que el indicador de la productividad decrece en 0’41 unidades. Si el número medio de ausencias en un año es de 5’63 ausencias por empleado, ¿cuál es la dispersión relativa de la variable que expresa el absentismo laboral?
Percentil q (pq)
Una medida de posición muy útil para describir una población, es la denominada 'percentil'. En forma intuitiva podemos decir que es un valor tal que supera un determinado porcentaje de los miembros de la población.
Por ejemplo, considere un curso de cuarenta alumnos que se forma en línea por orden de estatura, primero los grandes y al final los chicos. Suponga, además, que se considera ‘chico’ a un alumno de la cuarta parte final de esta línea.
Éste es un concepto relativo a este curso, con toda seguridad variará al referirse a otro. Es fácil aceptar que los ‘chicos’ de octavo básico tienen menor estatura que los ‘chicos’ de cuarto medio.
Como la cuarta parte corresponde al 25% de la población, en el ejemplo que se menciona, los chicos de un curso, son aquellos cuya estatura no supera el ‘percentil veinticinco’ de la población formada por los alumnos del curso.
Si una variable pudiese asumir muchos valores, la representación de la proporción del total, menor o igual que un valor, tendría una forma creciente parecida a la siguiente:
Si en este conjunto de valores se quiere encontrar el percentil 20, la solución gráfica es muy simple
Como puede verse, el valor de la variable bajo el cual se encuentra un 20% de los valores, es algo mayor que 2.
En forma aproximada se podría conocer los percentiles usando este tipo de gráfico.
La descripción intuitiva de ‘percentil’ en una población continua, como la anterior, no es difícil de entender. Sin embargo, la definición en una muestra de tamaño finito puede resultar más difícil porque, en este caso, los valores que representan las proporciones acumuladas tienen una representación gráfica en forma de escalera.
Ejemplo.
Considere los siguientes datos de una muestra de tamaño 10.
4 8 11 12 13 16 18 19 21 22
En una muestra de tamaño n, cada dato representa 1 enésimo del total. En este caso, en que hay diez datos, esta proporción es un décimo. En el gráfico, puede observarse que la gráfica muestra un salto de un décimo (10%) en cada dato muestral. El primer salto se observa en el número 4,el menor de los datos. Antes del valor 4, la curva asume el valor cero y a partir de él, un décimo. El segundo salto se produce en 8, a partir del cual la gráfica comienza a valer dos décimos. Así se producen los saltos hasta alcanzar el valor uno (100%) a partir del último dato muestral 22.
Si en este ejemplo se decide calcular el percentil 25, se observa que la recta horizontal trazada a la altura del 25%, cruza la gráfica de escalera justo al llegar al tercer dato ordenado (11), por lo tanto, éste es el valor buscado. (Nótese que percentiles cercanos, mayores que 20 y menores que 30, tienen el mismo valor 11).
Sin embargo, si se desea calcular un percentil que coincida con una proporción asociada a un dato de la muestra, se produce una indefinición. Tómese el caso del percentil 20. En este caso la línea horizontal que busca cortar la gráfica de escalera, coincide justamente con un tramo horizontal de ésta; el que corre a la altura del 20% entre los datos muestrales 8 y 11. Cualquier valor entre 8 y 11 podría ser considerado como el percentil 20.
Más adelante se usará una convención para encontrar salidas a esta indefinición.
La presentación gráfica hecha anteriormente corresponde a la siguiente definición de percentil:
Definición.
Sea q un número real tal que 0<=q<=100. El percentil q ( pq ). es un valor del recorrido de las observaciones tal que:
1º. A lo menos q% de las observaciones son menores o iguales que pq.
2º. A lo menos (100-q)% de las observaciones son mayores o iguales que pq.
Para calcular un percentil, no es práctico usar esta definición.
Resulta más conveniente usar la siguiente regla que se deduce de la misma.
Para obtener el percentil q (0<q<100), se ordenan los datos de menor a mayor y se calcula el número
Si no es entero, el percentil está dado por:
Esto es, el dato cuyo orden es el entero inmediatamente superior a .
Si es entero, el percentil cumple la siguiente condición:
Es decir, pq se encuentra entre dos datos de orden consecutivo. El menor es el de orden dado por y el mayor es el dato siguiente en la muestra ordenada.
En el caso del ejemplo anterior, el percentil 25 se obtuvo calculando en primer lugar el 25% de 10, dado que éste es el tamaño n de la muestra. Entonces, está dado por . Por lo tanto, el entero inmediatamente superior es 3. En consecuencia, el percentil 25 es el tercer dato en el orden creciente; es decir 11. Tal como ya se determinó gráficamente.
Al calcular el percentil 20, tenemos que , valor entero. Por lo tanto, el percentil 20 es cualquier número entre el segundo y tercer dato ordenado. Es decir, cualquier número entre 8 y 11.
NOTA.
El cálculo de un percentil de una muestra presenta algunas dificultades por tratarse de un conjunto de datos en que se producen incrementos de la proporción acumulada en forma de saltos, y no suavemente como en el caso de una variable continua. Estos saltos representados por un gráfico de escalera son los que producen situaciones indefinidas en los casos que se indicó anteriormente.
Sin embargo, el uso inicial del gráfico de escalera y alguna ejercitación con la fórmula de cálculo, ayudan a entender un procedimiento que en un comienzo aparece mucho más difícil.
CÓMO DECIDIR EN EL CASO DE MÚLTIPLES SOLUCIONES PARA UN PERCENTIL.
Como se viO anteriormente, existen situaciones en el cálculo de un percentil muestral en las que todo un intervalo de números reales cumple con las condiciones de ser el percentil buscado. Esta respuesta no es útil porque habitualmente se necesita un único valor como resultado.
Para obtener este único resultado hay diversas soluciones. Aquí se usará aquella que calcula un punto de intervalo entregado por el cálculo anterior usando el mismo porcentaje que define al percentil.
El procedimiento es el siguiente:
1. Se calcula la longitud del intervalo
mediante la diferencia de sus extremos.
2. La longitud calculada anteriormente se multiplica por el porcentaje que define el percentil.
3. El valor obtenido en 2. se suma al límite inferior del intervalo calculado. Este resultado es el percentil buscado.
Ejemplo.
Como se vio en los cálculos precedentes, el percentil 20 del conjunto de datos usado se encuentra entre 8 y 11. Aplicando el procedimiento recién descrito, calculamos la longitud del intervalo.
Ésta resulta ser 11 - 8 = 3.
A continuación calculamos el 20% de 3 y obtenemos 0.6.
En consecuencia, el percentil 20 para este caso es 8 + 0.6 = 8.6.
Lea el contenido, subraye las ideas principales, de cada párrafo y luego, traslade al libro paralelo.
ResponderEliminarPARA ENRIQUECER SU CONOCIMIENTO, HAGA UN CUESTIONARIO POR PARRAFO.
PRESENTAR LUEGO A LICDA. CATALINA DE MENDOZA
A CONTINUACIÓN ENCONTRARÁ INFORMACIÓN, DE DIFERENTE TEXTO, LEA LO QUE LE INTERESE.
ResponderEliminar