Estadística Descriptiva

La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio.

Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

La estadística se divide en dos ramas:

La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. La manera mas común es la de agruparlo en lo que llamaremos cuadro de frecuencias. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar.

La inferencia estadística, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Sobre todas las cosas afirma, pronostica y predice.

Población y muestra: elementos y caracteres.

Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población.

Por razones prácticas, en lugar de compilar datos de una población entera, usualmente se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia.

Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo.

A su vez, cada elemento de la población tiene una serie de características que pueden ser objeto del estudio estadístico. Así por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres:

Sexo, Edad, Nivel de estudios, Profesión, Peso, Altura, Color de pelo, Etc.

Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres.

La población puede ser según su tamaño de dos tipos:

Población finita: cuando el número de elementos que la forman es finito, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.

Población infinita: cuando el número de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos.. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.

Variables y atributos.

Los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: dos grandes clases:

Variables Cuantitativas.

Variables Cualitativas o Atributos.

Las variables cuantitativas son las que se describen por medio de números, como por ejemplo el peso, Altura, Edad, Número de Suspensos…

A su vez este tipo de variables se puede dividir en dos subclases:

Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo número de hermanos, páginas de un libro, edad de las personas, etc.

Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores la variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo, la altura expresada en metros, etc.

No obstante en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.

Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número. Por ejemplo Sexo Profesión, Estado Civil, etc.

A su vez las podemos clasificar en:

Ordenables: Aquellas que sugieren una ordenación, por ejemplo la graduación militar, El nivel de estudios, etc.

No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.

Cuadro de Frecuencias

El cuadro de frecuencia es la forma más común de agrupar toda la información o datos observados. Esta compuesto por: los intervalos de clase, frecuencia absoluta, frecuencia relativa y frecuencia acumulada. Antes de definir estos elementos definiremos algunos pasos antes:

Número de intervalo

Intervalos de clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Límite Inferior

Límite superior

1

2

3

4

5

n

Elementos de la estadística descriptiva

Intervalo de clase: representa el espacio numérico comprendido entre el límite inferior y el límite superior.

Cantidad de intervalos: De acuerdo a la cantidad de datos y la diversidad de números considerando su dispersión, se determina este elemento. Normalmente 10 intervalos.

Rango: es el valor resultante de restar el valor máximo de la serie de datos con el valor mínimo.

Amplitud de cada intervalo: Se obtiene a partir del rango y dividiendo este por la cantidad de intervalos. En la mayoría de los casos la amplitud es igual para todos los intervalos.

Frecuencia absoluta: se entiende como la cantidad de datos observados en la amplitud de cada intervalo. La suma total debe considerar con el total de la serie de datos.

Frecuencia relativa: Se obtiene de dividir la cantidad de elementos de cada intervalo, obtenido en la frecuencia absoluta y expresado (para facilitar el análisis posterior) en porcentaje. La suma de estos valores tiene que ser 1 o 100%.

Resulta importante su correcto cálculo dado que estos valores se utilizan en la predicción de eventos futuros.

Frecuencia acumulada: se obtiene sumando a la frecuencia relativa el valor del próximo intervalo, tomando siempre el valor de la frecuencia precedente.

Ejemplo de aplicación:

Se tiene la siguiente tabla de ventas de una agencia de los últimos 30 días.

550

450

330

210

800

950

400

450

605

775

650

500

450

555

645

400

250

350

750

320

700

335

500

320

600

200

300

280

410

440

Haciendo uso de un análisis simple, pero valido y útil. Podríamos decir lo siguiente sobre toda esta información:

Ventas del mes: $14475.

Promedio de ventas: $482,50

Día de mayores ventas: $950.

Día de menores ventas: $200.

Por otra parte si tuviéramos organizada la tabla por día. Podríamos determinar que semana y/o que día se vendió mas. Incluso podríamos determinar un promedio de ventas por semana. Además de graficar en los ejes cartesianos las ventas en función del tiempo.

Pero además de esa información podríamos complementarla con el cuadro de frecuencias que nos dará una idea más cabal sobre las probabilidades y comportamiento de los datos.

Lo primero que definimos es la cantidad de intervalos que será de 10. Luego comenzamos calculando el Rango.

Rango = valor máximo - valor mínimo = Rango = 950-200 = 750

Luego, y sabiendo el Rango determinamos la amplitud de cada intervalo:

Amplitud = rango / Cantidad de Intervalos = Amplitud = 750/10 = 75.

Con estos datos procedemos a completar la tabla, comenzando con el limite inferior del intervalo 1. Este valor es el número menor de la serie de datos. En nuestro caso 200. Luego le sumo la amplitud y lo escribo como limite superior del mismo intervalo. Este valor lo bajo como limite inferior del intervalo 2 y le vuelvo a sumar la amplitud. El límite superior del último intervalo tiene que coincidir con el valor máximo de la serie.

La frecuencia absoluta del 1° intervalo se obtendrá de buscar la cantidad de valores que existan entre el límite inferior y el límite superior. Se aconseja ir tachando de la tabla de arriba.

Número de intervalo

Intervalos de clase

Frecuencia Absoluta

Frecuencia Relativa

Frecuencia Acumulada

Límite Inferior

Límite superior

1

200

275

3

3/30= 0,1

0,1

2

275,1

350

6

6/30=0,2

0,3

3

350,1

425

4

4/30=0,13

0,43

4

425,1

500

6

6/30=0,2

0,63

5

500,1

575

2

2/30=0,06

0,69

6

575,1

650

4

4/30=0,13

0,82

7

650,1

725

1

1/30=0,03

0,85

8

725,1

800

3

3/30=0,1

0,95

9

800,1

875

0

0/30=0

0,95

10

875,1

950

1

1/30=0,03

1

1

A partir de estos valores pueden inferirse un gran caudal de información probabilistica. De ests forma podraimos preguntarnos la probabilidad de que las ventas del mes proximo este entre $200 y $350 (0,3 ó 30%), entre $425 y $575 (0,26 ó 26%).

Tambien podemos hacer uso de la frecuencia acumulada: La P(200

<=500)>