Manual de Estadística por Manuel Ruiz Muñoz - muestra HTML

TOME EN CUENTA: Esta es una vista previa en HTML y algunos elementos como enlaces o números de página pueden ser incorrectos.
Para la versión completa, descargue el libro en PDF, ePub, Kindle
index-1_1.png

Manual de Estadística

Pag. 1

Manual de Estadística

David Ruiz Muñoz

Editado por eumed·net 2004 ISBN: 84-688-6153-7

Manual de Estadística

Pag. 2

ÍNDICE

Capítulo I:

Historia de la Estadística

Capítulo II:

Características de una distribución de frecuencias

Capítulo III:

Distribuciones bidimensionales

Capítulo IV:

Números índices

Capítulo V:

Series temporales

Capítulo VI:

Variables aleatorias

Capítulo VII:

Probabilidad

David Ruiz Muñoz

Profesor Departamento Economía y Empresa

Universidad Pablo de Olavide

Manual de Estadística

Pag. 3

Capítulo

HISTORIA DE LA ESTADISTICA

I

Como dijera Huntsberger: "La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras

relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. Huntsberger tiene razón pues al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza.

La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una

ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. Se nombran entre los más destacados clientes de ésta.

La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de

incertidumbre.

La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

En este breve material se expone los conceptos, la historia, la división así como algunos errores básicos cometidos al momento de analizar datos Estadísticos.

Definición de Estadística

La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa

concerniente a individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro.

La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con e fin de realizar una toma de decisión más efectiva.

Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por

objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis.

La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La

ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”.

Los estudiantes confunden comúnmente los demás términos asociados con las

Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra.

Utilidad e Importancia

Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de

medidas descriptivas.

Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia,

contabilidad, control de calidad y en otras actividades; estudios de consumidores;

análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de

decisiones.

Manual de Estadística

Pag. 4

Historia de la Estadística

Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y la riqueza del país. De acuerdo al historiador griego Heródoto, dicho registro de riqueza y población se hizo con el objetivo de preparar la construcción de las

pirámides. En el mismo Egipto, Ramsés II hizo un censo de las tierras con el objeto de verificar un nuevo reparto.

En el antiguo Israel la Biblia da referencias, en el libro de los Números, de los datos estadísticos obtenidos en dos recuentos de la población hebrea. El rey David por otra parte, ordenó a Joab, general del ejército hacer un censo de Israel con la finalidad de conocer el número de la población.

También los chinos efectuaron censos hace más de cuarenta siglos. Los griegos

efectuaron censos periódicamente con fines tributarios, sociales (división de tierras) y militares (cálculo de recursos y hombres disponibles). La investigación histórica revela que se realizaron 69 censos para calcular los impuestos, determinar los derechos de voto y ponderar la potencia guerrera.

Pero fueron los romanos, maestros de la organización política, quienes mejor supieron emplear los recursos de la estadística. Cada cinco años realizaban un censo de la

población y sus funcionarios públicos tenían la obligación de anotar nacimientos,

defunciones y matrimonios, sin olvidar los recuentos periódicos del ganado y de las

riquezas contenidas en las tierras conquistadas. Para el nacimiento de Cristo sucedía uno de estos empadronamientos de la población bajo la autoridad del imperio.

Durante los mil años siguientes a la caída del imperio Romano se realizaron muy pocas operaciones Estadísticas, con la notable excepción de las relaciones de tierras

pertenecientes a la Iglesia, compiladas por Pipino el Breve en el 758 y por Carlomagno en el 762 DC. Durante el siglo IX se realizaron en Francia algunos censos parciales de siervos. En Inglaterra, Guillermo el Conquistador recopiló el Domesday Book o libro del Gran Catastro para el año 1086, un documento de la propiedad, extensión y valor de las tierras de Inglaterra. Esa obra fue el primer compendio estadístico de Inglaterra.

Aunque Carlomagno, en Francia; y Guillermo el Conquistador, en Inglaterra, trataron de revivir la técnica romana, los métodos estadísticos permanecieron casi olvidados durante la Edad Media.

Durante los siglos XV, XVI, y XVII, hombres como Leonardo de Vinci, Nicolás Copérnico, Galileo, Neper, William Harvey, Sir Francis Bacon y René Descartes, hicieron grandes operaciones al método científico, de tal forma que cuando se crearon los Estados

Nacionales y surgió como fuerza el comercio internacional existía ya un método capaz de aplicarse a los datos económicos.

Para el año 1532 empezaron a registrarse en Inglaterra las defunciones debido al temor que Enrique VII tenía por la peste. Más o menos por la misma época, en Francia la ley exigió a los clérigos registrar los bautismos, fallecimientos y matrimonios. Durante un brote de peste que apareció a fines de la década de 1500, el gobierno inglés

comenzó a publicar estadísticas semanales de los decesos. Esa costumbre continuó

muchos años, y en 1632 estos Bills of Mortality (Cuentas de Mortalidad) contenían los nacimientos y fallecimientos por sexo. En 1662, el capitán John Graunt usó documentos que abarcaban treinta años y efectuó predicciones sobre el número de personas que

morirían de varias enfermedades y sobre las proporciones de nacimientos de varones y mujeres que cabría esperar. El trabajo de Graunt, condensado en su obra Natural and

Political Observations...Made upon the Bills of Mortality (Observaciones Políticas y Naturales ... Hechas a partir de las Cuentas de Mortalidad), fue un esfuerzo innovador en el análisis estadístico.

Por el año 1540 el alemán Sebastián Muster realizó una compilación estadística de los recursos nacionales, comprensiva de datos sobre organización política, instrucciones sociales, comercio y poderío militar. Durante el siglo XVII aportó indicaciones más

Manual de Estadística

Pag. 5

concretas de métodos de observación y análisis cuantitativo y amplió los campos de la inferencia y la teoría Estadística.

Los eruditos del siglo XVII demostraron especial interés por la Estadística Demográfica como resultado de la especulación sobre si la población aumentaba, decrecía o

permanecía estática.

En los tiempos modernos tales métodos fueron resucitados por algunos reyes que

necesitaban conocer las riquezas monetarias y el potencial humano de sus respectivos países. El primer empleo de los datos estadísticos para fines ajenos a la política tuvo lugar en 1691 y estuvo a cargo de Gaspar Neumann, un profesor alemán que vivía en

Breslau. Este investigador se propuso destruir la antigua creencia popular de que en los años terminados en siete moría más gente que en los restantes, y para lograrlo hurgó pacientemente en los archivos parroquiales de la ciudad. Después de revisar miles de partidas de defunción pudo demostrar que en tales años no fallecían más personas que en los demás. Los procedimientos de Neumann fueron conocidos por el astrónomo inglés Halley, descubridor del cometa que lleva su nombre, quien los aplicó al estudio de la vida humana. Sus cálculos sirvieron de base para las tablas de mortalidad que hoy utilizan todas las compañías de seguros.

Durante el siglo XVII y principios del XVIII, matemáticos como Bernoulli, Francis

Maseres, Lagrange y Laplace desarrollaron la teoría de probabilidades. No obstante

durante cierto tiempo, la teoría de las probabilidades limitó su aplicación a los juegos de azar y hasta el siglo XVIII no comenzó a aplicarse a los grandes problemas científicos.

Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó en 1760 la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante

consciente. La raíz remota de la palabra se halla, por otra parte, en el término latino status, que significa estado o situación; Esta etimología aumenta el valor intrínseco de la palabra, por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones.

Jacques Quételect es quien aplica las Estadísticas a las ciencias sociales. Este interpretó la teoría de la probabilidad para su uso en las ciencias sociales y resolver la aplicación del principio de promedios y de la variabilidad a los fenómenos sociales. Quételect fue el primero en realizar la aplicación práctica de todo el método Estadístico, entonces

conocido, a las diversas ramas de la ciencia.

Entretanto, en el período del 1800 al 1820 se desarrollaron dos conceptos matemáticos fundamentales para la teoría Estadística; la teoría de los errores de observación,

aportada por Laplace y Gauss; y la teoría de los mínimos cuadrados desarrollada por

Laplace, Gauss y Legendre. A finales del siglo XIX, Sir Francis Gaston ideó el método conocido por Correlación, que tenía por objeto medir la influencia relativa de los factores sobre las variables. De aquí partió el desarrollo del coeficiente de correlación creado por Karl Pearson y otros cultivadores de la ciencia biométrica como J. Pease Norton, R. H.

Hooker y G. Udny Yule, que efectuaron amplios estudios sobre la medida de las

relaciones.

Los progresos más recientes en el campo de la Estadística se refieren al ulterior

desarrollo del cálculo de probabilidades, particularmente en la rama denominada

indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas.

Etapas de Desarrollo de la Estadística

La historia de la estadística está resumida en tres grandes etapas o fases.

1.- Primera Fase: Los Censos:

Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada a la conciencia de soberanía y a los primeros esfuerzos administrativos.

Manual de Estadística

Pag. 6

2.- Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política:

Las ideas mercantilistas extrañan una intensificación de este tipo de investigación.

Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la

población: los intendentes del Reino envían a París sus memorias. Vauban, más conocido por sus fortificaciones o su Dime Royale, que es la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. Más tarde, Bufón se preocupa de esos problemas antes de dedicarse a la historia natural.

La escuela inglesa proporciona un nuevo progreso al superar la fase puramente

descriptiva. Sus tres principales representantes son Graunt, Petty y Halley. El penúltimo es autor de la famosa Aritmética Política.

Chaptal, ministro del interior francés, publica en 1801 el primer censo general de

población, desarrolla los estudios industriales, de las producciones y los cambios,

haciéndose sistemáticos durantes las dos terceras partes del siglo XIX.

3.- Tercera Fase: Estadística y Cálculo de Probabilidades:

El cálculo de probabilidades se incorpora rápidamente como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y en

general para el estudio de fenómenos “cuyas causas son demasiados complejas para

conocerlos totalmente y hacer posible su análisis”.

División de la Estadística

La Estadística para su mejor estudio se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Inferencial.

Estadística Descriptiva: consiste sobre todo en la presentación de datos en forma de tablas y gráficas. Esta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir los mismos sin factores pertinentes adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como tales.

Estadística Inferencial: se deriva de muestras, de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. Como consecuencia, la característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La

Estadística Inferencial investiga o analiza una población partiendo de una muestra

tomada.

Método Estadístico

El conjunto de los métodos que se utilizan para medir las características de la

información, para resumir los valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama métodos estadísticos. Los

métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos:

1. Definición del problema.

2. Recopilación de la información existente.

3. Obtención de información original.

4. Clasificación.

5. Presentación.

6. Análisis.

Errores Estadísticos Comunes

Al momento de recopilar los datos que serán procesados se es susceptible de cometer

errores así como durante los cómputos de los mismos. No obstante, hay otros errores

que no tienen nada que ver con la digitación y que no son tan fácilmente identificables.

Algunos de éstos errores son:

Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o

Manual de Estadística

Pag. 7

estado mental pueda influir en la recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que

apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada.

Datos no comparables: el establecer comparaciones es una de las partes más

importantes del análisis estadístico, pero es extremadamente importante que tales

comparaciones se hagan entre datos que sean comparables.

Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas

hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis

estadístico.

Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de

información disponible es tan inmenso que se hace necesario estudiar muestras, para

derivar conclusiones acerca de la población a que pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada

Manual de Estadística

Pag. 8

Capítulo CARACTERISTICAS DE UNA DISTRIBUCIÓN DE FRECUENCIAS

II

2.1. Introducción

La fase previa de cualquier estudio estadístico se basa en la recogida y ordenación de datos; esto se realiza con la ayuda de los resúmenes numéricos y gráficos visto en los temas anteriores.

2.2. Medidas de posición

Son aquellas medidas que nos ayudan a saber donde están los datos pero sin indicar como se distribuyen.

2.2.1. Medidas de posición central

a) Media aritmética ( X )

La media aritmética o simplemente media, que denotaremos por X , es el número obtenido al dividir la suma de todos los valores de la variable entre el numero total de observaciones, y se define por la siguiente expresión:

n

x n

i

i i

=

x =

1

N

Ejemplo:

Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.

xi

ni xi ni

54 2

108

59 3

177

63 4

252

64 1

64

N=10

601

nx nii

i=

601

1

X =

=

=

1

,

60 kg

N

10

Si los datos están agrupados en intervalos, la expresión de la media aritmética, es la misma, pero utilizando la marca de clase (Xi).

Ejemplo:

(Li-1,Li] xi

ni

xi

ni

Manual de Estadística

Pag. 9

[30 , 40]

35

3

105

(40 , 50]

45

2

90

(50 , 60]

55

5

275

10

470

nx nii

i=

470

1

X =

=

= 47

N

10

Propiedades:

1ª) Si sometemos a una variable estadística X, a un cambio de origen y escala Y = a + b X, la media aritmética de dicha variable X, varía en la misma proporción.

Y = a + bX Y = a + bX

2ª) La suma de las desviaciones de los valores o datos de una variable X, respecto a su media aritmética es cero.

n( x x) n = 0

i

i

i 1

=

Ventajas e inconvenientes:

- La media aritmética viene expresada en las mismas unidades que la variable.

- En su cálculo intervienen todos los valores de la distribución.

- Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

- Es única.

- Su principal inconveniente es que se ve afectada por los valores extremadamente

grandes o pequeños de la distribución.

• Media aritmética ponderada

Es una media aritmética que se emplea en distribuciones de tipo unitario, en las que se introducen unos coeficientes de ponderación, denominados ω , que son valores positivos, i

que representan el número de veces que un valor de la variable es más importante que otro.

n x w

i

i

i=

W = 1

n wi

i=1

b) Media geométrica

Manual de Estadística

Pag. 10

Sea una distribución de frecuencias (x , n ). La media geométrica, que denotaremos

i

i

por G. se define como la raíz N-ésima del producto de los N valores de la distribución.

G =

1

n 2

nk

N

n

x x ····· x

1

2

k

Si los datos están agrupados en intervalos, la expresión de la media geométrica, es la misma, pero utilizando la marca de clase (Xi).

El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.

Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.

- Los valores extremos tienen menor influencia que en la media aritmética.

- Es única.

- Su cálculo es más complicado que el de la media aritmética.

Además, cuando la variable toma al menos un x = 0 entonces G se anula, y si la

i

variable toma valores negativos se pueden presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice par de

números negativos.

c) Media armónica

La media armónica, que representaremos por H, se define como sigue:

N

H = r 1

n

i=

i

1 xi

Obsérvese que la inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con

valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc.

Ventajas e inconvenientes:

- En su cálculo intervienen todos los valores de la distribución.

- Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero.

- Es única.

• Relación entre las medias:

Manual de Estadística

Pag. 11

H G X

d) Mediana ( Me )

Dada una distribución de frecuencias con los valores ordenados de menor a mayor,

llamamos mediana y la representamos por Me, al valor de la variable, que deja a su

izquierda el mismo número de frecuencias que a su derecha.

• Calculo de la mediana:

Variara según el tipo de dato:

a) Variables discretas no agrupadas:

N

1º) Se calcula

y se construye la columna de las Ni ( frecuencias acumuladas )

2

N

2º) Se observa cual es la primera Ni que supera o iguala a

, distinguiéndose dos

2

casos:

N

- Si existe un valor de Xi tal que N

Me = x

1

− p

p N

i

i

2

, entonces se toma como

i

N

x + x

i

1

+

-

Me =

i

Si existe un valor i tal que N =

i

2 , entonces la

2

Ejemplo: Sea la distribución

xi ni

Ni

1 3

3

2 4

7

5 9

16

7

10

26

10 7 33

13 2 35

n = 35

N

35

lugar que ocupa

=

=

5

,

17

2

2

N

como se produce que N

<

< N ⇒ 16 <

7

,

17 < 26 ⇒ Me = x ,por lo tanto Me = 7

i−1

i

i

2

El otro caso lo podemos ver en la siguiente distribución:

xi ni

Ni

1 3

3

2 4

7

Manual de Estadística

Pag. 12

5

9

16

7 10

26

10 6 32

n=

32

x 1 + xi 1 5 + 7

Me =

+ =

= 6

Lugar que ocupa = 32/2 = 16 ==>

2

2

Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta acumulada superior a 16. En este caso se calcularía como en el ejemplo anterior.

b) Variables agrupadas por intervalos

En este caso hay que detectar en que intervalo está el valor mediano. Dicho intervalo se denomina “ intervalo mediano ”.

Cada intervalo Ii vendrá expresado según la notación Ii = ( Li-1 , Li ]; observando la columna de las frecuencias acumuladas, buscaremos el primer intervalo cuya Ni sea

N

mayor o igual que

, que será el intervalo modal; una vez identificado dicho intervalo,

2

procederemos al cálculo del valor mediano, debiendo diferenciar dos casos:

N

1º) Si existe Ii tal que N 1

− p

p N

i

i

2

, entonces el intervalo mediano es el ( Li-1 , Li ]

y la mediana es:

N Ni 1−

2

M = L

+

c

e

i 1

i

ni

N

2º) Análogamente si existe un Ii tal que N =

Me = L

i

2 , la mediana es

i

Ejemplo:

( Li-1, Li]

ni

Ni

[20 , 25]

100

100

(25 , 30]

150

250

(30 , 35]

200

450

(35 , 40]

180

630

(40 , 45]

41

671

N = 671

671/2 = 335.5 ; Me estará en el intervalo (30 - 35 ]. Por tanto realizamos el cálculo: Manual de Estadística

Pag. 13

N Ni

5

,

33 − 250

2

1

Me = L +

a = 30 +

*5 =

138

,

32

i 1

i

n

200

i

Ventajas e inconvenientes :

- Es la medida más representativa en el caso de variables que solo admitan la escala ordinal.

- Es fácil de calcular.

- En la mediana solo influyen los valores centrales y es insensible a los valores

extremos u “outliers ”.

- En su determinación no intervienen todos los valores de la variable.

e) Moda

La moda es el valor de la variable que más veces se repite, y en consecuencia, en una distribución de frecuencias, es el valor de la variable que viene afectada por la máxima frecuencia de la distribución. En distribuciones no agrupadas en intervalos se observa la columna de las frecuencias absolutas, y el valor de la distribuci6n al que corresponde la mayor frecuencia será la moda. A veces aparecen distribuciones de variables con más de una moda (bimodales, trimodales, etc), e incluso una distribución de frecuencias que presente una moda absoluta y una relativa.

En el caso de estar la variable agrupada en intervalos de distinta amplitud, se define el intervalo modal, y se denota por ( Li-1 , Li ], como aquel que posee mayor densidad de n

frecuencia ( h

i

i ); la densidad de frecuencia se define como : h =

i

ai

Una vez identificado el intervalo modal procederemos al cálculo de la moda, a través de la fórmula:

hi 1

+

Mo =

+

c

i

L 1

i

h

+ h

i 1

i 1

+

En el caso de tener todos los intervalos la misma amplitud, el intervalo modal será el que posea una mayor frecuencia absoluta ( ni ) y una vez identificado este, empleando la fórmula:

n

i 1

+

Mo = L

+

c

i 1

i

n

+ n

i 1

i 1

+

Ventajas e inconvenientes:

- Su cálculo es sencillo.

- Es de fácil interpretación.

Manual de Estadística

Pag. 14

- Es la única medida de posición central que puede obtenerse en las variables de tipo cualitativo.

- En su determinación no intervienen todos lo valores de la distribución.

2.2.2. Medidas de posición no central ( Cuantiles )

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor,

dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

Los cuantiles más conocidos son:

a) Cuartiles ( Qi )

Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el

primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. (Q2 = Me)

b) Deciles ( Di)

Son los valores de la variable que dividen a la distribución en las partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Me ) c) Centiles o Percentiles ( Pi )

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habrá 99 percentiles. (Q2 = D5 =

Me = P50)

Cálculo de los cuantiles en distribuciones no agrupadas en intervalos

rN

- Se calculan a través de la siguiente expresión:

, siendo :

q

r = el orden del cuantil correspondiente

q = el número de intervalos con iguales frecuencias u observaciones ( q = 4, 10, ó

100 ).

N = número total de observaciones

-

La anterior expresión nos indica que valor de la variable estudiada es el cuantil que nos piden, que se corresponderá rN

con el primer valor cuya frecuencia acumulada sea mayor o igual a

q

Ejemplo: DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución

Manual de Estadística

Pag. 15

xi ni

Ni

5 3

3

10 7

10

15 5

15

20 3

18

25 2

20

N = 20

Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90

percentil (P90)

Mediana (Me)

Lugar que ocupa la mediana Î lugar 20/2 = 10

Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es

x +

i

xi 1 10 +15

Me =

+ =

=

5

,

12

cálculo:

2

2

Primer cuartil (C1)

rN

Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 <

< Ni , es

q

decir 3 < 5 < 10 esto implicara que C1 = xi =10

Tercer cuartil (C3)

Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor

de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo:

x + x

i

i

+

1

15 20

C =

+ =

= 17 5

,

3

2

2

Cuarto decil (D4)

rN

Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8. Como Ni-1 <

< Ni

q

ya que 3 < 8 < 10 por tanto D4 =10.

Nonagésimo percentil (P90)

Lugar que ocupa en la distribución (90/100). 20 = 1800/100 = 18. que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo:

x + x

i

i

+

1

20 25

P =

+ =

=

5

,

22

90

2

2

Cálculo de los cuantiles en distribuciones agrupadas en intervalos

- Este cálculo se resuelve de manera idéntica al de la mediana.

- El intervalo donde se encuentra el cuantil i-esimo, es el primero que una vez

ordenados los datos de menor a mayor, tenga como frecuencia acumulada ( Ni ) un

rN

valor superior o igual a q ; una vez

Manual de Estadística

Pag. 16

identificado el intervalo Ii ( Li-1 , Li ], calcularemos el cuantil correspondiente, a través de la fórmula:

rN Ni 1−

q

C

= L

+

c

r

i 1

i

q

ni

r=1,2,...,q-1.

Cuartil: q=4; Decil:

q=10; Percentil: q=100

Ejemplo:

DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente distribución:

[Li-1 , Li)

ni

Ni

[0 , 100]

90

90

(100 , 200]

140

230

(200 , 300]

150

380

(300 , 800]

120

500

N = 500

- Primer cuartil (Q1)

- Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto Q1

estará situado en el intervalo (100 – 200].Aplicando la expresión directamente,

125 − 90

Q = 100 +

100 = 125

1

tendremos:

140

- Cuarto decil (D4)

- Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D4 estará situado en el intervalo 200 − 90

D = 100 +

100

57

,

178

(100 – 200]. Aplicando la expresión tendremos: 4

=

140

-

- Nonagésimo percentil (P 90)

- Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estará situado en el intervalo 450 − 380

70

P = 300 +

500 = 300 +

500

67

,

591

(300 – 800]. Aplicando la expresión tendremos: 90

=

120

120

2.3. Momentos potenciales

Los momentos son medidas obtenidas a partir de todos los datos de una variable

estadística y sus frecuencias absolutas. Estas medidas caracterizan a las distribuciones Manual de Estadística

Pag. 17

de frecuencias de tal forma que si los momentos coinciden en dos distribuciones, diremos que son iguales.

2.3.1. Momentos respecto al origen

Se define el momento de orden h respecto al origen de una variable estadística a la

expresión:

n

x hn

i

i

a

i=

= 1

h

N

Particularidades:

Si h = 1, a1 es igual a la media aritmética.

Si h = 0, a0 es igual a uno ( a0 = 1 )

2.3.2. Momentos centrales o momentos con respecto a la media aritmética

n

h

∑( x x) n

i

i

m

i=

= 1

h

N

Particularidades:

- Si h = 1, entonces m1 = 0

- Si h = 2, entonces m2 = S2

2.4. Medidas de dispersión

Las medidas de dispersión tratan de medir el grado de dispersión que tiene una variable estadística en torno a una medida de posición o tendencia central, indicándonos lo

representativa que es la medida de posición. A mayor dispersión menor

representatividad de la medida de posición y viceversa.

2.4.1 Medidas de dispersión absoluta

a) Recorrido ( Re )

Se define como la diferencia entre el máximo y el mínimo valor de la variable:

Manual de Estadística

Pag. 18

R = máx x min x

i

i

Ej: Sea X, las indemnizaciones recibidas por cuatro trabajadores de dos empresas A y B

A

100 120 350 370

B

225 230 240 245

Re ( A) = 370 – 100= 270

Re ( B) = 245 – 225= 20 ---Æ Distribución menos dispersa

- Otros recorridos:

• intervalo intercuartílico I = Q Q

3

1

• intervalo interdecílico I= ( D D )

9

1

• intervalo intercentílico I= ( P P )

99

1

b) Desviación absoluta media con respecto a la media ( de )

Nos indica las desviaciones con respecto a la media con respecto a la media aritmética en valor absoluto.

rx x ni

i= i

d

=

1

e

N

c) Varianza

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto menor representatividad tendrá la media aritmética.

La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al cuadrado.

r

r

2

2

x n

( x x) n

i

i

2

i

i

i

=

2

i 1

=

S

=

1

2

S =

x

N

N

Propiedades:

Manual de Estadística

Pag. 19

1ª) La varianza siempre es mayor o igual que cero y menor que infinito ( 2

S x ≥ 0)

2ª) Si a una variable X la sometemos a un cambio de origen “ a ” y un cambio de escala

“ b ”, la varianza de la nueva variable Y= a + bX, será:

( 2

2

2

S

= b S

y

x

)

d) Desviación típica o estándar

Se define como la raíz cuadrada con signo positivo de la varianza.

2

S +

= S

x

x

2.4.2. Medidas de dispersión relativa

Nos permiten comparar la dispersión de distintas distribuciones.

a) Coeficiente de variación de Pearson ( CVx )

Indica la relación existente entre la desviación típica de una muestra y su media.

S

CV = x

Al dividir la desviación típica por la media se convierte en un valor excento de unidad de medida. Si comparamos la dispersión en varios conjuntos de observaciones tendrá

menor dispersión aquella que tenga menor coeficiente de variación.

El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la media aritmética, cuando está tome valores cercanos a cero, el coeficiente tenderá a infinito.

Ejemplo: Calcula la varianza, desviación típica y la dispersión relativa de esta distribución.

Sea x el número de habitaciones que tienen los 8 pisos que forman un bloque de vecinos X ni

2 2

3 2

5 1

6 3

Manual de Estadística

Pag. 20

N=

8

n

x n

i 1

= i i

2 * 2 + 3 * 2 + 5 * 1 + 6 * 3

x =

=

= .

4 125

N

8

habitaciones

r

2

x ni

i

i=

+

+

+

2

1

22

2

* 2 32 * 2 52 *1 62 *3

S =

x =

− ( 125

.

4

)2 = 86

.

2

N

8

(habitaciones )2

2

S +

= S +

=

86

.

2 = 69

.

1

x

x

habitaciones

S

69

.

1

CV =

=

= 41

.

0

x

125

.

4

2.5. Medidas de forma

• Asimetría

• Curtosis o apuntamiento.

Hasta ahora, hemos estado analizando y estudiando la dispersión de una

distribución, pero parece evidente que necesitamos conocer más sobre el

comportamiento de una distribución. En esta parte, analizaremos las medidas de forma, en el sentido de histograma o representación de datos, es decir, que información nos aporta según la forma que tengan la disposición de datos.

Las medidas de forma de una distribución se pueden clasificar en dos grandes

grupos o bloques: medidas de asimetría y medidas de curtosis.

2.5.1. Medidas de asimetría o sesgo : Coeficiente de asimetría de Fisher.

index-21_1.png

Manual de Estadística

Pag. 21

Cuando al trazar una vertical, en el diagrama de barras o histograma, de una

variable, según sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es simétrica. En caso

contrario, dicha distribución será asimétrica o diremos que presenta asimetría.

El coeficiente de asimetría más preciso es el de Fisher, que se define por:

r

∑( x x

i

) 3 ni

i 1

=

N

g =

1

3

S

Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea:

Si g1 > 0 Î la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).

Si g1 < 0 Î la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).

Si g1 = 0 Î la distribución puede ser simétrica; si la distribución es simétrica, entonces si podremos afirmar que g1 = 0.

index-22_1.png

Manual de Estadística

Pag. 22

g1<0

g1=0

g1>0

-

Si existe simetría, entonces g1 = 0, y X = Me ; si además la distribución es unimodal, también podemos afirmar que: X = Me = Mo

X > Me >

-

Si g1 > 0, entonces :

Mo

-

Si g

<

<

1 < 0, entonces : X

Me Mo

2.5.2. Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher

Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una

distribución; para determinarlo, emplearemos el coeficiente de curtosis de Fisher. (g2) Manual de Estadística

Pag. 23

r

∑( x x

i

) 4 ni

i 1

=

g 2

N

=

4

S

Si g2 > 3 la distribución será leptocúrtica o apuntada

Si g2 = 3 la distribución será mesocúrtica o normal

Si g2 < 3 la distribución será platicúrtica o menos apuntada que lo normal.

2.6. Medidas de concentración

Las medidas de concentración tratan de poner de relieve el mayor o menor grado de

igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.

Denominamos concentración a la mayor o menor equidad en el reparto de la suma

total de los valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los

dos extremos: