Estadística I
Regresión y correlación lineal simple
0Regresión lineal simple
La regresión lineal simple nos permitirá pasar de una dependencia estadística a una funcional con las siguientes características:
- La función a estimar es lineal
- Existe una variable explicativa o exógena
- En la exposición nos referimos a una tabla de correlación de frecuencias unitarias
- Se empleará el ajuste mínimo-cuadrático para estimar la ecuación de la recta:
Las rectas de regresión serán:
donde,
Correlación lineal simple
La teoría de la correlación estudia el grado de asociación existente entre las dos variables, es decir, la intensidad de la dependencia entre las mismas.
Relación entre las varianzas
| Varianza de la variable dependiente | |
| Varianza explicada por la regresión | |
| Varianza residual |
Coeficiente de determinación
Coeficiente de correlación simple
Estudio descriptivo de las series temporales
0Una serie temporal es un conjunto de datos de una determinada magnitud económica, ordenados a lo largo del tiempo.
Cada uno de los valores de una serie temporal puede considerarse el resultado de componer (mediante suma o multiplicación) una serie de valores entre los cuales los más importantes son:
- Componente secular o tendencia: Refleja la evolución de la serie a largo plazo.
- Componente estacional: Recoge las oscilaciones periódicas periódicas de periodo igual o inferior a un año. Si el periodo marco es el año, pueden observarse variaciones estacionales de periodo cuatrimestral, trimestral o mensual. Si el periodo marco es el mes, pueden observarse variaciones estacionales de periodo semanal o diario, etc…
- Componente cíclica: Recoge las oscilaciones periódicas no regulares de la serie, de periodo superior al año.
- Componente accidental: Recoge las oscilaciones ocasionales que se producen por cause de fenómenos imprevisibles.
Determinación de la tendencia
- Método gráfico: Representado en abscisas los periodos y en ordenadas los valores, basta unir con una poligonal los puntos obtenidos.
- Método de las medias móviles: Se obtiene la media aritmética de cada r periodos consecutivos. Si r es impar, dicha media se le asigna al periodo intermedio; si r es par, vuelven a promediarse cada dos medias consecutivas.
- Método de los mínimos cuadrados: Consiste en ajustar una recta de regresión mínimo cuadrática a la serie de promedios anuales.
Determinación de las variaciones estacionales
Su determinación se efectúa mediante la construcción de un índice, para lo cual existen diversos métodos según el que el carácter de la serie sea multiplicativo o aditivo.
Si es multiplicativo se utiliza el método de la razón a la media móvil mediante el que se eliminan de la serie las componentes tendencia, ciclo y accidental y seguidamente se construye el índice de variación estacional.
Si es aditivo se calcula la tendencia por ajuste mínimo cuadrático, se corrigen a continuación las medias estacionales y finalmente se construye el índice de variación estacional.
Determinación de las variaciones cíclicas
Los movimientos cíclicos no suelen ser regulares y su determinación comprende ciertas dificultades.
Aun así, se puede tratar de aislar el ciclo bajo la hipótesis multiplicativa dejándolo como residuo con la eliminación de la tendencia y la variación estacional. Los pasos serían:
- Estimar la tendencia
- Calcular los índices de variación estacional
- Se desestacionaliza la serie observada
- Se elimina la tendencia dividiendo cada valor desestacionalizado por la serie de tendencia
El proceso finalizaría intentando eliminar la componente accidental.
Medidas de concentración
0Índice de concentración de Gini
Consideramos la variable estadística donde cada valor
es la renta de los $n_i$ individuos, siendo
. Sea
, es decir, la renta total de los individuos con renta
y sea
el porcentaje que dicho total representa respecto de la renta total, a saber
.
Por otra parte, sea el porcentaje de individuos con renta
, es decir,
. Se define el índice de concentración de Gini:
Para obtener el Índice es conveniente construir la siguiente tabla:
Casos extremos:
La concentración de la renta es mínima, es decir, la renta está equidistribuida.
La concentración de la renta es máxima, es decir, un sólo individuo percibe toda la renta.
El índice de Gini permanece acotado entre 0 y 1. Se puede calcular en distribuciones de frecuencias unidimensionales de variable cuantitativa y da una medida de la mayor o menor concentración de los valores de la variable. La concentración no debe confundirse con lo contrario de la dispersión.
Curva de Lorentz
Es la representación gráfica del índice de Gini. La curva de Lorenz es la poligonal que une los puntos:
El caso de equidistribución corresponde de la renta, la curva corresponde a la diagonal (0,0)-(100,100), y el caso de concentración máxima corresponde a la curva que une (0,0), (100,0) y (100,100)
Medidas de asimetría y curtosis
0Coeficiente de asimetría de Fisher
Es una medida de asimetría para variables estadísticas. Se dice que una distribución es simétrica si el diagrama de barras que representa es simétrico respecto de la recta
La simetría implica que , si además es unimodal:
Casos:
- Si
la distribución puede ser simétrica.
- Si
la distribución es asimétrica negativa o a la izquierda.
- Si
la distribución es asimétrica positiva o a la derecha.
Coeficiente de curtosis de Fisher
La curtosis o apuntalamiento surge al comparar la forma de una variable estadística con respecto a la distribución normal.
Casos:
- Si
Distribución leptocúrtica.
- Si
Distribución mesocúrtica.
- Si
Distribución platicútica.
Medidas de dispersión
0Tratan de medir lo más o menos esparcida se encuentra la variable estadística.
Recorrido, rango o intervalo de variación
Intervalos intercuartílicos:
- Intervalo intercuartílico:
- Intervalo semiintercuartílico:
- Intervalo intercuartílico relativo:
- …
Medidas de dispersión respecto a la media aritmética:
- Desviación absoluta respecto a la media aritmética:
- Varianza:
- Desviación típica:
- Coeficiente de variación de Pearson:
La varianza:
Considerados los valores de una variable con frecuencias respectivas
, siendo
, cuya media aritmética representamos por
, denominamos varianza a
. Se trata de una medida dispersión puesto que expresa el promedio de los cuadrados de las desviaciones de cada valor respecto de su media aritmética.
Propiedades:
- Positividad:
- Si
, entonces
- La varianza no se afectada por los cambios de origen pero sí por los de escala. Es decir, si
, entonces
- Método abreviado de cálculo, en función a los momentos respecto del origen:
Distribuciones de frecuencias unidimensionales
0Distribuciones de frecuencias unidimensionales con los datos no agrupados
Definiciones:
Llamamos distribución de frecuencias unidimensional unitaria de la característica X al conjunto de los r datos distintos y ordenados de menor a mayor de forma que ninguno está repetido.
Llamamos distribución de frecuencias unidimensional de la característica X al conjunto de los r datos distintos, ordenados de menor a mayor, acompañados de sus respectivas frecuencias absolutas.
Llamamos frecuencia total o total de datos, y la denotaremos por N a la suma de todas las frecuencias absolutas:
Llamamos frecuencia relativa del valor de la variable al cociente entre la frecuencia absoluta de dicho valor y el número total de datos N:
Llamamos frecuencia absoluta acumulada ascendente de un determinado valor de la variable ordenado de menor a mayor al número de datos que son menores o iguales a él:
Llamamos frecuencia absoluta acumulada descendente de un determinado valor ordenado al número de datos que son mayores que él:
Las frecuencias relativas acumuladas tanto ascendentes como descendentes se definen igual sólo que se suman las en vez de las
Estos conceptos nos dan la siguiente tabla genérica, de la cuál pueden obtenerse las tablas parciales que se deseen.
Distribuciones de frecuencias unidimensionales con los datos agrupados en intervalos de clases
Recorrido de la variable X:
Una vez determinados los datos máximo y mínimo podemos agrupar los datos del siguiente modo:
Amplitud del intervalo: , se verifica que:
Amplitud común:
Llamamos marca de clase del intervalo a su punto medio:
Números Índice
1Un número índice es una medida estadística que nos proporciona la variación relativa de una magnitud simple o compleja a lo largo del tiempo o el espacio. Lo habitual es estudiar la evolución de la magnitud a lo largo del tiempo con lo que hay que establecer un período base sobre el que se van comparando la evolución de la magnitud.
Clasificación
-
Números Índice Simples: Surgen cuando se estudia la evolución a lo largo del tiempo de una magnitud que tiene un sólo componente. (no admite agregación). Si
es el valor de de una magnitud en el periodo
y
es el valor de esa magnitud en el periodo cero (periodo base), el índice simple de la magnitud en cuestión en el periodo
es
-
Números Índice Complejos sin Ponderar: Surgen cuando se estudia la evolución de una magnitud que tiene más de un componente y a todos se les asigna la misma importancia o peso relativo. Si
es el índice de la magnitud i-ésima (
en el periodo t, con base en el periodo cero. Entonces el índice complejo sin ponderar es la media aritmética de ellos:
-
Números Índice Complejos Ponderados: Surgen cuando a los componentes de la magnitud compleja que se está estudiando se le asigna a cada uno un determinado coeficiente de ponderación W. Este tipo de números índice son los que realmente se emplean en el análisis de la evolución de los fenómenos complejos de naturaleza económica. Es la media aritmética ponderada de índices simples, donde cada índice
es ponderado por un coeficiente de ponderación
Propiedades:
- Existencia: Todo número índice debe existir y se calcula para cualquier valor real de la variable distinto de cero.
- Identidad: Si se hacen coincidir el período base y el período actual, el valor del índice tiene que ser igual a la unidad (o a 100 si se elabora en porcentajes)
- Inversión: El índice del año 0 calculado con la base del año t, ha de ser igual al inverso del índice del año t calculado en baso del año 0.
- Circular: Es una generalización de la de inversión a tres períodos u, t, o:
- Proporcionalidad: Si en el período actual todas las magnitudes experimentan una variación proporcional, el número índice tiene que experimentar también dicha variación.
Sea - Homogeneidad: Un número índice no puede estar afectado por los cambios que se realicen en las unidades de medida.
* Estas propiedades se cumplen para todos los números índice simples, pero no suelen cumplirse todas en los índices complejos.
Índices de Precios
- Índice simpe de precios:
- Índices complejos de precio sin ponderar
- Índice media aritmética de índices simples o Sauerbeck
- Índice media agregativa simple o Bradstreet-Dutot
- Índices complejos de precios ponderados:
- Índice de precios de Laspeyres:
- Índice de precios de Paasche:
- Índice de precios de Edgeworth:
- Índice de precios de Fisher: Es la media geométrica de los índices Laspeyres y Paasche
Índices Cuánticos o de cantidades
Propiedades que cumplen los índices complejos y ponderados de precios y cantidades
Índices en cadena
Cambio de base en una misma serie de números índices
Moda
0Es una medida de posición central que está fundamentada en las frecuencias de la distribución.
Dada una distribución NO unitaria llamamos Moda Absoluta que representamos por , al valor de la variable (o los valores) con mayor frecuencia absoluta. En el caso de existir dos, tres o más valores con la mayor frecuencia absoluta se dirá que es bimodal, trimodal o multimodal.
La moda en distribuciones NO unitarias y NO agrupadas
En este caso la determinación es inmediata ya que basta con observar la columna de frecuencias absolutas.
Dada una distribución NO unitaria llamamos Moda Relativa a aquel valor de la variable (o variables) cuya frecuencia absoluta no es superada por las de sus valores contiguos.La moda en distribuciones agrupadas en intervalos:
Para determinar la moda, se consideran 2 casos:
- Que los intervalos tengan todos una amplitud constante:
- Que los intervalos sean de amplitud variable:
Se calcula previamente la densidad de frecuencias:
Ventajas:
- Es la única medida de posición central que puede obtenerse en las variables de tipo cualitativo.
- Cálculo sencillo
- Fácil interpretación
Inconvenientes:
- No intervienen todos los valores de la distribución (caso de las medias), ni todas las frecuencias (caso de la mediana.
Mediana
0Dada una distribución de frecuencias con los valores ordenados de menor a mayor, llamamos Mediana y la representamos por al valor de la variable que deja a su izquierda el mismo número de frecuencias que a su derecha.
En distribuciones de tipo unitario:
- Frecuencia impar: La mediana es el valor central
- Ej:
- Ej:
- Frecuencia par: La mediana es la media aritmética de los 2 valores centrales.
- Ej:
- Ojo: Si la variable es de naturaleza discreta, la mediana no acepta decimales
(toma los dos valores)
- Ej:
En distribuciones NO unitarias y con valores NO agrupados en intervalos de clases:
Procedimiento:
Se calcula y se construye la columna de las
, a continuación se observa cuál es la primera
que supera o iguala a
, disinguiéndose dos casos:
- Si
, la mediana es el
que corresponde a ese
- Si
, la mediana es la media aritmética de
y el siguiente
, salvo que sea la distribución discreta, en cuyo caso la mediana tomaría los dos valores conjuntamente.
En distribuciones NO unitarias con los datos agrupados en clases:
Procedimiento: Seguimos el método de observar la columna de frecuencias acumuladas hasta encontrar un valor de que supere o iguale a
, distinguiéndose dos casos:
- Si
, el intervalo mediano será
que corresponde a ese
Para obtener el valor de la mediana al límite inferior del intervalo mediano hay que añadir la distancia d que es un trozo de la amplitud del intervalo:
- Si
En este caso se toma por convenio como mediana el límite superior del intervalo mediano.
Ventajas:
- Es la medida más representativa en el caso de variables que solo admiten la escala ordinal.
- Es una medida de posición central sencilla de calcular
- Fácil interpretación
- Solo influyen los valores centrales de la distribución y es insensible a los valores extremos
Inconvenientes:
- No intervienen todos los valores de la variable
Se convierte en ventaja cuando:
- Son desconocidos los valores exteriores
- Existe una enorme dispersión que invalidan las medias
Media Armonica
0Dada una distribución de ritmos de producción y las producciones de r entidades:
llamamos Media Armónica de aquellos a:
Ventajas:
- Esta definida de forma objetiva y es única.
- Su cálculo es sencillo.
- Intervienen todos los valores de la distribución.
- Es más representativa que las otras en los casos de obtener promedios en velocidades, rendimientos y productividades.
Inconvenientes:
- No debe usarse para valores de la variable muy pequeños ya que sis inversos pueden aumentar muchísimo haciendo despreciable frente a ellos la información de otros valores de
que sean mayores.
- No es posible calcularla cuando existen valores iguales a cero.
Media Geométrica
0Llamamos Media Geométrica de una distribución de frecuencias y la denotaremos por G a la raíz N-ésima del producto de los N valores observados:
- En Distribuciones unitarias:
- En distribuciones no unitarias (agrupadas o no):
Propiedades:
- El logaritmo de la media geométrica es igual a la media aritmética de los logaritmos de los valores de la variable:
Ventajas:
- Es más representativa que la media aritmética cuando la variable evoluciona de forma acumulativa con efectos multiplicativos.
- Esta definida de forma objetiva y es única, si existe.
- Tiene en cuenta en su cálculo todos los valores de la distribución.
- Los valores de los extremos tienen menor influencia por estar definida por productos en vez de sumas.
Inconvenientes:
- Cálculo más complicado que la media artimética.
- No puede determinar si algún
es cero o negativo.
Media Aritmética
0Llamamos Media Aritmética a la suma de todos los valores de la distribución dividida por el número total de observaciones.
- En distribuciones de tipo unitario:
- En distribuciones NO unitarias tanto agrupadas como no agrupadas:
Propiedades:
- Si a la variable estadística
la sometemos al mismo tiempo a un cambio de origen
y a un cambio de escala
mediante la transformación:
(siendo
y
constantes)
entonces resulta que:
- La suma de las desviaciones de los valores o datos a su media aritmética es cero:
- La suma de los cuadrados de las desviaciones de los valores observados unitarios respecto a una constante arbitraria C es mínima cuando esa constante C coincide con la media aritmética
:
mínimo cuando - Si el total de los datos u observaciones se estratifica en L grupos distintos, la media aritmética del total es una medida aritmética de las distintas medias de los estratos ponderados por el número de observaciones que tienen los mismos:
Ventajas:
- Es calculable en las variables de naturaleza cuantitativa.
- Para su cálculo se utilizan todos los valores de la distribución.
- Está perfectamente definida de forma objetiva y es única para cada distribución de frecuencias.
Inconvenientes:
- Es una medida de posición muy sensible a los extremos y si la dispersión es elevada pierde representatividad.
Medidas estadísticas
0-
MEDIDAS DE POSICIÓN CENTRALES
-
MEDIDAS DE POSICIÓN NO CENTRALES
- Cuantiles (Cuartiles, Deciles, Percentiles)
-
MOMENTOS
- Respecto al origen
- Respecto a la media aritmética
-
MEDIDAS DE DISPERSIÓN
- Absolutas
- Recorrido
- Recorrido intercuartílico
- Desviación absoluta media respecta a la media.
- Varianza
- Desviación típica
- Relativas
- Recorrido semiintercuartílico
- Coeficiente de variación de Pearson
- Absolutas
-
MEDIDAS DE ASIMETRÍA Y CURTOSIS
- Coeficiente de curtosis de Fisher
-
MEDIDAS DE CONCENTRACIÓN
- Índice de concentración de Gini y la curva de Lorentz
Conceptos fundamentales de Estadística
1- Estadística: Ciencia que estudia las “regularidades” que se observan en una serie de fenómenos que pueden expresarse a través de la información numérica.
- Población: Se entiende por población, universo o colectivo cualquier conjunto de personas, objetos, animales, plantas o entes en general que son portadores de una serie de características que nos interesa estudiar.
Las poblaciones se clasifican en finitas o infinitas. - Muestra: Llamamos muestra a todo subconjunto representativo de la población de forma que las conclusiones sacadas de aquella se generalizan a ésta.
- Atributo: Es toda característica poblacional no susceptible de ser medida numéricamente.
- Escalas nominales:
- Se utilizan para clasificar
- NO permiten relación de orden
- NO permite operaciones aritméticas
- Escala ordinal:
- Se utiliza cuando se admite una determinada producción
- Permite ordenar
- NO permite operaciones aritméticas
- Variables: Son las características poblacionales susceptibles de tomar valores numéricos.
Se les puede aplicar escalas de intervalos y de razón. - Escalas de intervalos:
- Permiten una unidad de medida y origen arbitrario
- Permite clasificar y ordenar
- Se permiten operaciones aritméticas
- Escalas de razón:
- Permiten unidades de medida y origen NO arbitrario
- Permite clasificar y ordenar
- Se permiten operaciones aritméticas
- Clasificación:
- Unidimensionales
- Bidimensionales
- Pluridimensionales
- *
- Discretas: Nº finito o infinito numerable
- Continuas: Nº infinito no numerable