Econometría
Multicolinealidad
0Cuando hay una relación lineal exacta entre las variables explicativas X incluidas en una regresión múltiple, se dice, que existe multicolinealidad.
En los casos de relaciones lineales perfectas, o multicolinealidad perfecta, entre variables explicativas, no podemos obtener estimaciones únicas de todos los parámetros. Y, puesto que no podemos obtener sus estimaciones únicas, no podemos extraer ninguna inferencia estadística sobre las estimaciones lineales a partir de determinada muestra.
El caso de multicolinealidad perfecta es muy infrecuente, sin embargo, es más habitual los casos de casi multicolinealidad o multicolinealidad imperfecta. A partir de ahora, consideramos el concepto de multicolinealidad como multicolinealidad imperfecta.
Consecuencias teóricas de la multicolinealidad
- Con multicolinealidad los estimadores MCO son insesgados. Pero la insesgadez es una propiedad de muestras repetidas.
- La casi colinealidad no destruye la propiedad de varianza mínima de los estimadores MCO, sin embargo, la varianza mínima no significa que el valor numérico de la varianza sea pequeño.
- La multicolinealidad es esencialmente un fenómeno muestral.
Consecuencias prácticas de la multicolinealidad
- Grandes varianzas y errores estándar de los estimadores MCO
- Mayores intervalos de confianza
- Ratios t insignificativos
- Un elevado R² pero pocas ratios t significativas
- Los estimadores MCO y sus errores estándar se hacen muy sensibles a las pequeñas variaciones en los datos, es decir, tienden a ser inestables.
- Signos equivocados en los coeficientes de la regresión
- Dificultad para valorar las contribuciones individuales de las variables explicativas a la suma explicada o a R²
Detección de la multicolinealidad
La multicolinealidad es una cuestión de grados y es un fenómeno específico de la muestra. Para detectar la multicolinealidad no hacemos pruebas, lo que tenemos son unos indicadores sobre la existencia de multicolinealiadad. Algunos de estos indicadores son:
- Elevado R² y pocas ratios t significativas
- Elevadas correlaciones por pares entre las variables explicativas
- Examen de las correlaciones parciales
- Regresiones auxiliares o subsidiarias
- El factor de inflación de la varianza
Medidas correctivas
Si la muestra en concreto es problemática, no hay mucho que hacer. De todas formas existen varios remedios al problema:
- Eliminación de una o varias variables del modelo: Puede parecer la solución más sencilla, sin embargo, puede generar un error de especificación del modelo. No se debe eliminar una variable de un modelo econométrico viable, sólo porque el problema de colinealidad sea grave.
- Recopilación de datos adicionales o de una nueva muestra: Siempre que sea posible, la obtención de una nueva muestra o ampliar la muestra obteniendo datos adicionales, puede reducir la gravedad de la multicolinealidad.
- Replanteamiento del modelo: Es posible que se hayan omitido algunas variables importantes o tal vez se haya elegido incorrectamente la forma funcional del modelo.
- Información anterior sobre algunos parámetros: Es posible que de estudios anteriores obtengamos cierto conocimiento sobre los valores de uno o más parámetros, pero debemos suponer que la información anterior sigue cumpliéndose en la muestra que estamos estudiando.
- Transformación de variables: En ocasiones la transformación de las varables incluidas en el modelo puede minimizar, incluso resolver, el problema de la colinealidad, aunque no hay garantías de que esto siempre resulte útil.
Otras soluciones:
- Combinación de datos de series temporales y de sección cruzada
- Análisis de factores o componentes principales
- Regresión de protuberancias
Variables dummy en modelos de regresión
0Las variables dummy son variables cualitativas, tambien conocidas como indicativas, binarias, categóricas y dicotómicas. Sólo pueden asumir los valores 0 y 1, indicando respectivamente ausencia o presencia de una cualidad o atributo.
Para distinguirlas de las tradicionales X, representaremos las variables dummy con el símbolo D.
Los modelos de regresión que incluyen variables dummy se distinguen en…
- Modelos de análisis de la varianza (ANOVA), si sólo esta compuesta de variables explicativas cualitativas.
- Modelos de análisis de la covarianza (ANCOVA), si incluyen una combinación de variables cuantitativas y cualitativas.
Modelos ANOVA
Son modelos que solo incluyen variables explicativas.
Interpretación:
- El coeficiente del punto de corte
mide el valor medio de la variable dependiente de la categoría base o de referencia, es decir, para la que la variable dummy asume el valor 0.
- El coeficiente
, no es una pendiente porque no hay una línea de regresión contínua. Se le llama coeficiente del punto de corte diferencial, porque mide la diferencia del punto de corte entre las dos categorías.
- Podemos contrastar la hipótesis nula que no hay diferencia en el valor medio de la variable dependiente entre las dos categorías:
, averiguando si el estimador
es o no estadístivamente significativo.
Nota:
- Si el modelo tiene un punto de corte común
, y si la variable cualitativa tiene m categorías, sólo hay que introducir
variables dummy. El no seguir esta regla caeríamos en la trampa de la variable dummy, tendremos una situación de multicolinealidad.
Modelos ANCOVA
Son una ampliación directa de los modelos ANOVA, porque incluyen variables de control, es decir, variables explicativas cuantitativas que controlan estadísticamente los efectos de las variables dummy.
Regresión sobre una variable cuantitativa y una variable cualitativa con dos categorías
Interpretación:
: Punto de corte común
: Punto de corte diferencial
: Manteniendo constante las diferencias entre las categorías, mide la variación de
para una variación de
, se le conoce como propensión marginal.
Regresión sobre una variable cuantitativa y una variable cualitativa con más de dos categorías o clases
Este ejemplo tiene una variable cualitativa con 3 categorías y para evitar la trampa de la variable dummy hemos incluido 2 variables dummy, cuyos valores para distinguir las distintas categorías son los siguientes:
- Categoría 1:
- Categoría 2:
- Categoría 3:
Interpretación:
: Punto de corte común, mide el valor medio de la variable dependiente para la categoría de referencia, en este caso la categoría 1.
: Puntos de corte diferenciales
: Es la pendiente de las regresiones derivadas y mide la propensión marginal, es decir, la variación de la variable dependiente para un cambio unitario en la variable de control, independientemente de la categoría.
Regresión sobre una variable cuantitativa y más de una variable cualitativa
La interpretación es similar al caso anterior, teniendo en cuenta que ahora tenemos 2 variables cualitativas distintas con 2 categorías cada una y en el caso anterior teníamos 1 variable cualitativa con 3 categorías, representada con 2 variables dummy.
Efectos de interacción:
Interpretación:
- El dummy
, se le conoce como variable dummy de interacción, mide el efecto conjunto o multiplicativo de dos variables cualitativas
- El coeficiente $B_4$ mide el efecto diferencial conjunto de las dos variables cualitativas.
- Dependiendo de la significatividad estadística del coeficiente
, podemos determinar si hay o no efecto de interacción.
Comparación de dos regresiones:
Analizamos este modelo para estudiar la posibilidad que los coeficientes de la pendiente difieran entre distintas categorías.
Interpretación:
: Coeficiente del punto de corte diferencial
: Coeficiente de la pendiente diferencial, mide la diferencia del coeficiente de la variable de control entre dos categorías.
: Muestra el valor medio de
para la categoría que recibe el valor 1 cuando
: Es el coeficiente de la variable de control para la categoría que recibe el valor 1 de la variable dummy.
- En función de la significatividad estadística del punto de corte diferencia
, y del coeficiente de la pendiente diferencial
, podemos pensar en cuatro posibilidades:
- Regresiones coincidentes: Cuando no hay diferencias ni en los coeficientes del punto de corte ni de las pendientes.
- Regresiones paralelas: Las pendientes son iguales, pero los puntos de corte son distintos.
- Regresiones concurrentes: Los puntos de corte son iguales, pero las pendientes son distintas.
- Regresiones disímiles: Tanto los puntos de corte como las pendientes son distintos.

Criterios y tests para la selección de un modelo econométrico
0Características de un buen modelo
- Frugalidad: Hay que mantener el modelo lo más sencillo posible.
- Identificabilidad: Los parámetros estimados deben tener valores únicos.
- Bondad del ajuste: Se juzga si un modelo es bueno si el grado de explicación, por ejemplo, medido por el R² ajustado es lo más elevado posible.
- Coherencia teórica: Al construir un modelo debemos tener cierta base teórica.
- Poder de predicción: Elegiremos el modelo cuyas predicciones teóricas están respaldadas por la experiencia real.
Errores de especificación
Se produce un error de especificación cuando, en vez de estimar el modelo correcto, estimamos otro modelo. Los principales errores de especificación son: Omisión de variables relevantes, Inclusión de variables innecesarias, Adopción de la forma funcional errónea y Errores de medición. También suponen errores de especificación el incumplimiento de uno o más de los supuestos simplificadores del Modelo de Regresión Lineal Clásico (Ausencia de autocorrelación, Homoscedasticidad…)
Tipos de errores y sus consecuencias
Infra-ajuste del modelo
- Los estimadores estan sesgados, es decir, sus valores medios no coinciden con sus auténticos valores.
- Los estimadores son inconsistentes, es decir, independientemente del tamaño muestral, el sesgo no desaparecerá.
- El estimador de la auténtica varianza del error es sesgado.
- La varianza de los estimadores de los parámetros son sesgados.
- Los procedimientos de definición de intervalo de confianza y de contrastación de hipótesis no son fiables.
Sobre-ajuste del modelo
- Los estimadores de los parámetros y los de sus varianzas son insesgados y los metodos de contrastación son válidos, pero…
- Los estimadores son ineficientes, es decir, sus varianzas serán mayores que los estimadores del modelo correcto, por lo que los auténticos coeficientes no serán estimados con la misma precisión que si se hubieran estimado con el modelo correcto.
Forma funcional incorrecta
- Los estimadores de los coeficientes pueden ser sesgados.
Errores de medición…
…en la variable dependiente
- Los estimadores de los coeficientes y los de sus varianzas son insesgados, pero…
- Los estimadores son ineficientes, sus varianzas son mayores que en el caso en que no hay errores de medición.
… en las variables explicativas
- Los estimadores están sesgados
- Los estimadores son inconsistentes
Tests de los errores de especificación
La cuestión práctica es detectar si hemos cometido un error, una vez detectado la solución suele plantearse por si misma.
Detección de la existencia de variables innecesarias
- Test de t: Para averiguar si una variable realmente pertenece al modelo, podemos contrastar la significatividad del estimador del coeficiente de dicha variable. Bajo la hipótesis nula de que el estimador es igual a cero, si el valor calculado de la t no supera el valor crítico al nivel de significatividad elegido, no rechazamos la hipotesis nula, por tanto, la variable pertenece probablemente al modelo.
- Test de la F: Para comprobar si dos variables juntas son relevantes o no, tenemos que contrastar la hipotesis nula de que ambos estimadores valen cero. Para ello debemos calcular el valor de la F usando las R² de los dos modelos, uno que incluya las dos variables “sospechosas” y otro que no las incluya, finalmente comparamos el resultado con su valor crítico.
Test sobre variables omitidas y formas funcionales incorrectas
- Análisis de los residuos: La representación gráfica de los residuos puede revelar errores de especificación, como la omisión de una variable importante o una forma funcional incorrecta. También es una herramienta útil para diagnosticar la heteroscedasticidad y la autocorrelación.
- Test Mackinon-White-Davidson: Se utiliza para ver si una especificación de un modelo de regresión lineal es mejor que la de un modelo lineal en logarítmos.
- Test RESET de Ramsey: Es un test general para detectar la omisión de variables y la elección de una forma funcional incorrecta. Su ventaja es que es fácil de utilizar con el inconveniente que no ofrece un modelo alternativo si resulta que el modelo está mal especificado.
- Otros: Test de Wald, Test del multiplicador de Lagrange, Test de Hausman y las transformaciones Box-Cox