Errores frecuentes en la interpretación del coeficiente de determinación lineal

AutorElena Martínez Rodríguez
CargoReal Centro Universitario «Escorial-María Cristina» San Lorenzo del Escorial
Páginas317-331

Page 317

I Introducción

Una de las características de la realidad, sobre todo de la económica, es la relación que existe entre las distintas magnitudes que la definen. El análisis de la covariación entre variables, una Y, variable dependiente o endógena, y una o varias variables X, independientes o exógenas, supone obtener, en el caso de la regresión lineal, una ecuación lineal (o conjunto de ecuaciones lineales) que exprese la relación entre la variable endógena Y y las variables exógenas X. Se trata de encontrar la línea media que resuma o sintetice la dependencia entre la variable Y y las X, con la doble finalidad práctica de explicación o descripción causal de la variable dependiente y previsión de los valores futuros de Y para valores dados de X. Como línea media o medida de posición, debe acompañarse siempre de alguna medida de dispersión, que demuestre el grado en el que el promedio puede sustituir a las observaciones individuales de las que se obtuvo, esto es, que permita medir la bondad del ajuste realizado.

El desarrollo de la informática, la accesibilidad a ordenadores de gran potencia y a programas estadísticos y econométricos que facilitan los cálculos complejos han propiciado la generalización de los estudios de correlación y de regresión, incluso fuera del propio ámbito de la economía. De hecho, podemos encontrar Tesis Doctorales en las que el doctorando propone modelos de regresión para avalar las conclusiones de sus investigaciones, trabajos en los que los autores se valen de modelos de regresión para expresar la preferencia de los votantes o estudios clínicos en los que se intenta explicar la variación en la calidad de vida de los pacientes en función de las dosis tomadas de ciertos medicamentos.

El inconveniente de este uso generalizado lo encontramos cuando el investigador hace (generalmente por falta de un conocimiento más profundo) un mal uso de las medidas y técnicas de regresión. En este artículo pretendo poner de manifiesto de una manera sencilla, a través de ejemplos numéricos, algunos de los errores graves en el análisis de regresión a los que conduce la sola consideración del coeficiente de Page 318 determinación, denominado R², como medida del grado de fiabilidad o bondad del ajuste del modelo ajustado a un conjunto de datos.

En el capítulo segundo se hará una breve presentación de este coeficiente y de cuál es su interpretación. En los capítulos siguientes se abordan distintas situaciones en las que claramente una inadecuada interpretación de puede llevarnos a situaciones como mínimo paradójicas. En concreto, en el capítulo 3 se analizan los efectos que estructuras determinadas del conjunto de observaciones, no detectadas por R², pueden tener sobre las aplicaciones empíricas de las técnicas de regresión. El capítulo 4 recoge la importancia que tiene trabajar con un número adecuado de grados de libertad del modelo ajustado, separando los problemas derivados del tamaño muestral de los derivados del número de variables exógenas incluidas en el modelo. El objetivo del capítulo 5 es poner de manifiesto la inconsistencia de una práctica cada vez más generalizada: buscar modelos de regresión con valores de elevados. Por último, el capítulo 6 se dedica a conclusiones.

II Coeficiente de determinación: definición einterpretación

Si establecemos la hipótesis de que la mejor forma de describir la relación entre X e Y es mediante una línea recta, esto es:

(Fórmula en Documento Pdf)

el problema inmediato que surge es el obtener los valores numéricos de los parámetros (3X y (32, que determinan la ecuación lineal concreta que expresa la relación de Y con X.

(Fórmula en Documento Pdf)

Para ello acudimos a métodos de ajuste, básicamente el método de mínimos cuadrados 1, obteniendo un sistema de dos ecuaciones

(Fórmula en Documento Pdf) Page 319

(Fórmula en Documento Pdf)

que permiten estimar los parámetros de la relación.

Ahora bien, el carácter de línea «media», que discurre entre las observaciones y que trata de sintetizarlas, que adquiere esta ecuación de regresión, obliga a que se acompañe, como cualquier promedio, de medidas de dispersión que permitan conocer el grado en que la misma puede sustituir a las observaciones de las que se obtuvo.

Así, podemos definir una primera medida de la dispersión de las Y, observadas respecto a las «medias» Y, calculada como la suma media de desviaciones cuadráticas entre ambas variables:

(Fórmula en Documento Pdf)

expresión que recibe el nombre de varianza residual, ya que la diferencia

(Fórmula en Documento Pdf)

mide el error (e¡) que cometemos al «sustituir» el valor observado por el valor estimado o ajustado mediante la regresión. A este error se le denomina también residuo.

Valores elevados de esta varianza indican que los residuos son grandes, lo que significa que la línea de regresión estimada se aleja mucho de los valores observados y, por tanto, la ecuación es poco representativa. Cuando es pequeña, dicha representatividad es elevada.

Por definición, se trata de una cantidad positiva (como cualquier varianza) acotada superiormente por el valor de la varianza de la variable observada Y, esto es:

(Fórmula en Documento Pdf)

La cota superior es fácil de demostrar 2, ya que en el modelo de regresión lineal con ordenada se verifica la siguiente relación entre varianzas:

(Fórmula en Documento Pdf) Page 320

siendo (Fórmula en Documento Pdf) la varianza explicada por la regresión, y cuya expresión matemática es:

(Fórmula en Documento Pdf)

A partir de esta varianza podemos definir una medida de dispersión relativa para la ecuación de regresión, comparando la misma con la varianza total de Y. Así lo que conocemos como coeficiente de determinación lineal se define por la expresión:

(Fórmula en Documento Pdf)

También podemos definir las relaciones anteriores mediante sumas de cuadrados, de forma que

(Fórmula en Documento Pdf)

representa la variación total de los valores reales de Y respecto de su media muestral, recibiendo el nombre de suma total de cuadrados.

(Fórmula en Documento Pdf)

es la variación de los valores estimados de Y alrededor de su media, que se denomina suma de cuadrados debida a la regresión o explicada por la regresión. Y, por último,

(Fórmula en Documento Pdf)

es la variación residual o no explicada de los valores de Y alrededor de la recta de regresión, y que se conoce como suma de residuos...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR