Selección de variables en el modelo lineal: nuevos procedimientos

AutorAgustín Alonso Rodríguez
CargoReal Centro Universitario «Escorial-María Cristina» San Lorenzo del Escorial
Páginas295-314

Page 295

I Introducción

En la Era de la Información en que nos encontramos inmersos, la acumulación de datos reviste tales proporciones que los métodos de selección de variables en el Modelo Lineal siguen siendo motivo de creciente interés e investigación.

Como ejemplo de lo dicho, cabe aducir que uno de los últimos números del Annals of Statistics, en concreto el de abril de 2004, se abre con un largo artículo de casi cien páginas, dedicado al tema, con el título: Least Angle Regression. El artículo va seguido de un debate sobre los pros y contras de lo allí expuesto, realizado con la colaboración de expertos en el tema.

En este trabajo de carácter expositivo se hace una breve presentación del estado actual de la cuestión, cerrándose con un ejemplo que ilustra la aplicación del nuevo enfoque.

II Razones para la selección de variables

Con la abundancia de posibles predictores en los modelos de regresión, que la acumulación de información actual permite, se hace necesario un método automático de selección de variables en vistas al establecimiento de un modelo sencillo, que logre la predicción o explicación de la variable respuesta, junto a una estimación eficiente de los coeficientes.

El llamado Principio de Parsimonia, nos lleva a que un modelo, cuanto más simple, mejor. Mejor desde el punto de vista de la comprensión del fenómeno en estudio, y mejor también, porque predictores redundantes afectan a la precisión de las estimaciones de los coeficientes. Este último aspecto es verdaderamente importante en el caso de variables correlacionadas, una realidad a tener presente en los datos económicos. Page 296

No obstante hay que recalcar que la simplificación de un modelo no puede hacerse al margen del objetivo o finalidad del mismo, ni del análisis global de los resultados.

III Métodos de selección de variables

Resumiendo mucho, cabe afirmar que tres son los principales métodos de selección de variables en un modelo, a saber: el método manual, el automático y una combinación de ambos.

El método manual es el realizado por el experto, tanto en el ámbito de la estadística como en el de la propia especialidad.

El automático se ha plasmado en los tres métodos básicos siguientes: All subsets regressions; Backward elimination y Forward selection. El objetivo en los tres métodos es el mismo: el establecimiento de un modelo que sobre la base de un mismo conjunto de datos sea parsimonioso y, a la vez, eficiente en la estimación de los coeficientes y en la predicción ajustada de la variable respuesta.

Cada uno de estos procedimientos realiza su función por etapas, utilizando un determinado criterio para decidir sobre la inclusión o exclusión de una determinada variable, así como para determinar el momento de finalizar el proceso.

La crítica generalizada a los procedimientos no manuales, se centra en su automatismo y en el hecho de buscar el modelo óptimo sobre la base de criterios exclusivamente estadísticos, que pueden hacer olvidar la finalidad del modelo.

Cuando se resalta el objetivo del modelo, el énfasis se pone en la bondad del ajuste, o sea, en la precisión con la que se alcanza el objetivo. Aquí tienen cabida criterios como el, R², R², AIC, BIC, y el Cp de Mallows.

Recientemente se han desarrollado otros procedimientos, que bajo las siglas LARS engloba los algoritmos siguientes:

* Lasso: Least absolute shrinkage and selection operator,

* Stagewise: Forward Stagewise linear regression, y

* LAR: Least angle regression. Page 297

El nombre LARS es consecuencia del hecho de que el algoritmo en LAR, debidamente modificado, se transforma en el Lasso y en el Stagewise, y esta relación se resalta con la S añadida a LAR.

LARS es pues un nuevo procedimiento que se encuadra en el enfoque forward antes mencionado, pero con la particularidad de que se procede por etapas mínimas, y no por saltos, como en el tradicional. Otra peculiaridad de LARS es la de su mínimo coste, en términos computativos, ya que es el equivalente al ajuste de un modelo por mínimos cuadrados.

LARS describe Lasso como un procedimiento Stagewise por etapas. Comenzando en cero coeficientes, Lasso actualiza las estimaciones hasta terminar con el ajuste de mínimos cuadrados de todos los coeficientes, siendo lineal, por segmentos, en las sucesivas etapas. La actualización se realiza en la dirección equiangular, como se describe en Efron et al.(2004), página 412.

Desde el punto de vista del procedimiento hacia adelante por etapas (forward stagewise) el número de etapas es el metaparámetro, que establece la complejidad del modelo. En Efron et al. (2004) se muestra que bajo determinadas condiciones (condición del cono positivo) los grados de libertad de LARS (df: degrees of freedom, en español: gl) coincide con el número de etapas, es decir

gi(yk) = k [1]

siendo yk el ajuste en la késima etapa.

Mientras Lasso y LARS coincidan en la condición del cono positivo, la formula en (1) también es válida para Lasso, si bien, en general, no es así, pues en Lasso el número de etapas puede que supere al número de predictores. Por esta razón, en Efron et al. (2004), se establecía como conjetura que los grados de libertad vienen aproximados por el número de predictores distintos de cero.

En una investigación posterior realizada por Zou et al. (2004), se profundiza en esta conjetura, para demostrar que los grados de libertad de Lasso, en el enfoque de Stein (1981), para la estimación insesgada del riesgo (SURE), el número de coeficientes distintos de cero es un estimador insesgado de los grados de libertad de Lasso, conclusión que no requiere especiales supuestos sobre los predictores. Page 298 Como aplicación, en este artículo de Zou et al., se pasan revista a los criterios Cp, AIC y BIC, que en conjunción con el algoritmo LARS establecen un método eficiente para obtener el ajuste Lasso, con el esfuerzo computacional de un único ajuste mínimo cuadrático. El BIC-lasso se propone como el criterio a tener presente en el proceso de selección de variables.

IV El algoritmo LARS

Como se ha indicado, LARS es un nuevo algoritmo para la selección de variables, menos agresivo que el tradicional forward selection. Además, presenta las siguientes ventajas:

  1. con una simple modificación, se obtiene el algoritmo Lasso, una versión atractiva de los mínimos cuadrados ordinarios (MCO), basada en la suma de los valores absolutos de los coeficientes. Esta modificación de LARS calcula todos los Lasso posibles en un tiempo inferior al de los anteriores métodos;

  2. una modificación diferente de LARS implementa el procedimiento Forward Stagewise;

  3. obtiene una aproximación a los grados de libertad, a partir de los cuales se obtiene el estadístico Cp de Mallows (1973), una estimación del error cuadrático medio de la predicción, que permite seleccionar modelos;

  4. es computacionalmente eficiente, pues requiere el mismo esfuerzo que se exige para estimar un modelo por mínimos cuadrados;

  5. por último, el algoritmo es de dominio público, y se encuentra implementado en los programas estadísticos R y S-PLUS.

V El procedimiento Forward

LARS se encuadra dentro del enfoque de selección hacia adelante, si...

Para continuar leyendo

Solicita tu prueba

VLEX utiliza cookies de inicio de sesión para aportarte una mejor experiencia de navegación. Si haces click en 'Aceptar' o continúas navegando por esta web consideramos que aceptas nuestra política de cookies. ACEPTAR