La falacia de la regresión paso a paso

Los métodos de selección algorítmica del modelo se han concebido para identificar aquellas variables que habrán de integrar la función que a la postre será empleada como modelo resumen del proceso bajo estudio. El más popular es el que se conoce como regresión paso a paso –RPP- (stepwise method), susceptible de ser aplicado según diversas variantes. Basicamente, se van incorporando variables al modelo (forward selection), o se van eliminando variables de él (backward elimination). Virtualmente todos los grandes paquetes informáticos para el tratamiento estadístico de datos brindan la posibilidad de aplicar estas dos posibilidades.

La lógica subyacente de tal recurso consiste en conservar las variables independientes que contienen información relevante y a la vez  prescindir de aquellas que resulten redundantes respecto de las que quedaron en el modelo. Se trata de procedimientos de índole exclusivamente estadística, que discurren según algoritmos programables en los que, una vez elegido el conjunto inicial de variables, no intervienen los juicios teóricos de los investigadores .

Si este procedimiento se emplea para construir un modelo predictivo a través de un proceso acorde con el llamado “Principio de Parsimonia” (tratar de que figure la menor cantidad posible de variables), no hay objeción de peso al empleo de la RPP, ya que la predicción es un proceso para cuya valoración el único mecanismo de interés es estrictamente pragmático. Sin embargo, por lo general la RPP se usa para identificar los factores verdaderamente influyentes y no para construir modelos de predicción.

Tras la aplicación de la RPP, los  resultados suelen ser interpretados como sigue: las variables que se “quedan” dentro del modelo final son parcialmente responsables (quizá las principales y hasta las únicas responsables) de las modificaciones que experimenta la variable dependiente; las que no permanecen, no influyen causalmente en el proceso, o su influencia no es apreciable. En tal caso, la selección algorítmica de modelos se emplea con la aspiración de obtener de manera automática conclusiones explicativas sobre el proceso causal que estudian. La esperanza de que el uso de este procedimiento contribuya a "entender" o "explicar" la realidad es, en el mejor de los casos, estéril o quimérica; y, no con baja probabilidad,  contraproducente y descabellada.

 Ejemplo

Supongamos que un investigador estuviera interesado en conocer cuáles son los factores que verdaderamente influyen en el padecimiento de enfisema pulmonar antes de los 60 años de edad. Podría comenzarse con la elección de un conjunto de  variables presuntamente explicativas del proceso que se estudia, tales como las siguientes:

En ese punto, se realiza un estudio prospectivo mediante el cual se identifica a quienes desarrollan o no enfisema y aplicar entonces la regresión logística que, finalmente, se cierra aplicando una selección mediante RPP con la idea de establecer  cuáles de estas variables son las que tienen peso causal sobre la aparición de la dolencia (o cuáles son los factores que entrañan mayor riesgo de desarrollarla).

Los resultados se recogen en la base de datos volcada en el archivo Excel nombrado rpp ceremonial.xls Si se aplica un procedimiento de selección algorítmica, se tendrá el resultado de el grado de pigmentación en los dedos quedara incluido en el modelo y a la vez resultara excluida la condición de fumador. Esta era una posibilidad natural debido a la madeja de correlaciones que tienen estas dos variables con las restantes del modelo y a la asociación que tienen entre sí.

Si no fuera por la certeza que existe hoy de que el hábito de fumar es una práctica que favorece el enfisema pulmonar y de que la pigmentación de los dedos (inducida por el hábito) no guarda relación causal  con la dolencia  (ya que es obvio que si se inventara un jabón que borrara todo pigmento, ello no mejoraría las perspectivas que pudiera tener un fumador de evitar el enfisema), el investigador sería conducido por sus propias reglas de análisis a aseverar que la pigmentación de los dedos, por haberse mantenido en el "modelo final", es una causa o un factor de riesgo para esta entidad. Como es obvio, tal conclusión, lejos de iluminar el camino hacia el conocimiento de las verdaderas relaciones causales, lo ensombrecería.


Volver a Aplicaciones Estadísticas

Página inicial     Artículos Científicos       Libros publicados        Actividades docentes      Otros resultados