lunes, 17 de agosto de 2009

Los beneficios del cigarrillo (usos y abusos de la Econometría)

Aunque no fumo, para mí eso de que el cigarrillo hace mal a la salud es pura bazofia. Y para mostrarles que tengo razón, voy a recurrir a la herramienta más precisa, robusta y convincente a la hora de estimar un impacto causal: la regresión lineal bivariada. Tomé datos de una encuesta que preguntaba a las personas si fuman o no, y 20 años después se fijaba si los encuestados seguían vivos. Listo! regreso la variable “muerto”, que indica si el individuo murió o no, contra la variable “fuma” (que, obviamente, indica si fuma o no), y si encuentro un coeficiente negativo, estoy. Los resultados (hacer click para agrandar):




Ven?? Tenía razón!! El coeficiente de la variable “fuma” es negativo y significativo, por ende, fumar reduce la probabilidad de muerte. Q.E.D.

Sam? Bernard? Algún comentario? Cómo? Los qué? Ah…controles, hay que poner? Ok, pero solo tengo unas dummies por categoría de edad…bueno, a ver qué pasa:



Uuuhhhh…. y ahora?

Hablando un poco más en serio: el coeficiente de una regresión lineal señala únicamente una correlación. En el caso de la primera regresión, lo que dice es: la gente que fuma tiene en promedio una menor probabilidad de muerte. Obviamente! Porque los que fuman son, en promedio, más jóvenes! Por esto, al controlar por edad, el signo del coeficiente se da vuelta.
Muchas veces una correlación puede ser un parámetro interesante (como bien comenta Iván en este post de Sam), pero creo que acá hay un claro ejemplo de que cuando uno quiere estimar un impacto causal la cosa no es tan sencilla. Obviamente, nadie espera que un post encuentre evidencia convincente de una relación causal, pero tampoco parece correcto ir para el otro extremo y mostrar cualquier regresión solo porque convalide una hipótesis que nos gusta.

P.D.: ok, la regresión que muestro tampoco es un modelo demasiado riguroso de evaluación de impacto, y alguien podría discutirme con un argumento un poco gödeliano: se puede criticar la berretonomics usando berretonomics? Bueno, mi objetivo solamente era mostrar un ejemplo simple…

27 comentarios:

Anónimo dijo...

que buen post!

Frank Pentangeli dijo...

Excelente Victor!!

Anónimo dijo...

Excelente! Una más en la larga lista de motivos por los cuales usar regresiones para todo está fundamentalmente MAL. (por cierto la inferencia causal es una disciplina bizarrisima y fascinante)

Q

TDP dijo...

Muy bueno, Víctor! La verdad que muy bueno y muy bien organizado el post.

Anónimo dijo...

Buenas,

desde la ignorancia pregunto (no estudio economía y nunca vi estadística), pero uno de los problemas de las regresiones simples es que no muestra series en el tiempo y que toma solo dos variables?

Gracias,

N.

Anónimo dijo...

Buenas,

desde la ignorancia pregunto (no estudio economía y nunca vi estadística), pero uno de los problemas de las regresiones simples es que no muestra series en el tiempo y que toma solo dos variables?

Gracias,

N.

Bernard L. Madoff dijo...

Excelente post Victor!
Como el fútbol que pregonás: cortito y al pie!

Victor Lustig dijo...

Gracias por los comentarios. Coincido con Q en que la inferencia causal es una de las ramas más interesantes de la Estadística y la Econometría.
@ N: Qué pregunta compleja! Voy a tratar de dar mi opinión lo más brevemente posible. Creo que el problema no está en la propia regresión sino en la interpretación que uno da a los resultados. Una regresión es una herramienta para calcular correlaciones. El tema es que muchas veces uno se ve tentado a interpretar estas correlaciones como vínculos causales (falacia de correlación), lo cual puede llevar a conclusiones que van desde lo impreciso hasta lo ridículo (como en este ejemplo). En algunos casos, principalmente en diseños experimentales, las regresiones bivariadas pueden ser suficientes, pero en general suelen informar poco y nada de relaciones causales, lo cual no necesariamente quiere decir que tengan "problemas" sino que hay que ser sumamente cuidadoso en la manera de interpretar los resultados.

Anónimo dijo...

@N: el problema no es la cantidad de variables, sino la elección misma de las variables.
En el fondo la pregunta sobre si fumar es bueno o no se puede contestar de una sola manera: agarrando a un tipo, obligándolo a fumar, ver qué le pasa; luego volver en el tiempo, y ver qué le pasa cuando se lo obliga a no fumar. Por supuesto, este contrafactual es imposible de observar.
Entonces lo que uno querría hacer, como second-best, es clonar al tipo, y hacer que una copia fume y la otra no. Eso tampoco se puede, entonces lo que uno intenta es buscar personas que se parezcan y asignarlas a cada opción. En ese buscar que personas se parezcan es que aparecen los controles, en este caso buscar personas que tengan la misma edad, o el mismo tipo de enfermedades pulmonares, etc. Hasta acá, cuantas más variables de "control", mejor.
Pero en realidad el problema es un poco más complejo, porque, igual que algunos controles evitan el ruido que no querés (por ejemplo, querés eliminar la correlación entre fumar y morir que *pasa* a través de la edad [o sea, ser viejo te hace fumar menos y morir más, o lo que es lo mismo, hay más fumadores entre los jóvenes que entre los viejos y más muertos entre los viejos que entre los jóvenes]), otros controles te pueden aumentar el ruido, y hay toda una disciplina que se encarga de determinar bajo qué condiciones una variable es buena para controlar o no.

Q

Bernard L. Madoff dijo...

Muy bueno Q!

Sin embargo, los problemas más interesantes se dan cuando no podemos utilizar variables control porque:
a) no las tenemos: por ejemplo quiero saber cómo impactan los años de educación en el salario, pero no tengo una medida del nivel de "inteligencia" de la gente.
b) directamente no las conocemos: en el ejemplo de fumar, ¿cuántas otras cosas pueden estar afectando la salud de la gente no a través de la nicotina del cigarrillo sino a través de los hábitos o características de los fumadores? Quizás los fumadores son insanos per se, gente propensa a las adicciones y por ende tiene a priori menor esperanza de vida. Quizás el hábito de fumar mejore la autoestima del fumador a través de la imagen que se hace la sociedad del "fumador canchero" y por ende tenga un efecto positivo sobre la salud.

Respecto a este segundo punto hay un método muy interesante que se llama variables instrumentales. Si lo que interesa es aislar el efecto directo del cigarrillo, deberíamos buscar una variable asociada al fumar pero que no impacte en la salud. Por ejemplo, si se pudiera demostrar que la gente creyente fuma menos (por moral religiosa) pero que el hecho de profesar una religión no incida en la salud por otros medios, podríamos intentar aislar esta relación religión-fumar para encontrar el efecto directo del cigarrillo en la salud.

Bueno, esa es otra historia, y calculo que ahora Q me saldrá a discutir qué pasa con la precisión de la estimación, a lo cual le responderé: tiene razón, disculpe.

Un saludo y buen post Victor!

Anónimo dijo...

@Bernard: gracias por los halagos :)
Sobre el punto (b) tenés toda la razón, y como no sé nada de IVs no voy a decir nada, pero sobre el punto (a) hay resultados que son muy fuertes.
En causalidad se estudia una clase de grafos (DAGs) que te pueden ayudar a tener conclusiones *aún* si no tenés todas las variables. O sea, te dan condiciones "si y sólo si" de identificación de contrafactuales, y cuando no están identificados te permite calcular cotas para el efecto, lo que es muy zarpado.
Claro que como contrapartida a veces puede ser más difícil tener el DAG que la pregunta original. Gages del oficio

Q

Bernard L. Madoff dijo...

Interesantísimo lo de los grafos.¿Qué otras aplicaciones tiene la teoría de grafos?

Hace poco vi una aplicación para la economía de Fernando Tohmé, un microeconomista amigo de un miembro del blog, que utiliza grafos y teoría de juegos para modelar el pensamiento estratégico de distintas partes en un juicio a la hora de presentar argumentos y contraargumentos. Un día de estos pensaba colgar un post al respecto.

Victor Lustig dijo...

Totalmente de acuerdo con Bernard, muy interesante lo de los grafos.
Creo que al pensar en el problema de variables inobservables los economistas tenemos en mente otras metodologías bastante distintas (datos en panel, diferencias en diferencias, IV, regresión discontinua), pero nunca se me hubiera cruzado por la cabeza que se puede aplicar la Teoría de Grafos al estudio de causalidad.

Bernard L. Madoff dijo...

Lo que pasa es que nosotros aprendemos todo al revés. No hay nada más intuitivo que pensar que una causalidad es una flechita.

Anónimo dijo...

Gracias por las respuestas y perdonen por haber mandado el mimsmo comentario dos veces.


Salu2,

N.

Bernard L. Madoff dijo...

La política de perdones la maneja Frank, hablá con él. Por mí esta OK.

Tincho dijo...

El claro ejemplo de la Paradoja de Simpson. Sesgo por variables omitidas.

Eso si muchachos, la econometria para estimar y lo demas es todo teoria (rosca). La economatria es una mera herramienta que no es la clave de nada. Desde el dia que me dijieron que la unica forma de estar medianamente seguro de que no hay sesgos de omision es partiendo de un modelo teorico correcto dije "a bueeh...". Econometria, ok, pero no me vengan con una regresion a cantarme la justa.

Anónimo dijo...

Efectivamente. Si el modelo es el correcto, por definicion, no puede haber un sesgo de omisión de variables.

Nadie te puede cantar la justa con la econometría o la estadistica. En este blog nos cansamos de decir que con la econometría no se puede demostrar nada. Es una herramienta muy poderosa a la que los economistas, usandola bien, podemos extraer una gran utilidad.

Saludos
Frank

Carlito dijo...

Sobre Variables IV, bastante completo, una nota de The Economist.

Saludos!

http://www.economist.com/businessfinance/displaystory.cfm?story_id=14210799

Bernard L. Madoff dijo...

Jaja, muy bueno cómo llaman en el artículo a la literatura de IV's: IV League.

Bernard L. Madoff dijo...

Aludiendo a esto, claro está:
http://es.wikipedia.org/wiki/Ivy_League

Victor Lustig dijo...

@ Tincho: no estoy del todo de acuerdo. Primero, porque creo que lo único que hacés con el modelo teórico es llevar el problema un paso antes: dado el modelo, la regresión está "bien", pero qué te asegura que el modelo esté "bien"?
Para mí hay dos enfoques en econometría, uno más "estructural", que tal vez se usa más en ramas como la Organización Industrial, y otro más "ateórico", que muchas veces se usa en ramas como Laboral, Salud, Educación, Crimen, etc. Me parece que no hay ninguno que sea definitivamente mejor que el otro.
También creo que depende del tipo de herramientas que estés usando. Cuando usás métodos como regresión lineal, propensity score matching o heckman (selección en observables) es importante tener claro cuáles son las variables por las que tenés que controlar, y ahí la teoría puede ser muy importante, mientras que cuando usás métodos como panel data, IV o regresión discontinua(selección en inobservables) no sé si es tan obvio.
Igual, obviamente, ni la teoría es lo único importante ni es irrelevante. No podés ir tirando regresiones a lo loco por todos lados, pero tampoco creo que tengas que tener un modelo estructural cada vez que querés estimar un impacto causal.
Bueno, son algunas ideas tiradas medio aleatoriamente pensado poco, y me estoy extendiendo demasiado. Me parece que es un tema muy interesante que da para hablar mucho.
Saludos

Anónimo dijo...

Si tenés un buen experimento aleatorio la teoría te la podés meter sabés dónde, ¿no?

Anónimo dijo...

@Tincho+Victor: claro, pero el problema es que la paradoja de Simpson *NO* se soluciona agregando todas las variables posibles. Sencillamente, lo que ocurre en la paradoja de Simpson es que uno está omitiendo el efecto de una variable que causa simultaneamente a la original (fumar) y al resultado (morir). Esto en causalidad se llama que "fumar" tiene liberado un back-door path hacia "morir". El problema cuando uno condiciona en cualquier cosa es que eso en lo que está condicionando no necesariamente era una variable en el camino "back-door" y en ese caso no mejorás en nada tu estimación. O peor, en algunos casos -por ejemplo lo que se conoce como condicionar en un nodo "fork"- se te puede filtrar información, o sea, puede ser que pierdas independencias con otras variables al condicionar, que es lo que querés evitar (vos querés evitar el ruido y querés aislar la flecha que va de "fumar" a "morir"). Por ejemplo, condicionar en un fork puede ser lo siguiente: tenés tres variables, X, Y y Z. X es independiente de Y, pero Z es causada por las dos, por ejemplo Z = X+Y. Entonces qué pasa? Si en vez de mirar las distribuciones originales, mirás las distribuciones pero condicionando en la variable Z, vas a encontrar correlación entre X e Y, porque entre los que tienen un mismo valor de Z, Y está totalmente determinada por X (Y = Z-X); y si condicionás en rangos de Z (tipo propensity score) vas a encontrar correlación negativa entre X e Y. Todo eso pese a que al principio X e Y no tenían absolutamente nada que ver!

Q

Anónimo dijo...

(soy un sacado perdónenme lo largo!)

Frank Sinatra dijo...

Clarisimo. Muy buen post Victor.

Igual la tentacion de hacer berretonomics es enorme! Simplemente porque el costo de un buen post, parece demasiado en terminos de investigacion...

Seguro que para Angrist no... pero los mortales hacemos lo que podemos.

Frank Sinatra dijo...

Clarisimo. Muy buen post Victor.

Igual la tentacion de hacer berretonomics es enorme! Simplemente porque el costo de un buen post, parece demasiado en terminos de investigacion...

Seguro que para Angrist no... pero los mortales hacemos lo que podemos.