Estudiar la incertidumbre para convivir con ella (2)

Entrada conjunta con Eva Ferreira.

En la primera parte de este artículo repasábamos la historia de la estadística y terminábamos una referencia a los abusos de la estadística y a las reglas para interpretar un artículo científico. En esta segunda nos centramos en cómo usar el p-valor y no abusar de él.

Bell curve v1 CUno de los valores más utilizados para sustentar conclusiones es el p-valor, la probabilidad de que el resultado obtenido se haya dado siendo la hipótesis de partida cierta. Es habitual que, cuando este valor es muy pequeño, hagamos la interpretación de la significatividad del parámetro apelando a nuestro conocimiento previo del problema. Esto es algo que sucede de forma recurrente en estudios que analizan diferencias entre mujeres y hombres, desde puntos de vistas diferentes.

Un ejemplo muy ilustrativo y sencillo lo tenemos en los resultados de encuestas sobre actividad sexual. Cuando en las encuestas oficiales se pregunta a hombres y mujeres heterosexuales por el número de parejas diferentes que han tenido a lo largo de la vida la respuesta media es significativamente mayor para hombres que para mujeres. Dicho en otros términos, el p-valor que estima la probabilidad de que la diferencia real sea nula, dada la muestra, queda muy por debajo del 5% o del 1%, valores de referencia en gran parte de los contrastes de hipótesis.

Sin embargo, este es un caso claro donde, sin necesidad de hacer una encuesta, la media poblacional debe ser casi la misma, puesto que el número de mujeres es prácticamente el mismo que de hombres. Pruebe el lector a explicar ante una audiencia que el número de parejas heterosexuales en hombres y mujeres debe ser más o menos la misma -y que por tanto las encuestas deben contener alguna fuente de error- y obtendrá respuestas que tratarán de racionalizar la diferencia antes que conceder que no puede haberla. Todo esto a pesar de que, como todo el mundo sabe, it takes two to tango.

El p-valor funciona en condiciones de laboratorio, muestras perfectamente representativas, distribuciones conocidas, situación de dependencia controlada, parámetros conocidos. En el momento en que alguna de las condiciones falla, los resultados o son asintóticos, o simplemente las probabilidades estarán distorsionadas y el error tipo I no será el que creemos. En el ejemplo anterior, las causas de las diferencias muestrales son fundamentalmente una infraestimación de la prostitución (aquí) y las diferencias en la forma de memoria a largo plazo (aquí). Las razones del mantenimiento de la creencia en que los hombres tienen más parejas son más complicadas. Una hipótesis puede ser que confundamos el que los hombres busquen activamente más parejas con el que las encuentren.

Otro caso ilustrativo lo tenemos en el artículo sobre diferencias en los cerebros de hombres y mujeres (aquí), cuya publicación dio lugar a titulares del tipo The hardwired difference between male and female brains could explain why men are ‘better at map reading, en el periódico británico The independent.

En la mencionada publicación se concluye que los cerebros masculino y femenino funcionan de forma diferente, que pertenecen a dos categorías diferenciadas. La única evidencia que se presenta es una tabla de p-valores asociados a diferencias en medias. No se aportan ni las medias, ni el valor absoluto de las diferencias, ni la representación de las distribuciones para mujeres y hombres. Incluso aunque en este caso las medias poblacionales sean diferentes, este resultado no nos lleva a concluir que los colectivos sean dos categorías diferenciadas. Si la diferencia es muy pequeña, la superposición de ambas distribuciones puede afectar a una gran parte de la población, que seríamos incapaz de clasificar con esas medidas. Imaginemos que disponemos de dos poblaciones con la misma varianza unitaria, pero una con media 0 y la otra con media 0,01. Con un tamaño muestral suficientemente grande con alta probabilidad rechazaremos la hipótesis nula de igualdad de medias. La pregunta que nos debemos hacer como investigadores es, ¿es esto relevante? ¿El objetivo es detectar una pequeña diferencia en medias o averiguar hasta qué punto son distribuciones diferentes? Este es un tema especialmente relevante a la hora de hacer conclusiones en cualquier rama del conocimiento, y en particular en el análisis de los modelos económicos estimados y sus resultados.

En Física, una ligerísima diferencia de medias entre, por ejemplo, el número de partículas de materia y de antimateria creadas en el Big Bang, o también en la vida media de esas partículas, puede dar lugar a la existencia de un Universo de materia. En las ciencias sociales o de la salud, en cambio, es difícil que una diferencia muy pequeña implique una importancia práctica. Más aún, en la obtención de datos de laboratorio para validar o rechazar que los sujetos experimentales se comportan según una determinada teoría (p.e., de equilibrio o de maximización del bienestar social), lo normal es que las medias experimentales sean distintas de las predichas por cualquier teoría con suficiencia estadística en cuanto la muestra sea suficientemente grande. Esto no será el final de la teoría. Si la media experimental está, por ejemplo, en un entorno del 15% de la predicha, la teoría será falsa, pero tal vez sea la mejor aproximación que tengamos y sea útil para orientar las políticas públicas. A veces será posible cambiar el modelo estadístico y, en lugar de medir diferencias en medias, plantear regresiones que nos cuantifiquen qué parte de la varianza explica la variable que proponer la teoría, pero no siempre es posible este tipo de estrategias. Por ejemplo, no lo será cuando la teoría no propone una variable explicativa que pueda tomar valores distintos, como la teoría del equilibrio de Nash en el dilema del prisionero que solo indica la elección de la opción “no cooperar” o su teoría alternativa del altruismo que selecciona la opción “cooperar”.

¿Hace esto inútil el uso del p-valor o de los contrastes de hipótesis? Por supuesto que no. Pero utilicemos el p-valor dentro de su contexto y las regiones críticas con cautela. Tengamos claro que el p-valor es también un valor aleatorio y, por tanto, sensible a la muestra utilizada. Tengamos en cuenta que una diferencia significativa puede no ser relevante y al revés. Tengamos en cuenta que si hacemos muchos contrastes con una misma muestra, la probabilidad de que algo sea significativo es alta. Tengamos en cuenta que la hipótesis de contraste hay que enunciarla antes de analizar los datos. Y por último, tengamos en cuenta que el rechazo de una hipótesis a veces no tiene la primera interpretación que nos viene a la cabeza. Los métodos estadísticos nos acotan la incertidumbre, pero no nos proporcionan reglas de decisión estrictas. Le hemos puesto gafas a la diosa Fortuna pero no siempre están bien graduadas ni tampoco es fácil interpretar lo que ve.

José Luis Ferreira

José Luis Ferreira es Profesor del Departamento de Economía de la Universidad Carlos III de Madrid y Doctor en Economía por Northwestern University, Illinois. Su investigación se centra en la teoría de juegos, la organización industrial, la economía experimental y la metodología.

Loading...