¿Cuándo es significativo un resultado?

La propuesta de que el umbral del estadístico muestral p del resultado de un experimento baje de 0,05 a 0,005 para que se pueda considerar que este es «estadísticamente significativo» suscitó opiniones encendidas entre los lectores de Nature. El 69 por ciento de las 6938 respuestas a la pregunta de si el umbral del valor p debería ser más bajo fueron afirmativas.

Los investigadores discrepan acerca de cuándo debe considerarse que unos resultados son «significativos» y pueden, por lo tanto, constituir un descubrimiento. En julio, 72 investigadores sometían a escrutinio el llamado valor p y pedían que se adoptase un umbral más bajo para ese estadístico muestral, muy difundido pero sobre cuyo uso ordinario ha ido cayendo mucho descrédito. En una respuesta publicada el 18 de septiembre, un grupo de 88 investigadores sostienen que una solución mejor sería, en vez de adoptar otro umbral arbitrario, que los científicos tuviesen que justificar su uso de valores determinados de p 

Hace mucho que se usan los valores p como medida de la significatividad estadística, pero los científicos han ido siendo cada vez más conscientes de sus limitaciones y de cuánto se prestan a un uso inadecuado. En 2015, una revista científica de psicología incluso los vetaba por completo.

El estadístico muestral p se emplea para contrastar una «hipótesis nula», la que expresa la situación que se toma de partida: que los fenómenos que se miden no están relacionados. Cuanto más pequeño sea el valor p de los resultados, menos probables serán bajo la suposición de que la hipótesis nula es cierta y, por lo tanto, más seguro que no se han debido al azar. La práctica común ha consistido en considerar que los resultados son «estadísticamente significativos», y que la hipótesis nula ha quedado rechazada, cuando los valores p son inferiores a 0,05.

En un artículo prepublicado en julio y publicado en septiembre en Nature Behaviour, un grupo de investigadores, entre ellos algunos de los más destacados en el empeño por una mayor reproducibilidad de los resultados de los experimentos, sostenían que ese umbral debería reducirse hasta 0,005; así se evitaría que la bibliografía de las ciencias sociales y biomédicas estuviese plagada de falsos positivos.

Pero «establecer ese mismo umbral para todas las ciencias es demasiado extremo», dice Daniel Lakens, psicólogo experimental de la Universidad Tecnológica de Eindhoven, Holanda, y autor principal del nuevo comentario, subido al servidor de prepublicaciones PsyArXiv. «El día en que se pida a la gente que justifique lo que está haciendo, la ciencia mejorará», añade.

A algunos investigadores les preocupa que disminuir el valor de p pueda agravar el «problema del archivador»: el de los estudios que contienen resultados negativos y por eso no se publican. Un umbral más riguroso para el valor p podría conducir también a más falsos negativos: sostener que un efecto no existe cuando sí existe. «Antes de aplicar una u otra política se querría estar más seguro de que no tiene consecuencia indeseadas», dice Lakens.

Lakens y sus coautores defienden que, ya antes de recoger los datos, los investigadores deberían seleccionar y justificar los umbrales para el valor p que adoptarán en sus experimentos. Esos niveles se deberían basar en factores como el impacto potencial de un descubrimiento o hasta qué punto es sorprendente. Los umbrales se podrían entonces evaluar a partir de sus informes registrados, un tipo de artículo científico en el que los métodos y los análisis propuestos son sometidos a revisión por pares antes de que se realice el experimento.

«No creo que los investigadores vayan a tener jamás un incentivo para decir que necesitan un umbral más severo para sus pruebas», replica Valen Johnson, estadístico de la Universidad A&M de Texas en College Station y coautor del artículo de julio. Y no es precisamente probable que muchos científicos vayan a cebarse en sus propios trabajos, dice Daniel Benjamin, otro de los coautores de aquel artículo y economista del comportamiento de la Universidad del Sur de California en Los Ángeles.

Pero Lakens cree que cualquier intento de manipular los valores p saltará a la vista en las justificaciones que darían los investigadores. «Al menos, todo el mundo está de acuerdo en que es bueno cambiar el uso irreflexivo de 0,05», dice.

Establecer umbrales concretos para los estándares a que han de someterse las pruebas empíricas «es mala ciencia», sostiene Ronald Wasserstein, director ejecutivo de la Asociación Americana de Estadística, la cual dio el año pasado un paso inusual en sus 177 años de historia: publicó unas recomendaciones explícitas para el uso de los valores p. El mes que viene, esta institución celebrará un congreso sobre inferencia estadística donde se ahondará en las recomendaciones.

Wasserstein dice que no ha tomado todavía ninguna postura en el debate sobre los umbrales del valor p, pero añade que «no nos debe sorprender que no haya un único número mágico».

Dalmeet Singh Chawla/Nature News.

Artículo traducido y adaptado por Investigación y Ciencia con permiso de Nature Research Group.

Referencia: «Justify Your Alpha: A Response to “Redefine Satistical Signficance”», Daniel Lakens et al. en PsyArXiv, 18 de septiembre de 2017.

Loading...