Algoritmos discriminadores

18

El uso de sistemas computarizados en la toma de decisiones es hoy omnipresente. Si usted ha solicitado un préstamo bancario, ha contratado una póliza de seguros o ha enviado su currículum a una empresa multinacional buscando empleo, lo más probable es que un algoritmo haya decidido su suerte. Asimismo, sus últimas compras en Amazon o las últimas películas que ha visto en Netflix dependen de un sistema computarizado.

Del mismo modo que el VAR, el Ojo de Halcón o el DRS sustituyen a los árbitros en distintas competiciones deportivas, los algoritmos sustituyen a jueces, evaluadores y asesores en las más variopintas actividades. Esta sustitución se hace a menudo bajo el supuesto, implícito o explícito, de que (i) el sistema informático es más eficaz (toma mejores decisiones) y (ii) es más justo o neutral (carece de sesgos y prejuicios).

Aunque ambas características son relevantes, en esta entrada me quiero centrar en la segunda. El llamado sesgo algorítmico (algorithmic bias) ocurre cuando el código de programación de un algoritmo decisor (o la información utilizada en su proceso de aprendizaje) resulta en decisiones que perpetúan o generan discriminación en la sociedad. Este asunto ha sido objeto de cierta controversia y regulación a ambos lados del Atlántico. En concreto, la UE acaba de aprobar una serie de normativas restringiendo el uso de algoritmos no supervisados y exigiendo que se empleen las herramientas técnicas y estadísticas necesarias para prevenir la discriminación.

Quizá el caso más conocido de sesgo algorítmico sea el uso de un sistema computarizado en los juzgados Condado de Broward, en Florida, para determinar la cuantía de la fianza de los acusados que esperan juicio. El sistema utiliza la ficha policial y las características sociodemográficas del sujeto para generar una estimación del riesgo de reincidencia. El algoritmo parece funcionar: entre los sujetos calificados de alto riesgo la probabilidad de reincidencia es el doble que entre los sujetos clasificados como de bajo riesgo.

La web ProPublica realizó una evaluación exhaustiva del algoritmo (cuyo código es propietario), obteniendo los resultados de una muestra de 7000 individuos. Los resultados, a juicio de los periodistas que publicaron el estudio, muestran una clara discriminación racial: de cada 10 blancos, solo 2 fueron considerados de alto riesgo injustamente (es decir, fueron no reincidentes) mientras que 4 de cada 10 acusados de raza negra fueron asignados un riesgo alto sin merecerlo. Aunque esto no prueba que el algoritmo penalice a los acusados de raza negra por su color de piel, mostraría que los sesgos sociales se perpetúan en el mundo digital.

La realidad, como suele ocurrir, es más sutil. El algoritmo está bien calibrado pues la proporción de reincidentes entre los individuos de riesgo alto es la misma para los individuos de ambos grupos (6 de cada 10). El problema es que los individuos de raza negra tienen una mayor probabilidad inicial de reincidir, y por tanto la proporción de individuos injustamente tratados en el grupo de riesgo alto es mayor. Un simple cálculo de Bayes muestra que la probabilidad incondicional de ser asignado el grupo de riesgo alto sin ser reincidente es mayor en los grupos que tengan mayor probabilidad inicial de serlo (la intuición y Bayes no suelen ir de la mano, como nos explicaba Marcos Vera recientemente).

Nos encontramos pues ante un problema difícil de plantear (y aún más difícil de resolver): ¿es un algoritmo que trate distinto a distintos grupos discriminador?, ¿es un algoritmo que incluya características demográficas como sexo o grupo étnico o lugar de residencia discriminador?, ¿es suficiente que un algoritmo no incluya específicamente esas características en su código para ser considerado neutro (independientemente de sus resultados)?

Desde mi punto de vista, la pregunta más relevante es si el algoritmo es más o menos discriminador que un sistema de decisión alternativo. En el caso del juzgado de Broward, lo razonable hubiera sido que ProPublica hubiese comparado las decisiones generadas por el algoritmo con las decisiones que tomaba el juez anteriormente o las decisiones de otros condados limítrofes. Esto es lo que hace Bo Cowgill en un estudio de un sistema computarizado de selección de personal utilizado por una empresa tecnológica.

La empresa recibe currículos constantemente y hace una oferta a todo trabajador que considere cualificado. El proceso tiene tres partes: una pre-evaluación en Recursos Humanos y, si el candidato resulta prometedor, una segunda ronda en la que se le evalúa por un grupo de expertos en su campo (programadores, casi siempre). Cowgill hace uso de un experimento aleatorio que tuvo lugar en la empresa por el que cada candidato fue asignado con igual probabilidad a un pre-evaluador humano o a un sistema informático. El sistema informático es un algoritmo de aprendizaje autónomo que utiliza datos históricos de los candidatos evaluados por humanos (su probabilidad de ser contratados y su productividad en la empresa). Ni los candidatos ni los evaluadores de la segunda ronda tenían conocimiento de la existencia de un sistema informático.

La primera pregunta es si el algoritmo elige mejor que el humano. La respuesta parece claramente sí. Las probabilidad de recibir una oferta y ser contratado se multiplican por dos (21% vs. 11% y 17% vs. 8%). Más interesante es la comparación de la productividad de los individuos contratados en ambos grupos. En este caso, los individuos contratados que fueron asignados al algoritmo escriben más líneas de código y tienen menos errores que los que fueron asignados al evaluador humano. Quizá más sorprendente es que también obtienen mejores resultados en sus evaluaciones subjetivas por parte de compañeros de trabajo y en su probabilidad de ascender en la jerarquía de la empresa.

La segunda pregunta, que es también la que nos atañe más directamente, es si el algoritmo discrimina más o menos que los evaluadores humanos. Es importante resaltar que el algoritmo no fue programado para discriminar, pero al ser educado con información histórica, es probable que haya heredado los sesgos humanos. El resultado es también sorprendente. Aunque el algoritmo penaliza a los candidatos sin diplomas académicos de universidades de élite o individuos sin experiencia, lo hace en menor medida que los humanos, y, por tanto, los individuos que tienen menos probabilidad inicial de pasar el corte son los que más se benefician de formar parte del grupo tratado. Es decir, aunque el algoritmo es formalmente discriminador es menos discriminador que su alternativa.

En conclusión, los algoritmos no son neutrales porque no pueden serlo pero seguramente sean menos sesgados que sus supervisores humanos.

Daniel García

Daniel Garcia es doctor en Economía por la Universidad Carlos III de Madrid. Actualmente trabaja como Profesor Asistente en la Universidad de Viena