Inicio Intelectualidad Las máquinas baten a las personas en un test de lectura. Pero...

Las máquinas baten a las personas en un test de lectura. Pero ¿entienden de verdad?

En el otoño de 2017, Sam Bowman, lingüista computacional de la Universidad de Nueva York, pensó que los ordenadores seguían sin ser demasiado buenos en la compresión de la palabra escrita. No cabía duda de que habían llegado a simular pasablemente esa comprensión en ciertas áreas restrigidas, como la traducción automática o el análisis de sentimientos (por ejemplo, determinar si una frase parece «ofensiva o amable», dice). Pero Bowman quería contar con pruebas mensurables de que el producto era auténtico: la genuina comprensión, al modo humano, del inglés. Así que ideó un test.

En un artículo que escribió con algunos colaboradores, de la Universidad de Washington y de DeepMind, la compañía dedicada a la inteligencia artificial de la que es propietaria Google, publicado en abril de 2018, presentó una batería de nueve tareas de comprensión lectora para computadores llamada GLUE (acrónimo en inglés de Evaluación de la Comprensión General del Lenguaje). El test se diseñó como «una muestra bastante representativa de los problemas que los investigadores piensan que son interesantes», dice Bowman, y que además son «sencillos para las personas». Por ejemplo, una de las tareas pregunta si una frase es verdadera según la información ofrecida en la anterior. Si se sabe ver que de «el presidente Trump aterrizó en Irak para una visita de siete días» se sigue que «el presidente Trump está en una visita en otro continente», se pasa la prueba.

Las máquinas no se lucieron. Hasta las redes neuronales más al día no pasaron de 69 puntos de 100 entre las nueve tareas, un aprobado alto o, en escalas más exigentes, ni siquiera un aprobado. A Bowman y a sus colaboradores no les sorprendió. Las redes neuronales (capas de conexiones computacionales construidas para que sean una cruda imitación de la forma en que las neuronas se comunican en los cerebros de los mamíferos) habían demostrado sus posibilidades en el campo del procesamiento natural del lenguaje (PNL), pero no habían convencido a los investigadores de que estuviesen aprendiendo algo sustancial sobre el lenguaje mismo. Y GLUE parecía darles la razón en su incredulidad. «Estos primeros resultados indican que resolver GLUE está por encima de las posibilidades de los modelos y métodos actuales», escribían Bowman y sus colaboradores.

Poco perduraría la validez de ese juicio. En octubre de 2018, Google presentó un método nuevo, al que se le dio el nombre de BERT (Representaciones Codificadoras Bidireccionales para Transfomadores). Consiguió un 80,5 en GLUE. En este examen recién inventado para determinar la verdadera comprensión del lenguaje natural por las máquinas, o para sacar a la luz su falta de entendimiento, habían saltado del aprobado raspado, o ni eso, a un notable en solo seis semanas.

«Fue, sin duda, uno de esos momentos en que te dices ‘¡madre mía!’», recuerda Bowman. «En nuestra especialidad, la reacción general fue de incredulidad. BERT puntuaba en muchas de las tareas casi en el límite de lo que pensábamos que se podía». Antes de BERT, GLUE ni siquiera se había molestado en incluir puntuaciones humanas para cotejar; cuando Bowman y uno de sus estudiantes de doctorado las incorporaron a GLUE en febrero de 2019, solo pasaron unos meses antes de que un sistema creado por Microsoft basado en BERT las batiese.

En el momento en que se ha escrito esta nota, casi cada puesto en la tabla de las mejores puntuaciones de GLUE está ocupado por un sistema que incorpora, extiende u optimiza BERT. Cinco de estos sistemas superan los resultados humanos.

Pero la inteligencia artificial, ¿está empezando a entender de verdad nuestro lenguaje o solo está mejorando su manera de engañarnos por medio de nuestros sistemas? Como las redes neuronales basadas en BERT han tomado al asalto una forma de cotejarlas como GLUE, se han creado nuevos métodos de evaluación que les ofrezcan más dificultades. Y cuando se someten a ellos, tan poderosos sistemas de PLN solo recuerdan a Hans der Kluge, Juan el Listo, un caballo de principios del siglo XX que parecía tan inteligente que hasta hacía operaciones aritméticas, pero que en realidad solo seguía las pistas inconscientes de su entrenador.

«Sabemos que estamos en una tierra de nadie, entre resolver el problema del lenguaje de una forma aburrida y estrecha, y resolver el de la inteligencia artificial», dice Bowman. «La reacción general en nuestra disciplina fue: ¿cómo pasó?, ¿qué significa?, ¿qué hacemos ahora?».

Escribir las propias reglas

En el famoso experimento mental de la habitación china, una persona que no sabe chino está en una habitación, donde la rodean muchos libros de reglas que especifican por completo la manera de pergeñar una respuesta perfecta a una secuencia de símbolos chinos que recibe allí. Una persona que está fuera de la habitación desliza preguntas escritas en chino por debajo de la puerta. La de dentro consulta los libros y entrega una respuesta perfectamente congruente escrita en chino.

Este experimento mental se ha utilizado para defender que, parezca lo que parezca afuera, no se puede decir que la persona de dentro de la habitación entiende de verdad el chino. No obstante, hasta un simulacro de entendimiento puede ser un objetivo suficiente para el procesamiento del lenguaje natural.

El único problema es que no existen libros de reglas perfectos porque el lenguaje natural es demasiado complejo y azaroso para  que se pueda reducirlo a un conjunto rígido de especificaciones. Piénsese en la sintaxis, por ejemplo: las reglas (incluidas las de buen cubero) que definen las agrupaciones de palabras para formar frases con significado. La sintaxis de la frase «las incoloras ideas verdes duermen furiosamente» es perfecta, pero los hablantes naturales saben que no tiene sentido. ¿Qué libro de reglas escritas de antemano podría captar este hecho «no escrito» relativo al lenguaje natural, este e incontables más?

Los investigadores del PLN han intentado cuadrar ese círculo haciendo que las reglas neuronales escriban sus propios libros improvisados de reglas mediante un proceso al que se llama preentrenamiento.

Antes de 2018, una de las principales herramientas de preentrenamiento del PNL era una especie de diccionario, las «inmersiones de palabras», y codificaba las asociaciones entre palabras por medio de números de forma que las redes neuronales profundas pudiesen aceptarlas como entrada de datos, algo así como darle a la persona que está dentro de la habitación china un libro con un vocabulario, sin muchas más elaboraciones. Pero una red neuronal preentrenada con inmersiones de palabras sigue siendo ciega al significado de las palabras una vez en el nivel de las oraciones. «Pensaría que ‘un hombre muerde a un perro’ y ‘un perro muerde a un hombre’ son exactamente la misma cosa», explica Tal Linzen, lingüista computacional de la Universidad Johns Hopkins.

Un método mejor sería el de valerse del preentrenamiento para equipar la red neuronal con libros de reglas más ricos (que incluyan no solo el vocabulario, sino también la sintaxis y el contexto) antes de entrenarla para que realice una tarea de PLN concreta. A principio de 2018, unos investigadores de OpenAI, la Universidad de San Francisco, el Instituto Allen de Inteligencia Artificial y la Universidad de Washington descubrieron simultáneamente una forma hábil de acercase a lograr algo así. En vez de preentrenar solo la primera capa de la red con la inmersión de palabras, entrenaron la red neuronal entera con una tarea básica más amplia, la llamada modelización de lenguaje.

«El tipo más simple de modelo de lenguaje es este: leo un grupo de palabras e intento predecir la siguiente», explica Myle Ott, científico que investiga para Facebook. «Si digo ‘George Bush nació en’, el modelo tiene entonces que predecir la siguiente palabra de la frase».

Estos modelos profundos de lenguaje preentrenado se podían producir con relativa eficiencia. No había más que alimentar las redes neuronales con cantidades enormes de texto escrito copiado de fuentes libremente disponibles, como Wikipedia (miles de millones de palabras preformateadas como frases gramaticalmente correctas) y dejar que las redes derivasen por su cuenta predicciones de cuál era la palabra siguiente. En esencia, era como pedirle a la persona de la habitación china que escribiese sus propias reglas valiéndose como referencia solo de los mensajes en chino que le lleguen.

«Lo grande de este enfoque es que resulta que el modelo aprende mucha sintaxis», dice Ott.

Más aún, estas redes neuronales preentrenadas podrían entonces aplicar sus representaciones enriquecidas del lenguaje a aprender una tarea no relacionada, más concreta, mediante un proceso que lleva el nombre de afinamiento.

«Se puede tomar el modelo de la etapa de preentrenamiento y más o menos adaptarlo a cualquiera que sea la tarea real que interese», explica Ott. «Y cuando se hace eso, los resultados son mucho mejores que si se empieza pensando solo en la tarea final en mente».

Y de ese modo, en junio de 2018, cuando OpenAI presentó GPT, una red neuronal que incluía un modelo de lenguaje preentrenado durante un mes entero con casi mil millones de palabras (procedentes de 11.038 libros digitales), su puntuación de GLUE de 72,8 se puso en el primer puesto de la clasificación de puntuaciones. Aun así, Sam Bowman seguía dando por supuesto que faltaba mucho para que algún sistema empezara siquiera a acercarse a los resultados humanos.

Y entonces llegó BERT.

Una poderosa receta

¿Qué es exactamente BERT?

Primero, no es una red neuronal completamente entrenada que mejora una actuación humana nada más empieza a funcionar. En palabras de Bowman, es «una receta muy precisa para preentrenar una red neuronal». Tal y como un pastelero puede seguir una receta para producir fiablemente  una deliciosa masa de pastel precocinada, con la que se podrán hacer luego muchos tipos de pastel diferentes, los investigadores de Google han creado una receta de BERT que sirve como fundamento ideal para «cocinar» redes neuronales (es decir, para afinarlas) de modo que ejecuten bien muchas diferentes tareas de procesamiento del lenguaje natural. Google ha hecho público la programación de BERT, así que otros investigadores no tendrán que repetir la receta desde el principio; les bastará con descargar BERT, como si comprasen una masa de pastel precocinada en el supermercado.

Si BERT es esencialmente una receta, ¿cuál es la lista de ingredientes? «Es el resultado de tres cosas que se conjuntan para que todo cuadre», según Omar Levy, que investiga para Facebook y ha analizado los entresijos del funcionamiento de BERT. La primera es un modelo preentrenado del lenguaje, uno de esos libros de referencia de la habitación china. La segunda, la capacidad de averiguar cuáles son las características más importantes de una frase.

En 2017, Jakob Uszkoreit, ingeniero de Google Brain, trabajaba en formas de acelerar el progreso de Google hacia la comprensión del lenguaje. Cayó en la cuenta de que las redes neuronales más avanzadas sufrían también de una restricción inherente: todas procesaban la secuencia de palabras una a una. Esta «secuencialidad» parecía concordar con la manera en que los seres humanos entienden las frases realmente. Pero Uszkoreit se preguntó si «no podía ser que entender el lenguaje de una manera lineal, secuencial, fuese subóptimo», dice.

Uszkoreit y sus colaboradores idearon una nueva arquitectura de redes neuronales centrada en la «atención» , un mecanismo que hace que cada capa de la red asigne más peso a algunas características específicas de la entrada de datos que a otras. Esta arquitectura nueva centrada en la atención, un transformador, como la llaman, podía tomar una frase de entrada como «un perro muerde el hueso» y codificar cada palabra de muchas formas diferentes en paralelo. Por ejemplo, un transformador podría conectar «muerde » y «hueso» juntos como verbo y objeto, e ignorar «un»; al mismo tiempo, podría conectar «muerde» y «perro» como verbo y sujeto, e ignorar casi del todo «el».

El carácter no secuencial del transformador representaba frases de una forma más expresiva, que Uszkoreit llama arborescente. Cada nivel de la red neuronal hace múltiples conexiones paralelas entre ciertas palabras mientras ignora otras; es como un alumno de primaria haciendo el diagrama de una frase. Esas conexiones se establecen a menudo entre palabras que quizá no sean contiguas en la frase. «Estas estructuras se parecen, en efecto, a varios árboles superpuestos», explica Uszkoreit.

Esta representación arborescente de las frases daba a los transformadores una potente forma de modelizar el significado contextual y también de aprender eficazmente asociaciones entre palabras que podrían estar muy lejos las unas de las otras en frases complejas. «Va un poco en contra de la intuición», dice Uszkoreit, «pero tiene su raíz en resultados de la lingüística, ciencia donde desde hace mucho se buscan modelos arborescentes del lenguaje».

Por último, el tercer ingrediente de la receta de BERT lleva la lectura no lineal un paso más allá.

Al contrario que otros modelos preentrenados de lenguaje, muchos de los cuales se crean haciendo que las redes neuronales lean terabytes de texto de izquierda a derecha, el modelo de BERT lee de izquierda a derecha y de derecha a izquierda a la vez, y aprende a predecir palabras que estén en medio borradas aleatoriamente. Por ejemplo, BERT podría aceptar como entrada una frase como «George Bush … en Conéctica en 1946» y predecir la palabra que debe ir en el lugar tachado (en este caso, «nació») escrutando el texto en las dos direcciones. «Esta bidireccionalidad condiciona a una red neuronal para que intente conseguir tanta información como pueda de cualquier subconjunto de palabras», cuenta Uszkoreit.

La tarea de preentrenamiento que usa BERT, que recuerda a un juego llamado Mad-Libs y se denomina modelización de lenguaje borrado, no es nueva. Hace décadas que se la emplea para evaluar la comprensión del lenguaje por los seres humanos. A Google le ofrecía además una manera práctica de permitir la bidireccionalidad en las redes neuronales, en vez de los métodos de preentrenamiento unidireccionales que habían estado dominando ese campo. «Antes de BERT, la modelización unidireccional del lenguaje era la norma pese a que era una condición innecesariamente restrictiva», según Kenton Lee, científico que investiga para Google.

Cada uno de estos tres ingredientes (un modelo profundo de preentrenamiento de lenguaje, la atención y la bidireccionalidad) existían independientemente antes de BERT. Pero antes de que Google publicase su receta a finales de 2018, nadie las había combinado de forma tan potente.

Refinar la receta

Como pasa con todas las buenas recetas, los cocineros fueron adaptando BERT a sus propios gustos. En la primavera de 2019 ha habido un período en el que «Microsoft y Alibaba se iban adelantando la una a la otra cada semana, afinando sin parar sus modelos e intercambiándose el primer puesto de la clasificación de puntuaciones», recuerda Bowman. Cuando en agosto apareció una versión mejorada de BERT llamada RoBERTa, Sebastian Ruder, investigador de DeepMind reseñó la ocasión lacónicamente en su muy leído boletín de PNL: «otro mes, otro último grito de modelo preentrenado de lenguaje».

La «masa de pastel» de BERT incorpora una serie de decisiones de diseño estructural que afectan a la bondad de su trabajo. Entre ellas está el tamaño de la red neuronal que se cocina, la forma de borrar los datos de preentrenamiento y cuánto tarda la red neuronal en entrenarse con ellos. Las recetas subsiguientes, como RoBERTa, se consiguen retocando esas decisiones de diseño, tal y como muchos chefs refinan sus platos.

 En el caso de RoBERTa, los investigadores de Facebook y de la Universidad de Washington pusieron más de algunos ingredientes (más datos de preentrenamiento, secuencias de entrada más largas, más tiempo de entrenamiento), retiraron uno (una tarea de «predicción de la frase siguiente», originalmente incluida en BERT, que en realidad degradaba la actuación del sistema) y modificaron otro (endurecieron la tarea de preentrenamiento del lenguaje borrado). ¿El resultado? El primer lugar en GLUE, brevemente. Seis semanas después, unos investigadores de Microsoft y de la Universidad de Maryland añadieron sus propios retoques a RoBERTa y lograron una nueva victoria. En el momento de escribir esta nota, otro modelo, ALBERT, abreviatura de «Un BERT ligero», ha llegado al primer puesto de GLUE tras un nuevo ajuste del diseño básico de BERT.

«Seguimos intentando averiguar qué recetas funcionan y cuáles no», afirma Ott, de Facebook, que ha trabajado en RoBERTa.

No obstante, tal y como no es probable que el que uno perfeccione su técnica de hacer pasteles le enseñe los principios de la química, ir optimizando BERT no impartirá por necesidad mucho conocimiento teórico sobre el avance del PLN. «Le seré completamente sincero: no sigo esos artículos, me aburren muchísimo», dice Linzen. «Hay ahí un problema científico», admite, pero no está en averiguar cómo hacer que BERT y toda su progenie sean más listos, o ni siquiera en cómo, para empezar, adquirieron su inteligencia. Por el contrario, dice, «nosotros intentamos saber en qué grado  entienden de verdad el lenguaje esos modelos», en vez de «ir cogiendo trucos raros que resulta que funcionan con los conjuntos de datos que usamos por lo común para evaluar nuestros modelos».

En otras palabras: BERT está haciendo algo bien. Pero ¿y si es por razones equivocadas?

Espabilado pero no inteligente

En julio de 2019, dos investigadores de la Universidad Nacional Cheng Kung de Taiwán usaron BERT para conseguir un resultado impresionante en una tarea, bastante oscura, que se usa como vara de medir de la comprensión del lenguaje natural, la tarea de comprensión de razonamientos en un argumento. Realizar la tarea requiere que se seleccione la premisa implícita apropiada (a la que se le llama aval) que respalda una razón que se da para defender alguna aseveración. Por ejemplo, para dar el argumento de que «fumar causa cáncer» (la aseveración) porque «los estudios científicos han mostrado que hay una conexión entre fumar y el cáncer» (la razón), hay que presuponer que los «estudios científicos son creíbles» (el aval) en vez de que «los estudios científicos son caros» (lo que puede que sea cierto, pero no tiene sentido en el contexto del argumento). ¿Lo pilla todo?  

Si no lo pilla, no le importe. Ni siquiera a los seres humanos les va muy bien en esta tarea sin haber practicado antes; la puntuación media de referencia para una persona sin entrenamiento es de 80 de 100. BERT sacó 77: «sorprendente», según la contenida opinión de los autores.

Pero en vez de sacar la conclusión de que BERT parece imbuir a las redes neuronales de capacidades de razonamiento casi aristotélicas, sospecharon que la explicación era más sencilla: que BERT escogía las pautas superficiales presentes en la manera en que se redactan los avales. En efecto, tras reanalizar sus datos de entrenamiento, los autores hallaron amplios indicios de pistas así, denominadas espurias. Por ejemplo, limitarse simplemente a escoger un aval que contenía la palabra «no» conducía en un 61 por ciento de los casos a respuestas correctas. Cuando se expurgaron esas pautas de los datos, la puntuación de BERT cayó de 77 a 53, equivalente a actuar al azar. Un artículo de The Gradient, revista dedicada al aprendizaje maquinal que publica el Laboratorio de Inteligencia Artificial de Stanford, comparó BERT a Hans der Kluge, el caballo con poderes aritméticos de pega.

En otro artículo, titulado Cierto por razones equivocadas, Linzen y sus coautores publicaron indicios de que los grandes resultados de BERT en ciertas tareas de GLUE podrían deberse también a pistas espurias en los datos de entrenamiento utilizados para esas tareas. (El artículo incluía un conjunto alternativo de datos diseñado para exponer específicamente el tipo de atajo que Linzen sospechaba que BERT usaba en GLUE. El nombre del conjunto de datos: Análisis Heurístico de Sistemas de Inferencia de Lenguaje Natural, o HANS, por su acrónimo en inglés).

Entonces, BERT y todos esos descendientes suyos que revientan récords, ¿no son más que un fraude? Bowman coincide con Linzen en que algunos de los datos de entrenamiento de GLUE están un poco liados; los acribillan sesgos sutiles introducidos por los seres humanos que los han creado y que, en potencia, son aprovechables por una potente red neuronal que se base en BERT. «No hay un único ‘truco barato’ que le permita resolverlo todo [en GLUE], pero hay montones de atajos que puede tomar que le vendrán muy bien», dice Bowman, «y el modelo puede escoger esos atajos». Pero no por ello cree que BERT tenga los pies de barro. «Parece que disponemos de un modelo que ha aprendido realmente algo sustancial acerca del lenguaje», dice. «Pero no es que entienda, en absoluto, el inglés de forma exhaustiva y  robusta».

Según Yejin Choi, científica de la computación de la Universidad de Washington y del Instituto Allen, para progresar hacia una compresión robusta no hay que centrarse solo en construir un BERT mejor, sino en diseñar mejores varas de medir y datos de entrenamiento que disminuyan la probabilidad de engañarse como con Hans der Kluge. Su trabajo explora el filtrado adversario, un enfoque que usa algoritmos para rastrear los conjuntos de datos de entrenamiento del PLN y retirar los ejemplos demasiado repetitivos o que de alguna otra manera introducen pistas espurias con las que una red neuronal pueda quedarse. Tras ese filtrado adversario, «la actuación de BERT puede empeorar significativamente», dice, mientras que «la humana no empeora tanto».

Con todo, algunos investigadores del PLN creen que, incluso con un entrenamiento mejor, los modelos de lenguaje quizá encaren un obstáculo fundamental para una comprensión real. Aun con su potente preentrenamiento, BERT no está diseñado para modelizar de forma perfecta el lenguaje en general; tras el afinamiento, solo modeliza «una tarea de PNL concreta, o incluso un conjunto concreto de datos para esa tarea», dice Anna Rogers, lingüista computacional del Laboratorio de Máquinas de Texto, de la Universidad de Massachusetts en Lowell. Y es probable que ningún conjunto de datos, por exhaustivamente diseñado o minuciosamente filtrado que esté, pueda captar todos los casos límite y las entradas de datos imprevistos que los seres humanos abordamos sin problemas cuando nos valemos del lenguaje natural.

Bowman señala que cuesta saber cómo podríamos llegar alguna vez a convencernos por completo de que una red neuronal ha conseguido algo que se parezca a la verdadera comprensión. Al fin y al cabo, se supone que los tests estandarizados revelan algo intrínseco y generalizable acerca de los conocimientos de quienes los hacen. Pero cualquiera que haya tenido que hacer un examen tipo test académico, como el SAT estadounidense, sabe que a los test se les puede engañar. «Nos cuesta preparar tests que sean lo suficientemente difíciles y suficientemente a prueba de trucos para que resolverlos nos convenza realmente de que hemos resuelto algún aspecto de la inteligencia artifical o de la tecnología del lenguaje», afirma.

Así, Bowman y sus colaboradores han presentado hace poco SuperGLUE, un test pensado en concreto para que les resulte difícil a los sistemas basados en BERT. Hasta ahora, ninguna red neuronal ha podido derrotar en él a la actuación humana. Pero aunque pasase (o cuando pase), ¿significa que las máquinas podrían entender realmente el lenguaje mejor que antes, aunque sea por un pelo? ¿O solo significaría que la ciencia ha mejorado la manera en que entrena a las maquinas para hacer tests?

«Es una buena analogía», según Bowman. «Nos las apañamos para aprobar tests sin que ello signifique que en realidad estamos cualificados para ser médicos o abogados». No obstante, parece que este es el camino para que la investigación de la inteligencia artificial avance. «El ajedrez parecía un test de categoría de la inteligencia hasta que descubrimos cómo se escribía un programa de ajedrez», dice. «No cabe duda de que estamos en una era en la que el objetivo consiste en seguir abordando problemas más difíciles que representen la comprensión del lenguaje y averiguar cómo se resuelven».

John Pavlus / Quanta Magazine 

Artículo traducido por Investigación y Ciencia con permiso de QuantaMagazine.org, una publicación independiente promovida por la Fundación Simons para potenciar la comprensión de la ciencia.

Referencia: «Microsoft’s MT-DNN Achieves Human Performance Estimate on General Language Understanding Evaluation (GLUE) Benchmark», de Steve Guggenheimer, en Steve «Guggs» Guggenheimer’s Blog, 20 de junio de 2019; y «What Does BERT Look At? An Analysis of BERT’s Attention», de Kevin Clark et al., en arXiv:1906.04341 [cs.CL].