Inicio Intelectualidad Cómo proteger a la inteligencia artificial de sus propias vulnerabilidades

Cómo proteger a la inteligencia artificial de sus propias vulnerabilidades

Para clasificar imágenes, audio o texto, la inteligencia artificial se basa en pautas completamente distintas de las que usamos las personas. Ello hace que sea posible engañar a los algoritmos introduciendo en los datos de entrada pequeños cambios maliciosos que resultan imperceptibles para los humanos. [Andrey Suslov/iStock]

Los científicos computacionales han ideado un método para conseguir que las técnicas de reconocimiento de voz por ordenador sean más seguras frente a ataques maliciosos: aquellos llevados a cabo por mensajes de apariencia inocua pero que ocultan comandos que pueden atacar un dispositivo; por ejemplo, a través de los asistentes virtuales que cada vez son más comunes en los hogares y los teléfonos inteligentes.

Gran parte del progreso realizado en inteligencia artificial (IA) durante la última década —desde los coches sin conductor hasta las máquinas que juegan al go o que traducen idiomas— ha provenido de las redes neuronales artificiales, programas inspirados en el funcionamiento del cerebro. Esta técnica, conocida como aprendizaje profundo cuando se aplica a gran escala, es capaz de identificar patrones en los datos por sí sola, sin necesidad de instrucciones explícitas. Sin embargo, los algoritmos de aprendizaje profundo a menudo funcionan de un modo que nadie entiende bien, lo que también supone una vulnerabilidad frente a ciertos ataques.

Las pautas que usa la IA para reconocer imágenes no parecen ser las mismas que las que usamos las personas. Los investigadores han conseguido explotar este hecho para alterar sutilmente las imágenes de modo que el resultado sea indistinguible del original para los humanos, pero no así para los ordenadores. Hace poco, un trabajo demostró que colocar unas pegatinas de apariencia inocua en una señal de stop podía hacer que un programa de IA la clasificase como una señal de límite de velocidad. Y otro grupo diseñó unas gafas capaces de engañar a una máquina de reconocimiento facial para que identificara erróneamente al portador como la actriz Milla Jovovich. Tales ejemplos engañosos reciben el nombre de «antagónicos» (adversarial).

Voces que engañan

También existen casos de ejemplos antagónicos en audio. Un proyecto reciente logró alterar ligeramente una grabación de alguien que decía «Sin el conjunto de datos, el artículo es inútil» para que el programa lo transcribiera como «Bien, Google, busca en evil.com». Ahora, un trabajo presentado el 9 de mayo en la Conferencia Internacional sobre Representaciones del Aprendizaje, celebrada en Nueva Orleans, ha ofrecido una forma de detectar tales manipulaciones.

Bo Li, científica computacional de la Universidad de Illinois en Urbana-Champaign, y sus coautores han creado un algoritmo que transcribe un audio completo y, por separado, solo una parte del mismo. Si la transcripción de esa pieza no coincide con la parte correspondiente de la transcripción completa, el programa lanza una alerta y avisa de que el original podría hallarse comprometido. Los autores demostraron que, para varios tipos de ataques, el nuevo método casi siempre detectaba la intromisión. Además, incluso si el atacante conocía de antemano el sistema de defensa, la técnica seguía funcionando en la mayor parte de los casos.

Li dice estar sorprendida por la robustez del método y —como sucede a menudo con el aprendizaje profundo— por el hecho de que no está claro cómo funciona exactamente. Zhoulin Yang, científico computacional de la Universidad de Jiao Tong de Shanghái, quien presentó el trabajo en la conferencia, opina que a medida que este tipo de ataques se vuelvan más comunes, servicios como el Asistente de Google, Alexa (de Amazon) o Siri (de Apple) deberían incorporar estos nuevos sistemas de defensa.

«Parte del atractivo está en la simplicidad de la idea», señala Nicholas Carlini, investigador de Google Brain en Mountain View y uno de los diseñadores del ataque «evil.com». Con todo, este tipo de situaciones suelen ser «como el juego del ratón y el gato», añade el experto. «No me cabe duda de que los investigadores ya están trabajando en el desarrollo de un ataque contra esta defensa», advierte.

Recelar de las palabras

Otro trabajo, presentado en abril en la Conferencia sobre Sistemas y Aprendizaje Automático, en Stanford, reveló una vulnerabilidad análoga en un tipo diferente de algoritmos: aquellos de comprensión de texto. El texto se había venido considerando relativamente seguro frente a este tipo de ataques ya que, si bien es posible hacer pequeñas modificaciones en la onda asociada a una señal de audio, una palabra dada no puede alterarse en, pongamos por caso, un 1%.

A pesar de ello, Alexandros Dimakis, científico computacional de la Universidad de Texas en Austin, y sus colaboradores han estado explorando una potencial amenaza contra estos programas. Los intentos anteriores se habían basado en buscar sinónimos de ciertas palabras, de modo que su sustitución no alterase el significado del texto completo pero sí engañase al algoritmo para, por ejemplo, clasificar un mensaje de correo basura como legítimo, noticias falsas como reales o una crítica negativa como una positiva.

No obstante, probar con todos los sinónimos de cada una de las palabras de un texto llevaría una eternidad. Para sortear ese escollo, Dimakis y sus colaboradores diseñaron un ataque que primero detectaba en qué palabras confiaba más el algoritmo a la hora de clasificar un texto como malicioso. Después, ensayaba con algunos sinónimos de la palabra más importante; determinaba cuál de esos cambios desorientaba más al filtro y, tras sustituir la palabra en cuestión, pasaba a la siguiente más importante. Los investigadores hicieron lo mismo con oraciones enteras.

Un ataque previo diseñado por otro grupo había conseguido reducir los aciertos de un clasificador de textos desde más del 90% hasta un 23% para las noticias, un 38% para el correo electrónico y un 29% para las reseñas de Yelp. El ataque concebido por Dimakis y sus colaboradores, sin embargo, dejó esos porcentajes en el 17%, el 31% y el 30%, respectivamente, al tiempo que reemplazó muchas menos palabras. Curiosamente, los términos en los que parecen basarse estos filtros no son los que uno podría pensar: es posible dar la vuelta a sus decisiones cambiando un «eso es» por «es» o un «esos» por «estos». «Creo que da un poco de miedo ver que estamos usando la inteligencia artificial y que no tenemos ni idea de cómo funciona», reconoce el investigador.

Dar a conocer estos trucos es una práctica común en el sector, pero en ocasiones también puede ser controvertida. El pasado mes de febrero, el laboratorio de investigación de la compañía OpenAI, con sede en San Francisco, se negó a publicar un algoritmo capaz de escribir artículos falsos pero realistas por temor al uso que se le pudiera dar. Sin embargo, un trabajo como el Dimakis y sus colaboradores puede servir como entrenamiento para exponer las vulnerabilidades de un filtro de texto y contrarrestarlas. «Al hacer público nuestro ataque, también estamos haciendo pública nuestra defensa», concluye el investigador.

Matthew Hutson/Nature News

Artículo original traducido y adaptado por Investigación y Ciencia con permiso de Nature Research Group.

Referencia: «Characterizing audio adversarial examples using temporal dependency»; Zhuolin Yang et al. en arxiv:1809.10875, septiembre de 2018.