Inicio Noticiero Digital IBM utilizó millones de fotos de Flickr sin el permiso de los...

IBM utilizó millones de fotos de Flickr sin el permiso de los usuarios para mejorar su reconocimiento facial

Los sistemas de reconocimiento facial están por todas partes, pero necesitan una materia prima esencial: datos y más datos. Para entrenar los algoritmos, los investigadores no solo trabajan en mejorar sus modelos, también necesitan grandes bases de datos para poder probar si los sistemas funcionan. ¿De dónde salen estos datos? En el caso de IBM, según ha revelado NBCNews, de imágenes con licencia CC de Flickr.

IBM publicó el año pasado un conjunto de datos denominado ‘Diversity in Faces’. Se trata de un trabajo interesante ya que en vez de basarse en imágenes de personas famosas, mostraban la amplia pluralidad de rostros que pueden existir. Algo que sirve para mejorar el reconocimiento facial en su tratamiento, por ejemplo, con diversos tonos de piel.

Pero lo que no se conocía es que muchas de estas imágenes han sido extraídas de Flickr e incluyen imágenes personales. Tanto es así que muchos usuarios se han encontrado sorprendidos al conocer que estaban en esa base de datos, sin haber dado consentimiento previo para tal uso.

De tener fotos en Flickr a encontrarse en la base de datos de IBM

Ibm Facial Data

Según explica un fotógrafo afectado a la NBC, “ninguna de las personas que fotografié tenían idea que sus fotos iban a ser utilizadas de esta manera“. La clave del asunto está en el uso de la licencia Creative Commons; mientras que sí se permite utilizar estas imágenes, era difícil anticipar que se utilizarían estas imágenes para entrenar sistemas de reconocimiento facial y que posteriormente pueden clasificar rostros en función del género, el color de pelo o la etnia.

Precisamente para evitar que el reconocimiento facial estuviera inclinado hacia un tipo de perfil o persona, se utilizó una base de datos suficiente grande para mejorar la precisión. Y aquí es donde entran los millones de fotos utilizadas.

Las imágenes no fueron recopiladas directamente por IBM, sino por Yahoo. En concreto, el set de rostros se encuentra dentro de la base de datos YFCC100M, un conjunto de 99.2 millones de fotos con licencia creative commons creada por Yahoo, quien recordemos es dueño de la propia Flickr.

Ibm Facial

La NBC ha ofrecido una herramienta para conocer si tu foto se encuentra entre la base de datos utilizada. Hay que introducir el usuario de Flickr y se obtendrá un resultado.

En concreto, la base de datos de IBM no es pública. Aunque si eres investigador y ofreces tus motivos, puedes solicitar acceso a IBM para trabajar con este set de datos.

La base de datos de ‘Diversity in Faces’ utilizada por IBM contenía inicialmente 100 millones de imágenes de Flickr, que posteriormente fueron reducidas a un millón de rostros para poder trabajar con ellos e identificar los patrones más importantes de cada uno. Valores como la edad estimada, el género, el tamaño de la nariz, la distancia entre los ojos, el color de piel… más de 200 valores para identificar a una persona con sus algoritmos.

Ibm

Actualmente, la compañía ofrece su sistema IBM Watson Visual Recognition para reconocer y estimar la edad y el género de las personas y puede ser utilizado por otros clientes para identificar a personas específicas en fotos o vídeos. Una habilidad que se ha entrenado en parte gracias al uso sin consentimiento del rostro de millones de personas.

Desde Xataka hemos contactado con IBM para obtener su postura oficial respecto al uso de estas imágenes en sus algoritmos de reconocimiento facial. Actualizaremos en cuanto obtengamos una respuesta.

Temas