Google Open Images y la inteligencia artificial como elemento para describir imágenes y sus detalles

Con Google Open Images en su versión 6, tus búsquedas de imágenes vendrán con detalles mucho más específicos. Imagen: Referencial

 

Google hace mejoras en su sistema de inteligencia artificial para buscar y decodificar detalles específicos de una imagen con Google Open Images.

Durante años, el gigante de los buscadores ha mostrado su enorme capacidad para buscar imágenes en la web. Por ejemplo, si estamos en Google Fotos y colocamos «perro», «árbol» o «automóvil» veremos miles de resultados exactos de esas búsquedas; también es efectivo al buscar personas pero por motivos de seguridad y privacidad no sirve si se busca únicamente el nombre.

Desde hace tiempo, Google también implementó la búsqueda inversa de imágenes, en la que podemos colocar una imagen y el resultado de la búsqueda nos arroja miles de imágenes similares.

Decodificando detalles de imágenes

Para entrenar sus algoritmos, Google dispone de Open Images, una enorme base de datos donde guarda imágenes con anotaciones y las utiliza para que sus redes neuronales «practiquen». En total, casi 60 millones de imágenes diferenciadas en unas 20.000 categorías.

Su primera versión llegó en 2016 y este mes de febrero se ha presentado Open Images V6, una nueva versión que añade una nueva capa de análisis para poder entender mejor qué hay presente en cada foto. Inicialmente eran anotaciones, descripciones como «un coche rojo» o «una guitarra». Pero con el paso del tiempo se ha ido mejorando la base de datos para que el algoritmo pueda trabajar con niveles de información más profundos.

Un total de 9 millones de imágenes contienen anotaciones, con 36 millones de niveles y etiquetas. En esta sexta versión, el set de imágenes de Google ha expandido las anotaciones asociadas y presenta lo que llaman «narrativas localizadas». Se trata de una nueva forma de información contextual de la imagen, con texto y una voz sincronizada que va describiendo la foto a medida que un cursor se mueve por el archivo.

Google explica que dispone de más de 500.000 imágenes con esta nueva narrativa. Una base suficiente grande como para ir entrenando su algoritmo y ser capaz en un futuro de que el algoritmo de Google haga algo similar con otras imágenes.

 

 

La voz empieza describiendo el centro de la imagen, con los colores, la ropa y el tipo de objetos que lleva. Estas narrativas localizadas son generadas por anotadores que ofrecen una descripción identificando la posición de cada objeto en la imagen y relacionándolos con un gesto del cursor. El objetivo es intentar que la IA de Google tenga una base de datos sobre la que trabajar, pudiendo tener una idea clara de dónde está situado cada objeto.

Estructurando los objetos de la imagen a través de voz, texto y un cursor

Anteriormente, cuando el algoritmo de Google trabajaba con fotos de «un perro» este sabía dónde estaba situado ya que sabe diferenciar el animal de lo que es el cielo o la tierra. Sin embargo, si hablamos de la «oreja del perro» o el «gorro naranja», la posición exacta es más complicada. Además de no tener una estructura clara de dónde está situada cada cosa. Con estas narrativas localizadas, Google tiene una herramienta para especificar mejor a su algoritmo qué es cada cosa.

Para que las descripciones sean lo más accesibles posibles y estructuradas, los anotadores transcriben manualmente su descripción y la relacionan con distintos colores. Esto permite generar «zonas» dentro de la imagen y además tener un texto para describir la foto. Google tiene por tanto una foto, una voz que describe la imagen, un texto y un rastreo del ratón; varios elementos que de manera sincronizada permiten a Google tener una descripción bastante precisa de lo que hay en la foto.

Una de las limitaciones de las descripciones o categorías a secas es que es difícil generar un enlace directo entre lo que es la visión y el lenguaje. El subtítulo puede ser muy específico, pero Google no tenía ninguna herramienta para especificar a qué objeto se refería en cada palabra. Ahora con la combinación de estas narrativas localizadas Google por fin tiene un punto de partida para afinar, todavía más, su entendimiento de las imágenes.

Según los datos de Open Images V6, se incluyen más de 2.5 millones de anotaciones de humanos realizando acciones independientes como «saltar», «sonreír» o «tumbarse». Para que cuando le preguntemos sobre qué hay en una imagen no solo sepa decirnos si hay un hombre o un animal, también detalles tan especificos como la acción que está haciendo, si la chaqueta le viene grande, de qué color es el zapato o todo tipo de detalles.

Porque la base de datos sobre la que trabaja la IA de Google está creada por humanos, pero cuanto más precisos sean estos datos, mejor resultado logrará producir el algoritmo.

 

Con información de Xataka.

Suscribete
Notificar
guest
0 Comments
Inline Feedbacks
View all comments

TAMBIÉN TE PUEDE GUSTAR