Así funciona por dentro la tecnología de reconocimiento de imágenes de Google

Así funciona por dentro la tecnología de reconocimiento de imágenes de Google

¿Alguna vez te has preguntado cómo es posible que Google Fotos sepa qué aparece en tus imágenes? Así funciona Cloud Vision.

Cloud Vision (o Vision API) es una herramienta que Google pone en manos de los desarrolladores que quieran automatizar el análisis del contenido de cientos de miles de fotografías. También es la herramienta que lo sabe todo sobre nuestras fotografías subidas en Google Fotos, y es la herramienta responsable de identificar todos y cada uno de los objetos que protagonizan nuestras instantáneas.

La herramienta de Google es capaz de analizar millones de fotografías para reconocer los objetos que aparecen en todas y cada una de ellas

El reconocimiento de caras es solamente una muestra del potencial de Cloud Vision, la plataforma de reconocimiento de imágenes que Google pone a disposición no solamente de su aplicación de fotos, sino también a cualquier otra empresa que pueda necesitar dejar en manos de un ordenador el reconocimiento de miles de fotografías.

Pero, ¿cómo es posible que un ordenador sea capaz de interpretar por sí mismo el contenido de una imagen? ¿Qué información puede obtener la herramienta de Google a partir de una simple fotografía? Todo eso -y mucho más- nos lo resuelve Google en una demostración interactiva.

La demostración de Cloud Vision

Google Cloud Vision en forma de demostración

Para dejar claro el potencial de su herramienta, Google ha puesto a disposición de cualquier persona una página web en la que podemos comprobar en primera persona cómo organiza Cloud Vision la información que extrae a partir de las fotografías.

La demostración está disponible en el siguiente enlace (para poder acceder necesitaréis estar navegando desde la versión de ordenador de Chrome):

Enlace de Cloud Vision Explorer

Dentro de esta página, lo que os encontraréis es una «galaxia» virtual en la que podéis navegar entre más de 80 mil fotografías que han sido procesadas por Cloud Vision. Utilizando la rueda del ratón os podéis desplazar entre las diferentes categorías de imágenes, y pulsando sobre alguna de las fotografías podéis visualizar la información que el sistema ha obtenido a partir de la imagen.

Demo de Cloud Vision API

La API de Cloud Vision se puede contratar por precios que van desde 0,60 dólares por cada 1.000 fotografías analizadas

Google Fotos es la máxima representación de los avances que la compañía estadounidense ha logrado en materia de reconocimiento de fotografías a gran escala. Prueba a entrar en la aplicación y escribe en el buscador -por ejemplo- la palabra «coche»; ¿cómo es posible que se te muestren como resultado fotografías en las que aparece un coche, si tú nunca le has dicho a Google qué aparece en ellas? Está claro que, nos guste o no, la inteligencia artificial ha venido para quedarse.

Los objetos: análisis en profundidad

Una señal de tráfico identificada por Cloud Vision

A la hora de analizar fotografías en las que aparecen objetos, Cloud Vision utiliza un sistema de porcentajes para determinar qué aparece en la imagen. En el ejemplo de una señal de tráfico, el sistema determina que lo que protagoniza la fotografía es una señal en un 94%, una señal de tráfico en un 90% y algo amarillo en un 85%.

Y toda esa información se consigue analizando la imagen a partir de un fichero (procedente de Wiki Commons) que no tenía absolutamente ninguna descripción adjunta. El sistema también reconoce el texto que aparece en las imágenes, aunque eso no debería sorprendernos teniendo en cuenta que Google Traductor ya dispone de esta función desde hace tiempo.

Las personas: reconocimiento rostro a rostro

Reconocimiento de rostros de Cloud Vision

Pero todavía más sorprendente resulta el funcionamiento del reconocimiento de rostros. Cada persona que aparece en una fotografía está perfectamente identificada en el sistema, y a cada rostro Cloud Vision le asigna un número que después sirve para clasificar el estado de ánimo de los protagonistas de la imagen.

Si una persona está triste, contenta o enfadada son algunas de las emociones que identifica la herramienta, así como también es capaz de reconocer la posición exacta de cada rostro.

Más información: Blog de Google Cloud Platform

Mostrar comentarios
Vídeos El Androide Libre
Análisis Zepp E
Experiencia gaming al máximo
Análisis Nest Audio
Probamos Genshin Impact en Android
Análisis Samsung Galaxy Z Fold 2
Exprimiendo la cámara de vídeo del OPPO Find X2 Pro
Análisis Motorola Moto G9 Plus
Análisis Ecovacs Deebot N3 Max
Análisis Poco X3 NFC
Opinión OPPO Watch
Probamos el Samsung Galaxy Z Fold 2 5G, el mejor plegable del mundo
Análisis Nubia Red Magic 5S
10 trucos y consejos para las notas de voz de WhatsApp
Análisis OnePlus Nord
Análisis ASUS ROG Phone 3

Lo más visto

Pagos móviles vs tarjeta: Ventajas y desventajas de cada método de pago
Todos los bancos de España que permiten pagar con el móvil