máquinas que entienden lo que hay en la imagen

La cámara que sustituirá al fotógrafo ya está en camino

En unos años no sólo el fotógrafo identificará los elementos de una escena, también la cámara podrá hacerlo para ayudarnos a mejorar la foto o el vídeo

Por

07/07/2014 - 05:00

Hubiese sido difícil imaginar hace 10 años que hoy haríamos fotos con cámaras que reconocen por su nombre a las personas que fotografiamos o aplicaciones que permiten que todo el mundo salga con buena cara en una foto de grupo. Por eso no parece descabellado pensar que en unos años no sólo el fotógrafo será capaz de identificar los elementos de una escena, también la cámara podrá hacerlo para ayudarnos a mejorar la foto o el vídeo que deseamos captar.

Incluso es posible que aparezcan cámaras que logren ser lo suficientemente listas como para hacer alguna que otra foto por símismas. Parece ciencia ficción pero ya hay científicos que trabajan para que algo así sea realidad.

Para conocer las tecnologías que logran que una máquina entienda lo que aparece en una imagen hemos contactado con dos especialistas en ese campo. Ambos acaban de participar en el congreso sobre visión informática CVPR. Una cita para científicos en la que estos intercambian conocimientos sobre algunas de las cosas que cambiarán nuestra forma de producir y usar imágenes a corto, medio y largo plazo.

Cámaras que reconocen más que caras

Entre los trabajos premiados en ese evento este año se encuentran cosas como una tecnología que es capaz de reconocer objetos en una misma escena captada con diferentes puntos de vista (si alguien tiene interés aquí puede leer el complejo informe científico en el que se basa). ¿Para que sirve algo así? Es difícil decirlo, pero hallazgos como ese pueden son los que pueden terminar cambiando completamente nuestros hábitos a la hora de crear y ver imágenes.

Florent Perronnin trabaja en el departamento Computer Vision del centro de desarrollo de Xerox en Europa, un laboratorio en el que entre otras cosas se investiga sobre tecnologías de imagen. Entre las investigaciones en las que participa Perronnin se encuentra una iniciada hace años que busca determinar lo quénos resulta atractivo de una imagen.

Nos cuenta por correo electrónico que para ello “se utiliza una base de datos y tecnología de seguimiento ocular con un gran número de personas que han visto muchas imágenes. Con esta base de datos hemos entrenado a Machine Learning, un algoritmo para distinguir entre los elementos de la imagen que llaman la atención y los que no lo hacen”. Para entender el alcance de esta investigación basta con decir que han tenido que usar una supercomputadora con 20.000 procesadores para imitar la estructura del sistema nervioso humano.

Entre las aplicaciones prácticas de esta tecnología están la robótica, la videovigilancia, la clasificación de los elementos que aparecen en vídeos y la comprensión de escenas por parte de una máquina. Al preguntarle si también puede ser útil en cámaras fotográficas Perronnin afirma que sí: “Las cámaras a menudo contienen algoritmos que se centran de forma automática en los rostros. Las del futuro podrían hacer algo similar con elementos de imagen más complejos. Podría sugerir modificaciones tales como atenuar el contraste con el fin de hacer un elemento de imagen determinada destaque para llamar la atención”.

Relacionar imágenes con palabras clave

Eleonora Vig, una científica que trabaja en el mismo centro que Florent Perronnin, estudia de que forma un ordenador puede ser capaz de analizar los elementos de una imagen para clasificarla en función de palabras clave. Estos son para ella los retos a los que se enfrenta una investigación de ese tipo.

“Los humanos son muy buenos en la comprensión de las imágenes representadas como matrices de píxeles RGB, pero este no es el caso de las computadoras.Para entender las imágenes, las computadoras necesitan una representación que es más semántica. Esta representación debe describir fielmente el rico contenido de las imágenes. Debe ser muy precisa en el sentido de que no debe variar pese a factores tales como el punto de vista o de las condiciones de iluminación”.

Al preguntarle cómo puede lograrse algo así nos cuenta que “desarrollamos tecnologías de alta precisión que pueden describir exhaustivamente el contenido de las imágenes usando miles de palabras clave. Por lo tanto, nuestra tecnología es complementaria a los metadatos proporcionados por las cámaras (...) Utilizamos una tecnología patentada que llamamos vectores de Fisher. En pocas palabras esto implica primero modelar lo que es el contenido típico de cualquier imagen y ver que es lo que hace diferente a una imagen concreta”.

Las aplicaciones prácticas de esta investigación de momento se limitan al terreno industrial. Vig cita como ejemplos la clasificación de documentos en función de su contenido al escanearlos, en el sector del transporte diferenciar diferentes clases de vehículos y en el comercio para saber si un determinado producto está agotado en un estante.

Aplicaciones ya en el mercado

Por sus explicaciones entendemos que se trata de una tecnología similar a la que utiliza Google en su aplicación Googles de reconocimiento de objetos, que dicho sea de paso no funciona muy bien, o la que usa Amazon en su teléfono Fire, el cual es capaz de reconocer a través de una imagen captada por su cámara más de 70 millones de productos. Al menos eso afirma la compañía.

El lado oscuro de las tecnologías de reconocimiento de objetos son que estas pueden usarse para que empresas y gobiernos se entrometan aún más en nuestra privacidad. Así que quizá los robots nos den en el futuro clases de fotografía, pero también es posible que algún día sea difícil dar un paseo por la calle sin que una cámara sepa dónde estamos para controlarnos o vendernos la moto a la carta, como sucedía en la película Minority Report.

Fotografía Tecnología

El redactor recomienda

Cinco cámaras que aguantarán incluso las vacaciones más salvajes Ramón Peco
Cinco tecnologías que podrían mejorar la cámara de tu próximo 'smartphone' Ramón Peco
Google patenta un sistema para insertar una cámara en una lentilla Teknautas