El trabajo de Lorenzo Mur y de Carlos Plou, del grupo de investigación de Robótica, Visión por Computador e Inteligencia Artificial, fue premiado en el Congreso Internacional “Computer Vision and Pattern Recognition”, celebrado en Seattle
Ahora presentan sus trabajos en Milán, en la “European Conference on Computer Vision”
Sus líneas de investigación se centran en crear una Inteligencia Artificial que entienda las escenas a partir de cámaras, igual que las tenemos las personas con visión, para ayudar a través de dispositivos asistenciales, a quienes tienen problemas de visión o la han perdido completamente
(Zaragoza, jueves 3 de octubre de 2024). Lorenzo Mur y Carlos Plou forman parte del grupo de Robótica y Visión por Computador e Inteligencia Artificial del I3A (el Instituto de Investigación en Ingeniería de Aragón de la Universidad de Zaragoza). Su trabajo científico consiste en interpretar y analizar de manera automática escenas complejas utilizando técnicas avanzadas de computer vision y aprendizaje profundo (inteligencia artificial). Una posible aplicación son los dispositivos asistenciales que ayudan a quienes tienen problemas de visión o la han perdido completamente.
Su trabajo fue premiado en el Congreso Internacional “Computer Vision and Pattern Recognition”, celebrado en Seattle, el evento más relevante en esta materia.
Anticipando el futuro
Lorenzo Mur investiga en métodos de visión egocéntrica, como si la persona llevase una cámara en las gafas. Desarrolla métodos de Inteligencia Artificial que “comprendan” lo mejor posible qué está haciendo la persona, dónde y cuáles son los objetos a su alrededor, qué es lo siguiente que va a realizar… Así, “identificando dónde están los objetos, podemos destacar su silueta dentro del implante de la persona ciega”, explica.
Su trabajo se complementa con el de Carlos Plou. Él está más enfocado en el reconocimiento de acciones dentro de videos, empleando cámaras de eventos o modelos de lenguaje. En su investigación utiliza métodos de IA segura y fiable. Un problema conocido de ChatGPT y otros similares “es que siempre da una respuesta y si no la sabe se la inventa. Con estos métodos conseguimos que si no sabe la respuesta diga, no lo sé, o es posible que sea así, pero no estoy seguro del todo”.
¿Dónde están las llaves?
Uno de los retos a los que se enfrentaron los investigadores podría aplicarse a una escena de una película, por ejemplo, “Ok Google, ve a la escena donde el dragón incendia la ciudad”. Pero, viajando a un futuro, “llevar unas gafas que graban o recogen todo lo que hacemos en el día a día, podríamos preguntarle a nuestro modelo de IA dónde dejé las llaves de casa. El modelo haría el papel “de madre”, recordándonos donde las dejamos por última vez”, subrayan los dos jóvenes investigadores.
Uno de los objetivos del grupo de investigación del I3A es desarrollar un asistente IA para personas mayores o con problemas de visión, que pueda ser tan fácil de llevar como unas gafas. A través de una cámara en la montura y procesando toda la información, la IA entiende lo que la persona está realizando y dónde se encuentra. Los métodos que se están desarrollando permitirían a largo plazo que, si una persona se deja encendida la vitrocerámica, el sistema le avisaría para evitar un incendio.
Primer y segundo premio en Seattle
En el congreso Computer Vision and Pattern Recognition, celebrado este verano en Seattle, compitieron para crear un modelo de IA para que dándole un vídeo y una descripción encontrara el fragmento del vídeo que corresponde a esa descripción. “Nuestro sistema de IA te dice en qué parte del vídeo tiene lugar cada acción”, comentan. Así, por ejemplo, podría aplicarse a una escena de una película, “Ok Google, ve a la escena donde el dragón incendia la ciudad”. Pero, viajando a un futuro, “llevar unas gafas que graban o recogen todo lo que hacemos en el día a día, podríamos preguntarle a nuestro modelo de IA dónde dejé las llaves de casa. El modelo nos recordaría “donde las dejamos por última vez”, subrayan los dos jóvenes investigadores. La propuesta les llevó a ganar el primer premio.
Lorenzo Mur además consiguió el segundo premio con su trabajo, debía construir un modelo para predecir cuál era la siguiente acción que iba a pasar en un vídeo, antes de haberla visto. El objetivo del grupo de investigación del I3A es tener un sistema con IA montado en las propias gafas. A través de una cámara en la montura y procesando toda la información, la IA entiende lo que la persona está realizando y dónde se encuentra. Con el método de anticipación de acciones, esto permitiría que, si un operario arreglando un cuadro eléctrico tuviera un fallo, el sistema le avisaría para evitar un cortocircuito.
Lograr estos premios en el mayor congreso internacional de IA y Visión por Computador es un paso importante para jóvenes investigadores que se enfrentan a los sinsabores que deja la vida del doctorado. “La competencia que hay actualmente en investigación de IA, donde resulta casi imposible competir con las grandes empresas como Meta, Google, Amazon... Sin duda, recibir un premio así es un empujón de motivación”, remarca Lorenzo Mur.
Para Carlos Plou era su primera experiencia en este congreso y “me sirvió para darme cuenta del impacto de nuestro grupo de investigación. Trabajando día a día, no te das cuenta del impacto de tus profesores, pero cuando vas a un evento de esta magnitud,y que la gente sepa perfectamente dónde está Zaragoza y te pregunta por alguno de tus profesores, eres consciente del grupo en el que estás”.
Destino Milán: European Conference on Computer Vision
En este momento, participan en la European Conference on Computer Vision (ECCV), el segundo evento internacional más grande de visión por computador e IA.
Lorenzo Mur presenta el trabajo por el que obtuvo el 2º premio en el CVPR en colaboración con la Universidad de Catania, Italia.
Y Carlos Plou, presentará un trabajo de reconocimiento de acciones durante el sueño en colaboración con Bitbrain y otro proyecto para crear automáticamente shows de drones, “escribiendo la forma que quieres generar, con un modelo muy similar al que está detrás de ChatGPT en la tarea de generación de imágenes”, comenta este joven ingeniero. Un trabajo que desarrolla junto a otro joven investigador, Pablo Pueyo, con el respaldo de la Universidad de Stanford.