IA visual: La evolución de la inteligencia artificial más allá del texto
La capacidad de comprender material audiovisual ha convertido a esta tecnología en una herramienta cada vez más presente en distintos ámbitos, ampliando las formas en que las personas interactúan con la inteligencia artificial.
La inteligencia artificial visual corresponde a una rama de la IA que permite a las máquinas interpretar imágenes y videos, no solo para extraer información, sino también para tomar decisiones a partir de ella.
Esta herramienta ha transformado la forma en que interactuamos con la IA, ya que permite comunicarse sin necesidad de escribir y procesar información en tiempo real. El principal cambio ha sido la transición desde un lenguaje escrito a uno audiovisual.
Frente a estos avances, Gianluca Contenla, AI Engineer de Samsung Electronics, sostuvo que “ha evolucionado la forma en que nos comunicamos con la IA. En un inicio era exclusivamente por texto; le escribíamos en el computador o en el teléfono y nos respondía. Este formato visual, ya sea imágenes, videos, presentaciones o documentos, mezcla texto con contenido visual, permitiendo que la IA entienda mejor cómo trabajamos los humanos”.
Esta evolución ha acercado la IA a las personas, ya que ahora puede observar junto al usuario y analizar situaciones en tiempo real, con un impacto que se extiende a áreas como la educación, la salud, el comercio y la vida cotidiana.
En este contexto, la imagen se convierte en la principal fuente de información, permitiendo que la IA comprenda y analice diferentes escenarios. Contenla también destaca que “una ventaja importante es la facilidad o democratización que ha tenido la IA; hoy cualquier persona puede editar y crear contenido sin ser experta”.
No se trata solo de lo que la IA puede entender, sino de lo que es capaz de hacer con esa información. Entre sus principales aplicaciones destaca la creación de videos coherentes, junto con la edición y mejora significativa en la calidad de imágenes y material audiovisual.
Desde la experiencia de Contenla, algunas de las capacidades más relevantes de la IA visual incluyen la generación de contenido altamente realista —con videos que parecen protagonizados por actores reales—, la creación de avatares a partir de fotografías personales, el reconocimiento de voz y la incorporación de música generada automáticamente.
El avance de la IA visual también plantea un cambio en la relación entre las personas y la tecnología: Ya no se trata únicamente de escribir instrucciones o buscar respuestas, sino de interactuar mostrando el entorno en tiempo real.