Dall-e, nuevos desafíos de la Inteligencia Artificial

Publicado 11 de octubre de 2022

En Innovación tecnológica y sistemas inteligentes, Sistemas Inteligentes

Esta entrada está disponible también en los siguientes idiomas: Euskara, English

Crea imágenes realistas a partir de conceptos expresados de forma natural, como «un astronauta a caballo» o «un plato de sopa que parece un monstruo». Y cualquier cosa que puedas imaginar, por surrealista que sea. Eso es lo que hace Dall-E 2, el último desarrollo en sistemas de inteligencia artificial (IA) anunciado por OpenAI, una empresa de investigación y desarrollo cofundada por Elon Musk.

De hecho, hemos visto aplicaciones similares y sistemas de inteligencia artificial que generan imágenes a partir de texto o palabras clave. Pero las imágenes generadas por la última demo de Dall-E no dejan indiferente a la gente, gracias a su calidad y realismo, así como a su estilo surrealista.

El nombre Dall-E combina los nombres del personaje de Pixar Wall-E y el maestro surrealista Salvador Dalí. La herramienta acaba de ser habilitada para el público recientemente, únicamente debemos registrarnos y disfrutar pidiéndo que cree todo tipo de imágenes para ti.

La empresa compartió ejemplos de imágenes que crea Dall-E al combinar conceptos, funciones y estilos en una oración corta. Así, la frase «un plato de sopa que parece un monstruo de plastilina» daría lugar a esta imagen y sus variaciones

Imagen generada por la IA Dall-E cuando interpreta la frase «un plato de sopa que parece un monstruo hecho con plastilina”. Imagen: OpenAI

Mientras que “un plato de sopa que parece un monstruo tejido con lana” resultaría en esta otra imagen —y sus variantes.

Imagen generada por la inteligencia artificial Dall-E en respuesta a la frase “un plato de sopa que parece un monstruo tejido con lana”. Imagen: OpenAI

Cómo funciona Dall-E

La red neuronal de Dall-E «ya aprende la relación entre las imágenes y el texto que las describe», explicaron los investigadores. «No solo entendió objetos individuales, como caballos o astronautas», dijeron, sino que también entendió «cómo los objetos y los movimientos se relacionan entre sí». Así es como Dall-E «sabía» cómo representar de manera realista a los astronautas montando a caballo. Para generar la imagen de Dall-E, utiliza un proceso llamado «difusión», que primero reorganiza un patrón de puntos aleatorios y los modifica hasta lograr el resultado deseado, creando un «mapa que no existía antes».

Para los investigadores, el desarrollo de Dall-E cumple con tres condiciones básicas para el desarrollo de IA “útil y segura”:

Permite que el público se exprese de una manera que antes era imposible. Esto revela si el sistema de IA «entendió» lo que se le preguntó por escrito o, por el contrario, si simplemente repitió lo que había aprendido.

Ayuda a comprender cómo los sistemas de IA ven y entienden el mundo. En comparación con la primera versión de Dall-E, lanzada hace más de un año, Dall-E agrega 2 nuevas funciones y mejora la comprensión y la calidad y complejidad de las imágenes, así como la velocidad a la que se generan.

Puede tomar fotos existentes y crear variaciones complejas, como cambiar el ángulo y el estilo del retrato.

Permite editar una imagen existente para reemplazar un objeto por otro, agregar objetos que no se encuentran en la imagen original, teniendo en cuenta estilos, sombras, reflejos y texturas. Incluso puedes cambiar el significado de la imagen.

En el contexto académico puede llegar a ser de utilidad para poder utilizar en infografías y presentaciones imágenes que encajen en un alto porcentaje con lo que queremos expresar y evitar tediosas búsquedas en la web para encontrar imágenes que puedan estar sujetas a derechos de autor.

Limitaciones en el uso de Dall-E

Hasta hace poco tiempo además de limitar su utilidad (ahora ya abierto bajo registro para el público en general), OpenIA ha impuesto algunas restricciones en el uso de sus nuevos modelos de IA. Estas restricciones están destinadas a evitar el uso dañino o abusivo de la herramienta.