Motores de Creación Artificial

Tiempo de lectura aprox: 2 minutos, 55 segundos

¡Cómo avanza la Inteligencia Artificial! Estas casas no existen. Fueron creadas por motores de IA, que conocen el mundo porque han visto millones de fotos etiquetadas.

Hemos querido comparar algunos de los modelos más relevantes de IA de generación de imágenes.

Stable Diffusion (22 de agosto de 2022): modelo de texto a imagen que permite crear arte en segundos. Es un gran avance en velocidad y calidad, lo que significa que puede ejecutarse en GPU de consumo. En la publicación previa del blog se encuentra el enlace al podcast de xHUB.ai, en el que conversan sobre este motor y en el que nuestro Responsable de Investigación, Juan Romero, tuvo el placer de participar.

Este motor desarrollado por Stability con el trabajo de HuggingFace y CoreWeave incorpora los siguientes elementos:

a) Modelo publicado bajo licencia Creative ML OpenRAIL-M, permitiendo el uso comercial y no comercial.

b) Cuenta con un clasificador de seguridad basado en IA incluido en el paquete general del software. Los parámetros pueden ser ajustados por los usuarios.

La investigación para la generación del modelo ha sido dirigida por Patrick Esser de Runway y Robin Rombach del grupo de investigación Machine Vision & Learning en LMU Munich (anteriormente laboratorio CompVis en la Universidad de Heidelberg) basándose en su trabajo anterior sobre modelos de difusión latente con el apoyo de Eleuther AI, LAION y el propio equipo de IA generativa.

El modelo se basa en el modelo de difusión latente combinado con conocimientos de los modelos de difusión condicional de su desarrolladora Katherine Crowson como son Dall-E 2 de Open AI o Imagen de Google Brain.

NeuroGen (21 de diciembre de 2021): herramienta que te ayuda a crear arte con IA de forma rápida y sencilla. Puede generar videos e imágenes a partir de indicaciones de texto.

Una vez que se genera el arte, pueden hacerse varias cosas con él:

  • Crear vídeos a partir de las imágenes creadas.
  • Editar con el editor incorporado.
  • Descargar las imágenes para editar de forma autónoma.
  • Compartir las creaciones.

La licencia del motor es de uso libre siempre que no se violen las leyes locales, nacionales o internacionales.

Los creadores de este motor son científicos e ingenieros de todo el mundo, encontrándose también los creadores de Stable Diffusion entre ellos.

MidJourney (27 de julio de 2022): el laboratorio de investigación independiente homónimo a creado este motor. Se trata de un pequeño equipo autofinanciado centrado en el diseño, la infraestructura humana y la IA. Cuentan con 11 empleados a tiempo completo y varios asesores.

El motor genera imágenes artísticas a partir de texto de forma sencilla a través de Discord. Primero se le indica a la máquina que debe imaginar con el comando /imagine y da una imagen con 4 resultados en conjunto. Posteriormente se pueden solicitar a la propia máquina variaciones de alguna de las cuatro imágenes y creará otra imagen de 4 variaciones a esta en conjunto. Cuándo se tiene la imagen deseada, ésta se puede ampliar y descargar.

Todas las imágenes creadas se guardarán en la aplicación del motor (fuera de Discord) y puede accederse a ellas logueándose en la app web.

Dall-E (5 de enero de 2021): motor de creación artificial a partir de texto creado por OpenAI. OpenAI LP está gobernado por la junta de la organización sin fines de lucro OpenAI, compuesta por Greg Brockman (presidente y presidente), Ilya Sutskever (director científico) y Sam Altman (CEO), los tres empleados de OpenAI LP, y los no empleados Adam D’Angelo, Reid Hoffman, Will Hurd, Tasha McCauley, Helen Toner y Shivon Zilis. Además, entre los inversores de la organización está Microsoft.

Parece que las máquinas creativas están teniendo un boom y no queremos quedarnos atrás, por eso, hemos estado probando lo que pueden ofrecer. Si les pides la mejor fotografía para un anuncio inmobiliario puedes obtener diferentes resultados. Estos son los que más le han gustado a PhotoILike de cada máquina.

Se trata de las imágenes preferidas por PhotoILike de las generadas en los cuatro motores, es decir, la mejor valorada de cada motor son las que se muestran. En concreto, de los sistemas que hemos probado nuestra IA se decanta por la opción que obtenemos con Stable Diffusion (seguido de NeuroGen, MidJourney y Dall-E, en este orden).

Por otro lado, no todas las imágenes que han generado los sistemas han sido tan realistas. A continuación, una muestra de las peor valoradas por nuestra máquina (2 por cada motor) que, además, tienen defectos, no parecen reales o no serían tan idóneas para atraer clientes.

También hemos probado la aplicación para teléfono móvil Wonder (desarrollada por Codeway Dijital y lanzada el 30 de mayo de 2022), que sigue los mismos criterios de creación en base a escritura de texto, en este caso seleccionando (o no) un estilo artístico.

Buscando el mayor realismo no hemos seleccionado ningún estilo artístico, pero, en este caso, los resultados han sido totalmente creativos y el realismo brilla por su ausencia, por tanto, no tendría sentido pasarlos por nuestra IA, ya que no se trata de imágenes inmobiliarias creíbles. Podéis verlas a continuación:

¿Estáis de acuerdo? ¿Cuál os gustaría más a vosotros si de un anuncio inmobiliario se tratara? ¿Qué os parecen los resultados? ¡Estamos deseando conocer vuestra opinión!

Deja una respuesta