ChatGPT acaba de obtener una gran actualización de generación de imágenes

Sí, esto es AI. Crédito: OpenAI
Operai ha aumentado significativamente las capacidades de generación de imágenes de ChatGPT, agregando la actualización como parte del modelo GPT-4O introducido en mayo pasado. El nuevo y mejorado generador de IA se está implementando ahora para todos los usuarios de ChatGPT, en todos los planes pagos y el nivel gratuito (aunque los usuarios gratuitos están más restringidos en cuánto pueden usarlo).
Ha sido posible generar imágenes a través de la interfaz CHATGPT durante un tiempo, aunque detrás de escena el trabajo fue cultivado en el modelo de imagen Dall-E 3. Ahora, todo será manejado por GPT-4O, para una experiencia más consistente y nativa.
Aquí hay muchas mejoras, que cubren algunas de las áreas con las que las herramientas de creador de imágenes de IA generalmente han luchado: representar texto, mantener a los personajes consistentes en las imágenes y los diagramas de dibujo. Operai dice que ahora puede esperar resultados más “precisos, precisos, (y) fotorrealistas” de sus indicaciones.
Imágenes más realistas y precisas
Las imágenes generadas no son perfectas cada vez, pero se están acercando mucho. Crédito: Lifehacker a través de chatgpt
Las imágenes hechas con IA a menudo vienen con un brillo artificial que te dice que han sido soñados por algoritmos, y eso debería ser menos obvio con las imágenes GPT-4O. Una de las imágenes de demostración mostradas por OpenAi tiene una mujer escribiendo en una pizarra, con una vista reflejada en ella, todo bien como por vida, aunque tenga en cuenta el pequeño subtítulo en la parte inferior que le dice que este fue el mejor de los ocho intentos que Chatgpt tenía en el aviso.
Los usuarios de arte de IA crean también deberían mantenerse más estrechamente a las indicaciones dadas, dice Openai. Entonces, si desea objetos específicos en lugares específicos, o necesita personas en ciertas posiciones, entonces estas instrucciones aparentemente se llevarán a cabo de manera más fiel. Una de las imágenes de ejemplo más impresionantes muestra una tira cómica de cuatro paneles representada por ChatGPT, sin errores o inconsistencias obvias.
Traté de hacer que Chatgpt convirtiera una novela de Austen en una tira cómica y produzca una imagen fotorrealista de una casa majestuosa con un jardín, y los resultados fueron impresionantes, si no es perfecto. Ciertamente son significativamente mejores de lo que el chatgpt de imágenes estaba produciendo anteriormente, aunque la representación lleva más tiempo completarse (generalmente minutos en lugar de segundos).
El texto y los diagramas se mejoran enormemente
El texto ya no es un problema importante, por lo que se pueden hacer portadas de libros falsos con facilidad. Crédito: Lifehacker a través de chatgpt
Tratar de lograr que la IA represente el texto y los diagramas con precisión ha sido un desafío durante mucho tiempo: la forma en que se construyen estas herramientas significa que son mucho mejores para inventar y remezclar las imágenes en las que han sido entrenadas, en lugar de reproducir una copia exacta del alfabeto o una serie de rectángulos y flechas.
El nuevo modelo GPT-4O puede hacer que el texto y los diagramas a un alto nivel de detalle y precisión, por lo que no debe ver tantos errores e inconsistencias extrañas. El showreel de OpenAI incluyó un menú, una invitación, un pase de embarque y un diagrama que explica el experimento de prisma de Newton, todo generado a partir de un solo mensaje de texto.
Cuando le pedí a ChatGPT que produjera una infografía que explicara el ADN en términos simples, y una portada del libro con un título y autor especificados, siguió el resumen exactamente: el gráfico era básico pero preciso (según el mensaje), y la portada del libro parecía algo que podría ver en una tienda. Igual de importante, no había artefactos extraños o inconsistencias en las imágenes.
Consistencia y edición
Profesor, ¿eres tú? La consistencia de carácter e imagen todavía necesita algo de trabajo. Crédito: Lifehacker a través de chatgpt
He escrito antes sobre las limitaciones de la edición de imágenes de ChatGPT, y esta es otra área que se ha actualizado. Ahora es más fácil mantener a los personajes y escenas consistentes entre las imágenes, solo ajustar partes de una imagen y dejar el resto intacta, y construir diferentes capas de una imagen. Incluso puede crear fondos transparentes, si es necesario, o especificar colores utilizando códigos hexadecimales.
¿Qué piensas hasta ahora? Publica un comentario.
Otras mejoras entran en la forma en que ChatGPT puede aceptar y remezcar sus propias imágenes, e incorporar otra información (de la web y sus datos de capacitación): por lo tanto, una de las imágenes de demostración Operai se construyó a partir de la pronta. “Haga una infografía visual que describa por qué SF está tan nebulosa” y ChatGPT hizo exactamente eso (bueno, mejor tres).
En mis propias pruebas, encontré chatgpt mucho mejor en la edición de imágenes y bastante competente en la remezcla de imágenes en diferentes estilos. Todavía lucha hasta cierto punto manteniendo la consistencia entre las imágenes, especialmente con objetos y caracteres complejos. Definitivamente es mejor de lo que fue en esto, pero todavía hay una tendencia a exagerar las ediciones, haciendo que la IA sea menos útil para ajustar imágenes o hacer una serie de varias imágenes que necesitan coincidir.
Problemas de derechos de autor y seguridad
Los diagramas ahora son mucho menos sin sentido y más precisos. Crédito: OpenAI
Al igual que con cualquier anuncio generativo de IA, los problemas sobre los derechos de autor, el mal uso y las demandas de energía se me recuerdan una vez más. Operai está registrado diciendo que es imposible construir estas herramientas sin capacitar en imágenes con derechos de autor, aunque recientemente ha comenzado a firmar ofertas de contenido con proveedores como Shutterstock. Brad Lightcap, director de operaciones de OpenAi, le dijo al Wall Street Journal que el generador de imágenes GPT-4O rechazará las solicitudes para imitar el trabajo de cualquier artista vivo.
Cuando se trata de seguridad, Operai dice que las imágenes generadas vienen con metadatos C2PA para identificarlas como generadas por IA, aunque estos metadatos se pueden eliminar fácilmente con algo tan simple como una captura de pantalla. El generador de IA también está construido para rechazar cualquier intento de crear “materiales de abuso sexual infantil y defectos sexuales”, dice OpenAi, así como otras indicaciones que violan sus políticas de contenido.
Este es claramente un gran paso adelante para las imágenes de IA: la tecnología actualizada es realmente asombrosa a veces, y muchos de los signos reveladores de IA y los errores cometidos por la tecnología están desapareciendo. Sin embargo, plantea algunas preguntas importantes sobre el futuro, todos corremos, uno en el que las falsificaciones se realizan tan fácilmente, donde los robots realizan el trabajo creativo en lugar de las personas, y donde perdemos colectivamente nuestra capacidad de dibujar una imagen, crear una oración o escribir una línea de código. Y luego, ¿cómo encontrará la IA generativa más datos de entrenamiento?