La innovación en la inteligencia artificial (IA) continúa expandiéndose a un ritmo sin precedentes, y Stability AI ha presentado una vista previa de lo que será Stable Diffusion 3, su modelo más avanzado y potente hasta la fecha para la generación de imágenes a partir de texto. Stable Diffusion 3 se perfila como uno de los mejores modelo de texto a imagen, mejorando significativamente el rendimiento en prompts de múltiples sujetos, la calidad de la imagen y las habilidades ortográficas. Aunque el modelo aún no está disponible para el público general, Stability AI ha abierto una lista de espera para una vista previa temprana.
Una de las mejoras más notables de Stable Diffusion 3 es su capacidad para incluir texto dentro de las imágenes generadas, una tarea que ha representado un desafío para los modelos anteriores. Ejemplos publicados demuestran cómo Stable Diffusion 3 puede crear imágenes que incorporan texto con una precisión y coherencia impresionantes, superando las limitaciones de sus predecesores.
Arquitectura del nuevo modelo de Stable Diffusion
El CEO de Stability, Emad Mostaque, destaca que Stable Diffusion 3 se basa en un «nuevo tipo de transformador de difusión», similar a Sora, pero con adaptaciones y mejoras significativas. Esta tecnología aprovecha los avances en los transformadores para escalar eficientemente y manejar entradas multimodales, lo que resulta en una generación de imágenes de mayor calidad y más detalladas.
El conjunto de modelos de Stable Diffusion 3 posee desde 800 millones hasta 8 mil millones de parámetros combinando una arquitectura transformer de difusión y flow matching, Stability AI planea publicar un informe técnico detallado pronto, mostrando todas las capacidades y el funcionamiento interno de su nuevo modelo.
Flow Matching: Una Innovación en la Generación de Imágenes
Stable Diffusion 3 también introduce la tecnología «flow matching», una técnica avanzada que facilita la transición de ruido aleatorio a imágenes estructuradas de manera fluida. Este enfoque minimiza la necesidad de simular cada paso del proceso de generación de imágenes, enfocándose en lugar de ello en la dirección general que debe seguir la creación de la imagen, permitiendo resultados más refinados y detallados.
Un futuro creativo sin límites
La dedicación de Stability AI para asegurar que la IA generativa sea abierta, segura y universalmente accesible se mantiene firme. Con Stable Diffusion 3, la compañía busca ofrecer soluciones adaptables que permitan a individuos, desarrolladores y empresas desatar su creatividad, alineándose con su misión de activar el potencial de la humanidad.
A lo largo de los años, Stability ha lanzado una serie de modelos de IA para la generación de imágenes, desde Stable Diffusion 1.4 hasta la versión 3, consolidándose como una alternativa abierta y accesible frente a opciones propietarias como DALL-E 3 de OpenAI. A pesar de las controversias relacionadas con el uso de datos de entrenamiento y los riesgos de abuso, los modelos de Stable Diffusion se destacan por su transparencia, capacidad de ejecución local y personalización.
Para aquellos interesados en explorar el uso de otros modelos de imágenes de Stability AI para uso comercial antes del lanzamiento de Stable Diffusion 3, se invita a visitar la página de Membresía de Stability AI para auto alojamiento o la plataforma de desarrolladores para acceder a su API. Para mantenerse actualizado sobre el progreso de Stability AI, se anima a seguirlos en Twitter, Instagram, LinkedIn y unirse a su comunidad de Discord.