En el mundo dinámico de la inteligencia artificial, OpenAI ha sorprendido una vez más al sector tecnológico con un evento asombroso, desplegando una gama de innovaciones que están redefiniendo los límites de lo posible. En una presentación que capturó la atención de entusiastas y expertos por igual, se revelaron características que prometen transformar no sólo cómo interactuamos con la tecnología, sino también cómo ésta se integra en nuestro tejido cotidiano. Este despliegue llega apenas días después de que se presentara ‘Grok’, el chatbot desarrollado por la compañía de Elon Musk, OpenAI ha puesto sobre la mesa un festín de novedades tecnológicas y plantea una pregunta emocionante: ¿qué horizontes nuevos descubriremos a partir de ahora?
- GPT-4 Turbo
- Optimización de rendimiento y costos
- Mejoras en las llamadas a funciones
- Multimodalidad
- Actualización de los datos e interfaz de Chat GPT 4
- GPTs: una revolución en la personalización de la inteligencia artificial
- Marketplace de GPTs y beneficios compartidos
- Mejora en el seguimiento de instrucciones y soporte JSON
- Parámetro Seed y probabilidades logarítmicas
- GPT-3.5 Turbo se expande con contexto mejorado y funcionalidades avanzadas
- Lanzamiento del asistente API y el code interpreter
- Novedades en la API
- Personalización del modelo
- Rebajas en los precios de Open AI
- Open AI como escudo en los derechos de autor
- Whisper V3
GPT-4 Turbo
El nuevo modelo GPT-4 Turbo se presenta como una evolución destacada, ofreciendo capacidades mejoradas a un coste más accesible, y se distingue por su amplia ventana de contexto de 128K. Este avance representa un hito en la tecnología de IA, permitiendo procesar una cantidad de texto equivalente a más de 300 páginas en una sola interacción.
Optimización de rendimiento y costos
Una de las barreras para el uso extensivo de modelos de IA avanzados ha sido el costo. Con GPT-4 Turbo, OpenAI ha logrado mejorar la eficiencia de la infraestructura subyacente del modelo. Esto significa que ahora se requiere menos potencia de cómputo para realizar operaciones similares a las de su predecesor, lo que se traduce directamente en una reducción de costos, concretamente ¡2,75 menos!.
Mejoras en las llamadas a funciones
La nueva versión de GPT-4 Turbo trae consigo actualizaciones significativas en la funcionalidad de llamadas a funciones, ampliando la interfaz entre las aplicaciones o APIs externas y el modelo de IA. Ahora es posible para el modelo generar con inteligencia objetos JSON que contengan los argumentos necesarios para invocar múltiples funciones con una sola entrada de usuario, un avance que simplifica las operaciones que antes requerían múltiples interacciones. Esto significa que varias solicitudes se manejan en una única transacción, lo que representa un salto cualitativo en eficiencia y rendimiento. Además, GPT-4 Turbo mejora la precisión en la generación de parámetros de función, aumentando la probabilidad de que las respuestas del modelo sean las adecuadas para la tarea en cuestión.
Multimodalidad
Con la actualización de ChatGPT Plus, OpenAI ha escuchado las voces de sus usuarios, hace unos días vimos la integración por fin de computer vision (por fin🚀) y ahora presenta la multimodalidad unificando los modelos de DALLE , conexión a internet a través de Bing, el advanced data analysis y la carga de documentos e imágenes, así no será necesario saltar de un modelo a otro. Esta integración no solo mejora la usabilidad sino que también disminuye el tiempo de espera y abre un abanico enorme de nuevas funcionalidades. Además ha presentado una nueva interfaz para mejorar
Actualización de los datos e interfaz de Chat GPT 4
ChatGPT Plus se ha actualizado para ofrecer una experiencia más integrada y eficiente. Hasta la fecha con la última información hasta abril de 2023. Además prometen actualizaciones más rápidas del modelo
GPTs: una revolución en la personalización de la inteligencia artificial
Una de las misiones centrales de OpenAI es democratizar el acceso a la inteligencia artificial. Con la llegada de los modelos GPT personalizables, se reduce la brecha tecnológica permitiendo que individuos y organizaciones sin recursos de desarrollo extensos puedan beneficiarse de la IA de última generación. La equidad en la IA es crucial para evitar la creación de un nuevo tipo de brecha digital, donde solo unos pocos puedan aprovechar las ventajas de estas tecnologías. Este avance permite que cualquier usuario, sin conocimientos de programación, cree versiones de ChatGPT que cumplan con propósitos particulares, ya sea para aprender, enseñar, trabajar o jugar.
Crear un GPT personalizado es tan sencillo como iniciar una conversación. Los usuarios establecen instrucciones y conocimientos adicionales, delineando las capacidades del modelo, tales como la habilidad de buscar en la web, generar imágenes o analizar datos. La plataforma de OpenAI facilita este proceso a través de su página web, poniendo al alcance de todos la capacidad de construir herramientas de IA a medida.
Enlace con el mundo real
Mirando hacia el futuro, OpenAI visualiza a los GPTs como precursores de los «agentes», sistemas de IA capaces de realizar tareas en el mundo real. A medida que estos agentes se vuelvan más inteligentes y capaces, se espera que puedan asumir roles más activos y complejos, siempre con un enfoque cuidadoso en el trabajo técnico y de seguridad necesario para su implementación.
Los GPTs no están limitados a la esfera digital. Los desarrolladores pueden conectar estos modelos con el mundo real a través de acciones personalizadas que integran APIs externas. Esto abre un abanico de posibilidades, desde conectar bases de datos y gestionar correos electrónicos hasta facilitar transacciones de comercio electrónico. La flexibilidad en el diseño de estas acciones permite a los desarrolladores un control preciso sobre la interacción del modelo con su entorno.
Marketplace de GPTs y beneficios compartidos
OpenAI reconoce que muchos de los desarrollos más significativos provendrán de la comunidad global de usuarios. Educadores, coaches, entusiastas de la tecnología y creadores de contenido tienen la oportunidad de compartir su expertise mediante la creación de GPTs que reflejen su conocimiento y pasión. La futura Tienda GPT se convertirá en un escaparate de estas creaciones, permitiendo a los usuarios buscar, clasificar y destacar las herramientas más útiles y entretenidas.
En un giro interesante hacia la economía colaborativa, OpenAI anuncia que los creadores podrán beneficiarse económicamente del uso de sus GPTs personalizados. Este incentivo no solo estimula la creatividad sino que también promueve la calidad y la utilidad de las herramientas creadas, al tiempo que fomenta una comunidad activa y comprometida en torno a la innovación en IA.
Seguridad y privacidad en GPTs
Conscientes de las preocupaciones actuales en torno a la privacidad y la seguridad de datos, OpenAI asegura que la interacción con los GPTs personalizados es privada y que los chats no se comparten con los creadores. Los sistemas de revisión de GPT y las políticas de uso están diseñados para prevenir el intercambio de herramientas dañinas o inapropiadas, manteniendo un entorno seguro y confiable para todos los usuarios.
Mejora en el seguimiento de instrucciones y soporte JSON
El GPT-4 Turbo marca un hito significativo en la capacidad de los modelos de IA para seguir instrucciones con precisión. Este modelo perfecciona la ejecución de tareas complejas que requieren una atención meticulosa a las directivas, como la generación de respuestas en formatos específicos, como XML. Además, la integración del nuevo modo JSON eleva la utilidad para los desarrolladores, garantizando que el modelo solo genere objetos JSON válidos, lo que es esencial para quienes utilizan JSON en la API de Chat Completions fuera de la función de llamadas a funciones. Con el parámetro de API response_format, se asegura una restricción efectiva de la salida del modelo para producir objetos JSON sintácticamente impecables, facilitando aún más la integración y el manejo de datos en aplicaciones.
Parámetro Seed y probabilidades logarítmicas
GPT-4 Turbo introduce una característica significativa con el parámetro ‘seed’, que garantiza resultados consistentes y reproducibles en las interacciones con el modelo. Este avance es especialmente relevante para desarrolladores y ingenieros que necesitan reproducir resultados para depurar, escribir pruebas unitarias más robustas y tener un control más exacto sobre el comportamiento predictivo del modelo. La implementación de esta función ha demostrado ser invaluable para el equipo interno de OpenAI y se anticipa que será igualmente beneficiosa para la comunidad de desarrolladores.
Además, la próxima actualización de GPT-4 Turbo incluirá la capacidad de obtener probabilidades logarítmicas de los tokens más probables en las respuestas del modelo. Esta funcionalidad es crucial para desarrollar aplicaciones con autocompletado mejorado y otras experiencias interactivas de usuario, ya que permite una evaluación más precisa de las respuestas generadas por el modelo. La anticipación crece en torno a cómo estos nuevos desarrollos impulsarán la innovación en la creación de experiencias de usuario más intuitivas y eficientes.
GPT-3.5 Turbo se expande con contexto mejorado y funcionalidades avanzadas
La evolución de las herramientas de IA de OpenAI da un paso adelante con la actualización de GPT-3.5 Turbo. Esta nueva versión viene equipada con una ventana de contexto extendida de 16K tokens por defecto, facilitando un entendimiento más profundo y una mayor continuidad en las conversaciones más largas. Además, el GPT-3.5 Turbo actualizado incorpora mejoras notables en el seguimiento de instrucciones, ofreciendo un modo JSON optimizado y la habilidad de ejecutar llamadas de funciones en paralelo.
Evaluaciones internas resaltan una mejora significativa en la capacidad del modelo de mantener formatos específicos, con un incremento del 38% en la precisión al generar estructuras de datos en formatos como JSON, XML y YAML. Esta actualización es accesible para los desarrolladores a través de la API, utilizando el identificador gpt-3.5-turbo-1106. Para aquellos que ya utilizan el modelo anterior, la transición será automática a partir del 11 de diciembre, sin interrumpir los servicios existentes. La versión anterior seguirá disponible hasta el 13 de junio de 2024 bajo el identificador gpt-3.5-turbo-0613, asegurando una migración suave y adaptada a las necesidades de cada aplicación.
Lanzamiento del asistente API y el code interpreter
La nueva API de Asistentes de OpenAI es una herramienta avanzada que permite la creación de asistentes virtuales con capacidades similares a las de un humano, integrables en diversas aplicaciones. Ofrece gestión de conversaciones continuas, eliminando las restricciones de contexto previas y simplificando la acumulación de diálogos. Con funciones como interpretación de código, integración de conocimientos externos y llamada de funciones personalizadas, esta API se presenta como un recurso valioso para desarrolladores. Se enfatiza la privacidad y seguridad, asegurando que los datos son manejables y eliminables por los usuarios. Disponible en beta, los desarrolladores pueden probarla en un entorno sin necesidad de programar para descubrir su potencial.
Manteniendo el compromiso con la privacidad y la seguridad, OpenAI garantiza que los datos y archivos transmitidos a través de la API no se utilizan para entrenar modelos y pueden ser eliminados por los desarrolladores en cualquier momento.
Novedades en la API
GPT-4 Turbo con visión
La incorporación de capacidades visuales en GPT-4 Turbo es sin duda un avance significativo que abre una multitud de aplicaciones prácticas. La capacidad de analizar imágenes y proporcionar descripciones, interpretaciones y realizar tareas específicas basadas en el contenido visual, amplía el espectro de asistencia que la inteligencia artificial puede ofrecer.
DALL·E 3
La integración de DALL·E 3 a través de la API de Imágenes es una noticia excepcional para desarrolladores y empresas que buscan innovar en la generación de contenido visual. La capacidad de DALL·E 3 para crear imágenes y diseños de alta calidad de manera programática abre un mundo de posibilidades en diversos campos como la publicidad, el diseño gráfico y las redes sociales.
El uso por parte de empresas reconocidas como Snap, Coca-Cola y Shutterstock demuestra la versatilidad y el potencial comercial de DALL·E 3. Estas implementaciones no solo permiten la creación de contenido visual atractivo y único sino que también pueden automatizar y personalizar la producción de imágenes a gran escala, lo que resulta en una herramienta poderosa para campañas y proyectos creativos.
Texto a voz (TTS)
La capacidad de convertir texto a voz (TTS) con una calidad que se asemeja a la voz humana es un gran avance, ya que permite una comunicación más natural y accesible a través de las interfaces digitales. La API de TTS de OpenAI se alinea con una creciente necesidad de proporcionar interacciones más humanas en el mundo digital, especialmente en aplicaciones que van desde asistentes virtuales hasta la lectura de textos y la accesibilidad para personas con discapacidades visuales o de lectura.
Con seis voces preestablecidas disponibles, los desarrolladores pueden elegir la voz que mejor se adapte a su aplicación o servicio, lo que permite una mayor personalización y mejor adaptación al contexto deseado. Las dos variantes del modelo ofrecen flexibilidad dependiendo de las necesidades específicas: tts-1 para casos de uso donde la rapidez es crucial, y tts-1-hd para situaciones en las que la calidad del audio es la prioridad.
El precio por 1000 caracteres de entrada es accesible y permite a los desarrolladores incorporar esta tecnología sin una inversión significativa inicial, lo que abre la puerta a una amplia gama de usos, desde startups hasta grandes corporaciones.
La guía TTS facilita el proceso de implementación, permitiendo a los desarrolladores integrar la funcionalidad de TTS en sus aplicaciones rápidamente. Con la combinación de accesibilidad, calidad y facilidad de integración, la API de TTS de OpenAI tiene el potencial de revolucionar la manera en que interactuamos con las máquinas, haciéndola más fluida, natural y accesible para todos.
Personalización del modelo
Fine Tunning
El lanzamiento de un programa experimental de ajuste fino para GPT-4 muestra un compromiso continuo con la mejora y la personalización de modelos de IA. A pesar de que el ajuste fino de GPT-4 parece ser más desafiante que el de su predecesor, este esfuerzo refleja la búsqueda constante de avances en la inteligencia artificial. El ajuste fino (fine-tuning) de modelos de lenguaje como GPT-4 puede servir para múltiples propósitos prácticos y estratégicos en diferentes industrias y aplicaciones. Aquí hay algunos ejemplos de para qué podría servir: especialización en temas específicos como la ingeniería o la medicina, personalización para empresas, desarrollo de productos IA, aumento de la eficiencia de tareas automatizadas, investigación, desarrollo de asistentes virtuales….
Modelos personalizados
El programa de Modelos Personalizados de OpenAI representa un nuevo nivel de servicio en la personalización de inteligencia artificial, diseñado específicamente para empresas que buscan una integración profunda y particularizada con sus sistemas de datos únicos y extensivos. A través de este programa, las organizaciones seleccionadas pueden colaborar estrechamente con investigadores especializados de Open AI para desarrollar y entrenar versiones de GPT-4 que se ajusten perfectamente a las necesidades específicas de cada corporación. Este enfoque personalizado no solo abarca una fase de preentrenamiento adicional, sino que también incluye una etapa de entrenamiento de refuerzo posterior, diseñada para afinar el comportamiento del modelo de acuerdo con los objetivos y particularidades de la entidad.
Una de las claves de este programa es la exclusividad y la privacidad. Los modelos resultantes son de uso exclusivo para la entidad que participa en el programa, garantizando que las capacidades desarrolladas no serán accesibles por terceros, ni se emplearán para el mejoramiento de otros modelos de OpenAI. Esto se alinea con una política de privacidad empresarial estricta, que asegura que los datos propietarios proporcionados para el entrenamiento de estos modelos personalizados se mantengan confidenciales y no se utilicen fuera del contexto del proyecto en cuestión.
Rebajas en los precios de Open AI
OpenAI ha decidido hacer más accesibles sus modelos de inteligencia artificial, implementando una reducción de precios significativa que beneficiará a los desarrolladores.
OpenAI ha doblado el límite de tokens por minuto para los usuarios de pago del GPT-4, permitiendo una mayor escalabilidad para las aplicaciones. Los usuarios pueden consultar y solicitar aumentos de estos límites directamente desde la configuración de su cuenta, con una estructura de niveles de uso claramente detallada para una mejor previsión del escalado.
Open AI como escudo en los derechos de autor
OpenAI ha introducido el Copyright Shield, una nueva iniciativa para proteger a los clientes contra demandas por infracción de derechos de autor. Bajo esta protección, OpenAI asumirá la responsabilidad activa de intervenir y defender a sus clientes en tales situaciones y cubrirá los costos asociados. Este servicio está disponible para los usuarios de ChatGPT Enterprise y la plataforma para desarrolladores con funciones generalmente disponibles.
Whisper V3
OpenAI acaba de lanzar «Whisper large-v3«, la última versión de su sistema de reconocimiento de voz automático (ASR), que ahora es de código abierto y ofrece un rendimiento mejorado para todos los idiomas. Además, la integración de Whisper v3 en la API de OpenAI se anticipa en un futuro cercano. En paralelo, OpenAI ha liberado el código fuente del «Decodificador de Consistencia«, que sirve como un sustituto mejorado del decodificador VAE utilizado en Stable Diffusion. Este nuevo decodificador optimiza las imágenes generadas con cualquier versión de Stable Diffusion a partir de la 1.0, particularmente en áreas de texto, rostros y líneas rectas.