Sima, el agente de IA de Google Deepmind que aprende a jugar en mundos virtuales

La inteligencia artificial continúa desafiando los límites de lo posible, transformando industrias enteras y ahora, más recientemente, reinventando la manera en que interactuamos con los videojuegos. En este contexto, el laboratorio Google DeepMind ha presentado un avance revolucionario: el Agente Multimundo Instructable Escalable (SIMA), una IA generalista capaz de operar dentro de una vasta gama de entornos virtuales 3D. Esta innovación no solo marca un hito en el campo de la inteligencia artificial aplicada al entretenimiento digital, sino que también plantea nuevas posibilidades para el desarrollo de aplicaciones más amplias en el futuro.

Introducing SIMA: the first generalist AI agent to follow natural-language instructions in a broad range of 3D virtual environments and video games. 🕹️

It can complete tasks similar to a human, and outperforms an agent trained in just one setting. 🧵 https://t.co/qz3IxzUpto pic.twitter.com/02Q6AkW4uq
— Google DeepMind (@GoogleDeepMind) March 13, 2024

La evolución de la IA en el mundo de los videojuegos

Históricamente, los videojuegos han servido como un campo de pruebas ideal para avanzar en la investigación y desarrollo de la inteligencia artificial. Desde los primeros experimentos con juegos de Atari hasta desarrollos más sofisticados como AlphaStar de DeepMind, que alcanza niveles de competencia humana en StarCraft II, la trayectoria ha sido notable. Cada juego, con sus reglas y desafíos únicos, proporciona un escenario perfecto para entrenar y probar las capacidades de aprendizaje y adaptación de los sistemas de IA.

La introducción de SIMA representa una evolución natural en esta búsqueda, con un enfoque en la versatilidad y la capacidad para entender y ejecutar instrucciones en lenguaje natural. A diferencia de las IAs especializadas anteriores, SIMA no se limita a un solo juego o tarea, sino que puede transferir su aprendizaje y habilidades a través de una variedad de entornos de videojuegos, desde la exploración espacial en No Man’s Sky hasta la destrucción creativa en Teardown.

Intellliverso Sima juegos — Variedad de Juegos en los que ha sido probado SIMA. Fuente: Google Deepming

SIMA: rompiendo barreras en el aprendizaje de la IA

El desarrollo de SIMA ha requerido la colaboración estrecha con varios estudios de videojuegos, permitiendo al agente entrenarse y probarse en nueve títulos distintos. Esta diversidad de entornos asegura que SIMA no solo aprenda a realizar tareas específicas del juego, como volar una nave espacial o construir con bloques, sino que también desarrolle una comprensión profunda de cómo se pueden aplicar estas habilidades en diferentes contextos.

Una de las características más impresionantes de SIMA es su capacidad para interpretar instrucciones en lenguaje natural y convertirlas en acciones dentro del juego. Esto se logra mediante la integración de modelos de visión avanzados y un sistema principal que incluye memoria y generación de acciones de teclado y mouse. Lo que distingue a SIMA es su interfaz de usuario intuitiva: el sistema no requiere acceso al código fuente del juego ni a APIs personalizadas, funcionando únicamente con las imágenes en pantalla e instrucciones verbales.

Arquitectura y modelo de SIMA

El modelo de SIMA representa un avance notable en el campo de la inteligencia artificial aplicada a entornos virtuales, particularmente en el ámbito de los videojuegos. Este sistema de IA está diseñado para comprender y ejecutar acciones dentro de una gama de entornos de juego en base a instrucciones proporcionadas en lenguaje natural. Examinemos con más detalle cómo se articula este modelo y cuál es su arquitectura.

Entornos

La versatilidad de SIMA (aquí puedes ver el paper técnico de Google Deepmind) se demuestra en su capacidad para operar dentro de una amplia variedad de entornos virtuales, tanto en videojuegos comerciales como en escenarios de investigación diseñados específicamente para la experimentación en IA. Estos entornos van desde juegos complejos y ricos en gráficos como “No Man’s Sky” hasta entornos de laboratorio controlados como “Construction Lab”.

Recolección y procesamiento de datos

SIMA se basa en un robusto proceso de recolección de datos que captura interacciones dinámicas en el juego. Esto incluye:

Entradas visuales: Recoge imágenes y secuencias de video del entorno del juego que proporcionan el contexto visual para la acción.
Instrucciones de Lenguaje Natural: Registra los comandos verbales proporcionados por los usuarios que guían las acciones del agente en el juego.
Acciones: Documenta las respuestas correspondientes en el juego en forma de acciones de teclado y mouse.

Intellliverso Sima trayectories — Instrucciones por Lenguaje Natural. Fuente: Google Deepmind

Conjunto de Datos

Estas interacciones se organizan en un conjunto de datos compuesto por triplete de datos (imagen, texto de instrucción, acción ejecutada), que sirven como base para el aprendizaje y la evaluación de SIMA.

Intellliverso Sima model dataset — Instrucciones a través de los datos de SIMA. El conjunto de datos de SIMA incluye una amplia gama de instrucciones de texto que pueden agruparse. Fuente: Google Deepmind

Arquitectura Detallada del Agente SIMA

La arquitectura del agente SIMA es compleja y multimodal, incorporando varios componentes especializados:

Codificador de texto: Este componente procesa las instrucciones verbales, extrayendo la intención y los comandos del lenguaje natural.
Codificador de Imagen (SPARC): Analiza las imágenes estáticas para entender la información visual del juego.
Codificador de Video (Phenaki): Interpreta las secuencias de video para comprender la dinámica y el flujo de los entornos de juego.
Transformador Multimodal: Un componente crítico que integra las señales de los codificadores de texto, imagen y video, para formar una comprensión unificada que determina las acciones a ejecutar.
Política de Teclado y Mouse (Classifier-Free Guidance): Este mecanismo traduce la comprensión multimodal en acciones físicas específicas que el agente debe llevar a cabo en el entorno del juego.

Intellliverso Sima architecture 1 — Configuración y Arquitectura del Agente SIMA. Fuente: Google Deepmind

Entrenamiento y Evaluación

El entrenamiento de SIMA se realiza mediante la alimentación del conjunto de datos previamente mencionado, utilizando modelos de IA preentrenados que se ajustan y refinan para las especificidades de cada entorno de juego. La evaluación de las acciones de SIMA se lleva a cabo mediante comparación con estándares de rendimiento humano, garantizando que las acciones del agente sean precisas y pertinentes a las instrucciones dadas.

Habilidades de SIMA

SIMA posee un repertorio de habilidades diverso que incluye navegación, manipulación de objetos, uso de herramientas, y más, todas categorizadas y aprendidas a través de su entrenamiento en los distintos entornos de juego.

Flujo de Trabajo del Agente

El flujo de trabajo de SIMA es iterativo y dinámico:

El usuario proporciona una instrucción en lenguaje natural.
El agente SIMA recibe esta instrucción junto con la entrada visual del entorno de juego.
La arquitectura de SIMA procesa estas entradas y decide la acción a ejecutar.
SIMA lleva a cabo la acción en el entorno de juego, que luego es evaluada por criterios humanos para asegurar su correcta ejecución.

Intellliverso Sima model — Visión general de SIMA. Fuente: Google Deepmind

Aplicaciones y futuro de los modelos IA en videojuegos

Más allá de alcanzar puntuaciones altas o dominar juegos específicos, la verdadera promesa de SIMA yace en su potencial para aplicaciones en el mundo real. Al demostrar que una IA puede seguir instrucciones y adaptarse a múltiples entornos virtuales, se abren posibilidades para desarrollar agentes inteligentes capaces de asistir en una variedad de tareas, desde la navegación y manipulación de objetos en entornos simulados hasta la realización de operaciones más complejas que requieran planificación y estrategia.

A medida que SIMA continúe evolucionando y exponiéndose a más entornos de entrenamiento, su capacidad para generalizar y adaptarse a nuevos desafíos solo aumentará. Esto no solo representa un avance significativo en la investigación de la inteligencia artificial, sino que también sugiere un futuro en el que los agentes de IA puedan desempeñar roles más activos y útiles en nuestras vidas, tanto en línea como en el mundo físico

·· El universo inteligente ··

La evolución de la IA en el mundo de los videojuegos

SIMA: rompiendo barreras en el aprendizaje de la IA