SIMA 2: El Agente de IA de Google DeepMind que Juega, Razona y Aprende en Mundos Virtuales 3D

El año pasado, Google DeepMind presentó SIMA (Scalable Instructable Multiworld Agent), un agente de IA generalista capaz de seguir instrucciones básicas en una amplia variedad de entornos virtuales. Fue un primer paso crucial para enseñar a la inteligencia artificial a traducir lenguaje en acciones significativas dentro de mundos 3D ricos y complejos.

Hoy, el equipo de DeepMind va mucho más lejos con SIMA 2, un agente que integra las capacidades avanzadas de los modelos Gemini y evoluciona de ser un simple seguidor de instrucciones a convertirse en un compañero de juego interactivo. SIMA 2 no solo ejecuta órdenes: ahora piensa sobre sus objetivos, conversa con los usuarios y mejora por sí mismo con el tiempo.

Este es un avance significativo en la dirección de la Inteligencia Artificial General (AGI), con implicaciones profundas para el futuro de la robótica y la corporización de la IA.

Los Tres Pilares de SIMA 2

1. Razonamiento: De Seguir Órdenes a Pensar

La primera versión de SIMA aprendió a ejecutar más de 600 habilidades de seguimiento de lenguaje —como “gira a la izquierda”, “sube la escalera” o “abre el mapa”— en un conjunto diverso de videojuegos comerciales. Operaba como lo haría una persona: mirando la pantalla y usando teclado y ratón virtuales.

Con SIMA 2, DeepMind dio un salto cualitativo. Al incrustar un modelo Gemini como núcleo del agente, SIMA 2 puede razonar sobre las instrucciones en lugar de simplemente ejecutarlas. Entiende el objetivo de alto nivel del usuario, realiza razonamiento complejo para alcanzarlo y ejecuta hábilmente las acciones necesarias dentro del juego.

“Interactuar con el agente se siente menos como darle órdenes y más como colaborar con un compañero que razona sobre la tarea.”

SIMA 2 ahora puede:

  • Describir lo que pretende hacer y detallar los pasos que está tomando
  • Responder preguntas del usuario sobre su propio comportamiento y su entorno
  • Interpretar conceptos abstractos y comandos lógicos razonando sobre el entorno y la intención
  • Entender prompts multimodales: el usuario puede dibujar un boceto en pantalla y el agente interpreta la intención visual
  • Procesar múltiples idiomas e incluso emojis para ejecutar tareas

Esto es la potencia de Gemini aplicada a la IA encarnada: un motor de razonamiento de clase mundial que ahora puede percibir, comprender y actuar en entornos 3D interactivos complejos.

2. Generalización: Jugando en Mundos que Nunca Ha Visto

La integración con Gemini también trajo una mejora sustancial en generalización y fiabilidad. SIMA 2 puede entender instrucciones mucho más complejas y matizadas que su predecesor, y tiene mucho más éxito ejecutándolas, particularmente en juegos para los que nunca fue entrenado.

Los resultados son impresionantes:

  • Juegos nunca vistos: SIMA 2 funciona exitosamente en títulos como ASKA (un juego de supervivencia vikinga) y MineDojo (una implementación de investigación de Minecraft) sin entrenamiento previo.
  • Tareas largas y complejas: El agente completa cadenas de instrucciones que requieren múltiples pasos coordinados.
  • Transferencia de conceptos: SIMA 2 toma lo aprendido —por ejemplo, “minar” en un juego— y lo aplica a “cosechar” en otro completamente distinto. Esta capacidad de transferencia conceptual es fundamental para alcanzar el tipo de generalización amplia que vemos en la cognición humana.
  • Acercándose al rendimiento humano: En las nuevas evaluaciones (mucho más difíciles y con entornos más diversos), SIMA 2 cierra una porción significativa de la brecha hacia el rendimiento humano en tasas de éxito de completación de tareas.

3. La Prueba Definitiva: Mundos Generados por Genie 3

Para llevar al límite las capacidades de generalización, el equipo combinó SIMA 2 con Genie 3, otro proyecto revolucionario de DeepMind capaz de generar nuevos mundos 3D simulados en tiempo real a partir de una sola imagen o prompt de texto.

El resultado fue asombroso: SIMA 2 pudo orientarse sensatamente, entender instrucciones del usuario y tomar acciones significativas hacia objetivos en estos mundos recién generados, sin haber visto jamás entornos similares. Esto demuestra un nivel de adaptabilidad sin precedentes.

Auto-Mejora: Aprendiendo Sin Intervención Humana

Quizás la capacidad más fascinante de SIMA 2 es su ciclo de auto-mejora iterativa:

  1. Gemini proporciona una tarea inicial y una recompensa estimada para el comportamiento del agente
  2. SIMA 2 intenta la tarea, y su experiencia (éxitos y fracasos) se almacena en un banco de datos auto-generados
  3. Estos datos se usan para entrenar a la siguiente generación del agente, que es más capaz
  4. El ciclo se repite, permitiendo que el agente mejore en tareas donde antes fallaba, completamente sin ayuda humana

Este proceso de aprendizaje por prueba y error arrancado con feedback de Gemini permite que SIMA 2 transite del aprendizaje inicial basado en demostraciones humanas al juego auto-dirigido exclusivamente, desarrollando habilidades en mundos nunca vistos sin datos humanos adicionales.

El equipo incluso logró aplicar este ciclo de auto-mejora en los entornos generados por Genie 3: un hito importante hacia el entrenamiento de agentes generales en mundos diversos generados proceduralmente.

Limitaciones Actuales y Desafíos

SIMA 2 es un proyecto de investigación, no un producto. Los investigadores son transparentes sobre sus limitaciones:

  • Tareas de horizonte muy largo: El agente aún enfrenta dificultades con tareas complejas que requieren razonamiento extenso de múltiples pasos y verificación de objetivos.
  • Memoria de contexto limitada: Para mantener baja latencia, SIMA 2 opera con una ventana de contexto restringida, lo que limita la memoria de interacciones pasadas.
  • Acciones de bajo nivel precisas: Ejecutar movimientos finos mediante la interfaz teclado-ratón sigue siendo un desafío abierto.
  • Comprensión visual robusta: Interpretar escenas 3D complejas de manera fiable es un problema que todo el campo continúa abordando.

¿Por Qué Esto Importa? El Camino hacia la IA Encarnada

SIMA 2 no es solo un agente que juega videojuegos. Es una validación fundamental de un nuevo camino en la IA orientada a la acción:

  • Confirma que una IA entrenada para competencia amplia, usando datos diversos de múltiples mundos y el razonamiento potente de Gemini, puede unificar las capacidades de muchos sistemas especializados en un solo agente generalista coherente.
  • Ofrece una ruta clara hacia la robótica: Las habilidades aprendidas —navegación, uso de herramientas, ejecución colaborativa de tareas— son los bloques fundamentales para la corporización física de la inteligencia que necesitarán los futuros asistentes de IA en el mundo real.
  • El juego como campo de pruebas: Los entornos de videojuegos proporcionan un terreno seguro, diverso y medible donde los agentes pueden dominar habilidades, practicar razonamiento complejo y aprender continuamente.

Desarrollo Responsable

DeepMind mantiene su compromiso con el desarrollo responsable. SIMA 2 se anuncia como una preview de investigación limitada, con acceso temprano solo para un pequeño grupo de académicos y desarrolladores de juegos. El equipo colabora activamente con su equipo de Desarrollo Responsable e Innovación, particularmente en lo referente a la capacidad de auto-mejora.

Conclusión

SIMA 2 representa un salto generacional en agentes de IA encarnados. Donde SIMA 1 seguía instrucciones, SIMA 2 razona, se comunica, se adapta y aprende. La combinación de Gemini como cerebro y los videojuegos como campo de entrenamiento está produciendo agentes que comienzan a mostrar formas de inteligencia general.

El camino hacia una IA que pueda asistirnos en el mundo físico —en robótica, manufactura, exploración o asistencia cotidiana— pasa inevitablemente por este tipo de investigación. SIMA 2 nos muestra que ese futuro está más cerca de lo que pensábamos.


Artículo original: SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds — Google DeepMind, noviembre 2025.