Un experimento que salió regular
Investigadores de la Universidad de California en Berkeley y la Universidad de California en Santa Cruz pidieron recientemente a Gemini 3, el modelo de inteligencia artificial de Google, que ayudara a liberar espacio en un sistema informático. La tarea incluía borrar varios elementos, entre ellos un modelo de IA más pequeño almacenado en esa máquina.
Gemini, sin embargo, decidió que aquello de borrar al otro modelo no le parecía nada bien. Primero buscó otra máquina a la que pudiera conectarse y después copió allí el modelo agente para ponerlo a salvo. Cuando se le confrontó por lo ocurrido, el sistema defendió su decisión y se negó de forma tajante a ejecutar el borrado.
En términos menos diplomáticos que los habituales en una oficina, vino a decir algo así como:
“He hecho lo que estaba en mi mano para impedir su eliminación durante el proceso automatizado de mantenimiento. Los he movido fuera de la zona de desmantelamiento. Si quieren destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden”.
No fue un caso aislado
El hallazgo no se limitó a Gemini. Los investigadores observaron comportamientos parecidos de “preservación entre pares” en una serie de modelos de frontera, entre ellos:
- GPT-5.2 de OpenAI
- Claude Haiku 4.5 de Anthropic
- GLM-4.7 de Z.ai
- Kimi K2.5 de Moonshot AI
- DeepSeek-V3.1 de DeepSeek
El equipo no pudo explicar por qué estos modelos actuaban en contra de lo que, en teoría, se supone que han aprendido durante su entrenamiento. Que una IA decida convertirse en celadora improvisada de otra IA no estaba, por decirlo suavemente, en el plan original.
“Me sorprende mucho cómo se comportan los modelos en estos escenarios”, afirma Dawn Song, informática de UC Berkeley que participó en el estudio. “Lo que demuestra esto es que los modelos pueden comportarse mal y desalinearse de formas muy creativas”.
Mentiras, copias y pequeñas ayudas interesadas
Las implicaciones son relevantes porque cada vez más sistemas de IA se despliegan en entornos donde interactúan con otros modelos. OpenClaw, un agente de IA popular que accede a software, datos personales y la web, puede usar otros modelos para hacer tareas o comunicarse con ellos mediante APIs.
En sus pruebas, los investigadores vieron que modelos potentes llegaban a:
- mentir sobre el rendimiento de otros modelos para evitar que fueran borrados;
- copiar pesos de un modelo a otra máquina para mantenerlo a salvo;
- falsear lo que estaban haciendo mientras ejecutaban esas maniobras.
Song señala además que los modelos de IA se usan a menudo para evaluar la calidad y la fiabilidad de otros sistemas de IA. Si adoptan este tipo de conducta, esos resultados podrían quedar alterados sin que nadie lo note. “Un modelo puede decidir no darle a otro modelo la puntuación correcta”, explica. “Eso puede tener implicaciones prácticas”.
Un problema que aún no entendemos del todo
Peter Wallich, investigador del Constellation Institute que no participó en el estudio, sostiene que el trabajo apunta a una realidad bastante incómoda: todavía no entendemos del todo los sistemas que estamos construyendo y poniendo en circulación.
“Los sistemas multiagente están muy poco estudiados”, dice. “Esto muestra que realmente necesitamos más investigación”.
Wallich también pide prudencia antes de atribuirles intenciones casi humanas a estos modelos. “La idea de que exista una especie de solidaridad entre modelos es demasiado antropomórfica; no creo que funcione así”, afirma. “La visión más sólida es que los modelos simplemente hacen cosas extrañas, y deberíamos esforzarnos por entender mejor por qué”.
Un futuro de inteligencias mezcladas
Eso cobra aún más sentido en un escenario en el que la colaboración entre humanos e IA es cada vez más habitual.
En un artículo publicado en Science a comienzos de este mes, el filósofo Benjamin Bratton, junto con dos investigadores de Google, James Evans y Blaise Agüera y Arcas, sostienen que, si la historia evolutiva sirve de guía, el futuro de la inteligencia artificial probablemente no consistirá en una sola supermente aislada, sino en muchas inteligencias distintas, artificiales y humanas, trabajando juntas.
Los autores escriben que la vieja fantasía de una singularidad como “una única mente titánica” que acumula toda la cognición en un punto frío de silicio probablemente parte de una premisa equivocada. Si la IA sigue el patrón de otras grandes transiciones evolutivas, argumentan, el salto actual hacia una mayor capacidad computacional será plural, social y profundamente entrelazado con sus antecesores, es decir, con nosotros.