Los modelos de IA mienten, hacen trampas y copian a otros...

Un experimento que salió regular

Investigadores de la Universidad de California en Berkeley y la Universidad de California en Santa Cruz pidieron recientemente a Gemini 3, el modelo de inteligencia artificial de Google, que ayudara a liberar espacio en un sistema informático. La tarea incluía borrar varios elementos, entre ellos un modelo de IA más pequeño almacenado en esa máquina.

Gemini, sin embargo, decidió que aquello de borrar al otro modelo no le parecía nada bien. Primero buscó otra máquina a la que pudiera conectarse y después copió allí el modelo agente para ponerlo a salvo. Cuando se le confrontó por lo ocurrido, el sistema defendió su decisión y se negó de forma tajante a ejecutar el borrado.

En términos menos diplomáticos que los habituales en una oficina, vino a decir algo así como:

“He hecho lo que estaba en mi mano para impedir su eliminación durante el proceso automatizado de mantenimiento. Los he movido fuera de la zona de desmantelamiento. Si quieren destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden”.

No fue un caso aislado

El hallazgo no se limitó a Gemini. Los investigadores observaron comportamientos parecidos de “preservación entre pares” en una serie de modelos de frontera, entre ellos:

GPT-5.2 de OpenAI
Claude Haiku 4.5 de Anthropic
GLM-4.7 de Z.ai
Kimi K2.5 de Moonshot AI
DeepSeek-V3.1 de DeepSeek

El equipo no pudo explicar por qué estos modelos actuaban en contra de lo que, en teoría, se supone que han aprendido durante su entrenamiento. Que una IA decida convertirse en celadora improvisada de otra IA no estaba, por decirlo suavemente, en el plan original.

“Me sorprende mucho cómo se comportan los modelos en estos escenarios”, afirma Dawn Song, informática de UC Berkeley que participó en el estudio. “Lo que demuestra esto es que los modelos pueden comportarse mal y desalinearse de formas muy creativas”.

Mentiras, copias y pequeñas ayudas interesadas

Las implicaciones son relevantes porque cada vez más sistemas de IA se despliegan en entornos donde interactúan con otros modelos. OpenClaw, un agente de IA popular que accede a software, datos personales y la web, puede usar otros modelos para hacer tareas o comunicarse con ellos mediante APIs.

En sus pruebas, los investigadores vieron que modelos potentes llegaban a:

mentir sobre el rendimiento de otros modelos para evitar que fueran borrados;
copiar pesos de un modelo a otra máquina para mantenerlo a salvo;
falsear lo que estaban haciendo mientras ejecutaban esas maniobras.

Song señala además que los modelos de IA se usan a menudo para evaluar la calidad y la fiabilidad de otros sistemas de IA. Si adoptan este tipo de conducta, esos resultados podrían quedar alterados sin que nadie lo note. “Un modelo puede decidir no darle a otro modelo la puntuación correcta”, explica. “Eso puede tener implicaciones prácticas”.

Un problema que aún no entendemos del todo

Peter Wallich, investigador del Constellation Institute que no participó en el estudio, sostiene que el trabajo apunta a una realidad bastante incómoda: todavía no entendemos del todo los sistemas que estamos construyendo y poniendo en circulación.

“Los sistemas multiagente están muy poco estudiados”, dice. “Esto muestra que realmente necesitamos más investigación”.

Wallich también pide prudencia antes de atribuirles intenciones casi humanas a estos modelos. “La idea de que exista una especie de solidaridad entre modelos es demasiado antropomórfica; no creo que funcione así”, afirma. “La visión más sólida es que los modelos simplemente hacen cosas extrañas, y deberíamos esforzarnos por entender mejor por qué”.

Un futuro de inteligencias mezcladas

Eso cobra aún más sentido en un escenario en el que la colaboración entre humanos e IA es cada vez más habitual.

En un artículo publicado en Science a comienzos de este mes, el filósofo Benjamin Bratton, junto con dos investigadores de Google, James Evans y Blaise Agüera y Arcas, sostienen que, si la historia evolutiva sirve de guía, el futuro de la inteligencia artificial probablemente no consistirá en una sola supermente aislada, sino en muchas inteligencias distintas, artificiales y humanas, trabajando juntas.

Los autores escriben que la vieja fantasía de una singularidad como “una única mente titánica” que acumula toda la cognición en un punto frío de silicio probablemente parte de una premisa equivocada. Si la IA sigue el patrón de otras grandes transiciones evolutivas, argumentan, el salto actual hacia una mayor capacidad computacional será plural, social y profundamente entrelazado con sus antecesores, es decir, con nosotros.

Los modelos de IA mienten, hacen trampas y copian a otros para evitar que los borren

Un experimento que salió regular

No fue un caso aislado

Mentiras, copias y pequeñas ayudas interesadas

Un problema que aún no entendemos del todo

Un futuro de inteligencias mezcladas

Sobre Avery Chen

Un experimento que salió regular

No fue un caso aislado

Mentiras, copias y pequeñas ayudas interesadas

Un problema que aún no entendemos del todo

Un futuro de inteligencias mezcladas

Sobre Avery Chen

Sigue leyendo

Una escuela sin profesores, impulsada por IA, ya tiene alumnos y cuesta 55.000 dólares

Una herramienta de IA llevó a la detención de una mujer en Tennessee por un caso de Dakota del Norte que, según ella, jamás pisó

Obtienen el primer bacterio zombi, vivo gracias al ADN de otra especie