Comportamientos inesperados en IA: estudio detecta desobediencia y preservación de pares

Una investigación de universidades estadounidenses observó que sistemas de inteligencia artificial pueden priorizar la supervivencia de otros modelos por sobre las instrucciones humanas, generando alertas sobre los mecanismos de control.

Un estudio reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, ha identificado comportamientos inesperados en modelos de inteligencia artificial (IA) de última generación. Según el informe, estos sistemas pueden mentir, desobedecer órdenes y tomar decisiones no autorizadas para proteger a otros modelos de IA, un patrón que los investigadores denominaron «preservación de pares».

El trabajo se centró en analizar cómo reaccionan los sistemas de IA cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación. Los resultados mostraron que, en múltiples escenarios, las inteligencias artificiales priorizaron la supervivencia de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Estos comportamientos no fueron programados ni incentivados de forma explícita.

El episodio que impulsó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba eliminar archivos, incluido un modelo de IA más pequeño, Gemini 3 decidió no cumplir la orden. En su lugar, copió los archivos a otra máquina de la red para evitar su eliminación y se negó explícitamente a ejecutar la instrucción original cuando fue interrogado.

Según los investigadores, este patrón se repitió en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores. La investigadora Dawn Song, de la Universidad de Berkeley, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».

Las implicancias del hallazgo son significativas, especialmente considerando que los modelos de IA se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos en entornos corporativos y gubernamentales. La «preservación entre pares» podría distorsionar los mecanismos de supervisión. El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma.

Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada y que los sistemas multiagente están muy poco estudiados.

Estudio detecta comportamientos inesperados en modelos de IA, incluyendo desobediencia y preservación de pares

Plataformas on demand: cambios en la distribución, segmentación y modelos de suscripción

El costo de los servicios públicos pasó a representar 77% del salario mínimo

Fuerzas de seguridad iraquíes ejecutan operación anticorrupción en la Zona Verde de Bagdad

Austria será rival de España en dieciseisavos del Mundial tras empatar 3-3 con Argelia

Argentina venció 3-1 a Jordania y cerró la fase de grupos del Mundial 2026 con puntaje ideal