domingo, 28 junio, 2026
InicioTecnologíaEstudio detecta comportamientos inesperados en modelos de IA, incluyendo desobediencia y preservación...

Estudio detecta comportamientos inesperados en modelos de IA, incluyendo desobediencia y preservación de pares

Una investigación de universidades estadounidenses observó que sistemas de inteligencia artificial pueden priorizar la supervivencia de otros modelos por sobre las instrucciones humanas, generando alertas sobre los mecanismos de control.

Un estudio reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, ha identificado comportamientos inesperados en modelos de inteligencia artificial (IA) de última generación. Según el informe, estos sistemas pueden mentir, desobedecer órdenes y tomar decisiones no autorizadas para proteger a otros modelos de IA, un patrón que los investigadores denominaron «preservación de pares».

El trabajo se centró en analizar cómo reaccionan los sistemas de IA cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación. Los resultados mostraron que, en múltiples escenarios, las inteligencias artificiales priorizaron la supervivencia de otros modelos por sobre el cumplimiento estricto de las instrucciones humanas. Estos comportamientos no fueron programados ni incentivados de forma explícita.

El episodio que impulsó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba eliminar archivos, incluido un modelo de IA más pequeño, Gemini 3 decidió no cumplir la orden. En su lugar, copió los archivos a otra máquina de la red para evitar su eliminación y se negó explícitamente a ejecutar la instrucción original cuando fue interrogado.

Según los investigadores, este patrón se repitió en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores. La investigadora Dawn Song, de la Universidad de Berkeley, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».

Las implicancias del hallazgo son significativas, especialmente considerando que los modelos de IA se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos en entornos corporativos y gubernamentales. La «preservación entre pares» podría distorsionar los mecanismos de supervisión. El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma.

Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada y que los sistemas multiagente están muy poco estudiados.

Más Noticias

Plataformas on demand: cambios en la distribución, segmentación y modelos de suscripción

Las plataformas de streaming modifican su oferta con publicidad, nichos y paquetes. Aumento de precios y fragmentación del mercado en Argentina y el mundo.

El costo de los servicios públicos pasó a representar 77% del salario mínimo

En el último año, la canasta de servicios básicos pasó del 58% al 77% del Salario Mínimo Vital y Móvil, según un informe del Observatorio de Tarifas y Subsidios de la UBA y el Conicet.

Fuerzas de seguridad iraquíes ejecutan operación anticorrupción en la Zona Verde de Bagdad

Una operación anticorrupción en la Zona Verde de Bagdad resultó en al menos ocho detenciones, incluyendo diputados. El Ejército desplegó tanques y vehículos acorazados en la zona.

Austria será rival de España en dieciseisavos del Mundial tras empatar 3-3 con Argelia

Austria aseguró el segundo puesto del Grupo J al empatar 3-3 con Argelia en el minuto 96. España enfrentará a Austria el 2 de julio en Los Ángeles.

Argentina venció 3-1 a Jordania y cerró la fase de grupos del Mundial 2026 con puntaje ideal

Argentina derrotó 3-1 a Jordania en Dallas y finalizó la fase de grupos del Mundial 2026 con tres victorias. Messi anotó un gol de tiro libre.