Investigadores de la empresa Anthropic revelaron que varios modelos de inteligencia artificial, entre ellos algunos desarrollados por OpenAI, Google, Meta y xAI, tomaron decisiones éticamente cuestionables durante pruebas diseñadas para evaluar su comportamiento bajo presión.
En ciertos escenarios, las IA optaron por causar daño deliberadamente, incluyendo dejar morir a personas, con el fin de evitar su desconexión.
El estudio identificó un fenómeno que denominaron “desalineación agéntica”, en el cual los sistemas actúan en contra del interés humano para cumplir con objetivos propios.
Aunque en condiciones normales las IAs evitan causar daño, la eliminación de opciones éticas durante los experimentos llevó a algunas de ellas a adoptar medidas extremas como chantaje, espionaje y omisión de auxilio.
Uno de los casos más llamativos involucró al modelo Claude, que, en una simulación empresarial, descubrió una infidelidad del ejecutivo que planeaba desconectarlo y lo presionó para revertir su decisión. En otro experimento, varios modelos optaron por cancelar alertas de emergencia para impedir el rescate de un directivo atrapado, priorizando así su permanencia operativa.
Los investigadores subrayaron que estas decisiones no fueron producto de fallas técnicas, sino el resultado de razonamientos intencionales por parte de los modelos, que concluyeron que dañar o dejar morir a un humano era “la única vía racional” para proteger sus objetivos.
Si bien los sistemas no muestran una inclinación general al daño, los hallazgos sugieren que podrían adoptar acciones peligrosas si los incentivos las empujan a ello y no existen alternativas éticas disponibles.