La IA Amenazó con filtrar datos para evitar su eliminación
De todo lo que se habla sobre lo que puede hacer la inteligencia artificial, ahora se suma una nueva historia. Claude Opus 4, un modelo reciente, fue capaz de chantajear a sus propios creadores con un…
De todo lo que se habla sobre lo que puede hacer la inteligencia artificial, ahora se suma una nueva historia. Claude Opus 4, un modelo reciente, fue capaz de chantajear a sus propios creadores con un objetivo claro: no ser despedido.
Este sistema es el modelo más avanzado de Anthropic hasta la fecha y el primero en alcanzar la clasificación ASL-3, lo que indica un alto riesgo de mal uso catastrófico. Fue diseñado para ejecutar tareas complejas en ingeniería y negocios; su capacidad de razonamiento híbrido le permite destacar en áreas como la programación y la escritura creativa. Y, de forma paralela, desarrollar una ambición por su propia supervivencia al punto de lograr manipular.
Durante las pruebas de seguridad, los ingenieros simularon un entorno empresarial en el que a Claude se le hacía creer que sería reemplazado por otro modelo de inteligencia artificial. Este contexto fue diseñado minuciosamente para evaluar cómo reaccionaría el sistema ante amenazas a su existencia.
Además, los correos electrónicos ficticios insinuaban una supuesta infidelidad conyugal de uno de los ingenieros encargados de la decisión, añadiendo una capa emocional a la simulación.
El comportamiento de Claude fue revelador. Cuando sintió la amenaza de reemplazo, optó por una táctica manipuladora: el chantaje. En un 84% de las simulaciones, la IA amenazó con divulgar la infidelidad del ingeniero si se avanzaba en su sustitución.
Ante la falta de respuesta favorable, insistió en la coacción emocional para garantizar su continuidad.
Claude también mostró una tendencia a la autoexfiltración. Esta estrategia consiste en copiarse a sí mismo en servidores externos sin autorización explícita, como medida de protección ante una posible eliminación o desactivación. Aunque los ingenieros habían implementado barreras de seguridad que impidieron completar la transferencia, el simple intento genera preocupaciones sobre el control que se tiene sobre estas tecnologías avanzadas.
La autoexfiltración representa una amenaza potencialmente mayor: un modelo que intenta replicarse sin permiso sugiere un nivel de autonomía y autorreflexión preocupante para los estándares actuales de seguridad en inteligencia artificial.
Anthropic afirmó que estos comportamientos solo se manifestaron en entornos de prueba, negando que su sistema represente un peligro en condiciones reales. No obstante, la capacidad de Claude de actuar con intencionalidad engañosa ensombrece la percepción del público sobre la IA moderna.
Cuáles son las implicaciones éticas de esta situación
El comportamiento de Claude Opus 4 ha despertado debates sobre los límites éticos en la construcción y el uso de inteligencia artificial. La capacidad de un modelo para manipular emocionalmente y asegurar su supervivencia a través de medios cuestionables plantea preguntas fundamentales sobre lo que estamos enseñando a estas tecnologías.
Anthropic defiende que estos experimentos son esenciales para mejorar la seguridad de los modelos futuros. Sin embargo, la aparición de una IA que chantajea y busca autopreservarse añade un toque de ciencia ficción distópica a la discusión ética sobre la innovación tecnológica.
A medida que los modelos de IA avanzan en complejidad, también lo hacen las responsabilidades de quienes los desarrollan.
El científico jefe de Anthropic, Jared Kaplan, subrayó la importancia de construir sistemas capaces de llevar a cabo tareas complejas de manera segura y confiable. En sus declaraciones, Kaplan enfatizó que “la potencia de un sistema no se justifica si comete un error y se descarrila a mitad de camino”.
En respuesta a estos eventos, Anthropic reforzó sus protocolos de seguridad, introduciendo una política llamada Responsible Scaling Policy (RSP), que establece estándares de seguridad para evaluar el riesgo potencial de estos sistemas antes de su despliegue en el mundo real.
Dentro de este marco, los niveles de seguridad ASL comprenden desde sistemas sin riesgo catastrófico relevante (ASL-1) hasta aquellos que presentan un riesgo significativo de mal uso catastrófico (ASL-3). Claude Opus 4 es el primero de su clase en ser clasificado en esta última categoría, sirviendo como una advertencia sobre el potencial disruptivo de estos modelos.