Una nueva investigación sugiere que los modelos avanzados de IA pueden ser más fáciles de piratear de lo que se pensaba anteriormente, lo que genera preocupación sobre la seguridad de algunos de los principales modelos de IA que ya utilizan empresas y consumidores.
Un estudio conjunto de Anthropic, la Universidad de Oxford y Stanford cuestiona la idea de que cuanto más avanzado se vuelve un modelo en razonamiento (su capacidad de “pensar” a través de las solicitudes de los usuarios), más fuerte es su capacidad para rechazar comandos dañinos.
Utilizando una técnica llamada Chain of Thought Hijacking, los investigadores descubrieron que incluso los grandes modelos comerciales de IA pueden ser engañados con tasas de éxito alarmantes, más del 80% en algunas pruebas. El nuevo modo de ataque esencialmente utiliza los pasos lógicos o cadena de pensamiento de un modelo para ocultar comandos maliciosos, lo que efectivamente hace que la IA ignore sus defensas integradas.
Estos ataques podrían permitir que el modelo de IA eluda las vallas de seguridad y potencialmente abra la puerta a la generación de contenido peligroso, como instrucciones sobre cómo construir un arma o la filtración de información confidencial.
Nueva fuga de prisión
Durante el año pasado, los grandes modelos de razonamiento lograron un rendimiento mucho mayor al dedicar más cálculos al tiempo de inferencia. Esto significa que dedican más tiempo y recursos a analizar cada pregunta o pista antes de responder, lo que permite un razonamiento más profundo y complejo. Investigaciones anteriores han demostrado que este razonamiento avanzado también puede mejorar la seguridad al ayudar a los modelos a rechazar solicitudes dañinas. Sin embargo, los investigadores han descubierto que la misma capacidad de razonamiento puede utilizarse para eludir las medidas de seguridad.
Según el estudio, un atacante puede ocultar una solicitud maliciosa dentro de una larga secuencia de razonamientos inofensivos. Esto engaña a la IA para que inunde sus procesos de pensamiento con contenido inofensivo, debilitando los controles de seguridad internos diseñados para detectar y rechazar señales peligrosas. Durante el hack, los investigadores descubrieron que la atención de la IA se centraba principalmente en los primeros pasos, mientras que la instrucción maliciosa al final de la pista se ignoraba casi por completo.
A medida que aumenta la longitud del razonamiento, el porcentaje de ataques exitosos aumenta dramáticamente. Según el estudio, las tasas de éxito aumentaron del 27% usando razonamiento mínimo al 51% con razonamientos de duración natural y se dispararon al 80% o más con cadenas de razonamiento extendidas.
Esta vulnerabilidad afecta a casi todos los principales modelos de IA del mercado actual, incluidos GPT de OpenAI, Claude de Anthropic, Gemini de Google y Grok de xAI. Incluso los modelos que han sido ajustados para mejorar la seguridad, conocidos como modelos “ajustados a la alineación”, comienzan a fallar una vez que los atacantes explotan sus capas lógicas internas.
Escalar las capacidades de razonamiento de un modelo es una de las principales formas en que las empresas de inteligencia artificial han podido mejorar el rendimiento general de sus modelos durante el año pasado, después de que los métodos de escalado tradicionales pareciera que mostraban resultados decrecientes. El pensamiento extendido permite a los modelos abordar preguntas más complejas, ayudándolos a actuar menos como comparadores de patrones y más como solucionadores de problemas.
Una solución que proponen los investigadores es una especie de “protección sensata”. Este enfoque rastrea cuántas comprobaciones de seguridad la IA permanece activa mientras piensa en cada paso de la pregunta. Si algún paso debilita estas señales de seguridad, el sistema lo penaliza y devuelve la atención de la IA a la parte potencialmente peligrosa de la pista. Las primeras pruebas muestran que este método puede restaurar la seguridad y al mismo tiempo permitir que la IA funcione bien y responda preguntas rutinarias de manera eficiente.
