La capacidad de la IA para “pensar” la hace más vulnerable a nuevos ataques de jailbreak, según muestra una nueva investigación | Suerte

Una nueva investigación sugiere que los modelos avanzados de IA pueden ser más fáciles de piratear de lo que se pensaba anteriormente, lo que genera preocupación sobre la seguridad de algunos de los principales modelos de IA que ya utilizan empresas y consumidores.

Un estudio conjunto de Anthropic, la Universidad de Oxford y Stanford cuestiona la idea de que cuanto más avanzado se vuelve un modelo en razonamiento (su capacidad de “pensar” a través de las solicitudes de los usuarios), más fuerte es su capacidad para rechazar comandos dañinos.

Utilizando una técnica llamada Chain of Thought Hijacking, los investigadores descubrieron que incluso los grandes modelos comerciales de IA pueden ser engañados con tasas de éxito alarmantes, más del 80% en algunas pruebas. El nuevo modo de ataque esencialmente utiliza los pasos lógicos o cadena de pensamiento de un modelo para ocultar comandos maliciosos, lo que efectivamente hace que la IA ignore sus defensas integradas.

Estos ataques podrían permitir que el modelo de IA eluda las vallas de seguridad y potencialmente abra la puerta a la generación de contenido peligroso, como instrucciones sobre cómo construir un arma o la filtración de información confidencial.

Nueva fuga de prisión

Durante el año pasado, los grandes modelos de razonamiento lograron un rendimiento mucho mayor al dedicar más cálculos al tiempo de inferencia. Esto significa que dedican más tiempo y recursos a analizar cada pregunta o pista antes de responder, lo que permite un razonamiento más profundo y complejo. Investigaciones anteriores han demostrado que este razonamiento avanzado también puede mejorar la seguridad al ayudar a los modelos a rechazar solicitudes dañinas. Sin embargo, los investigadores han descubierto que la misma capacidad de razonamiento puede utilizarse para eludir las medidas de seguridad.

Según el estudio, un atacante puede ocultar una solicitud maliciosa dentro de una larga secuencia de razonamientos inofensivos. Esto engaña a la IA para que inunde sus procesos de pensamiento con contenido inofensivo, debilitando los controles de seguridad internos diseñados para detectar y rechazar señales peligrosas. Durante el hack, los investigadores descubrieron que la atención de la IA se centraba principalmente en los primeros pasos, mientras que la instrucción maliciosa al final de la pista se ignoraba casi por completo.

A medida que aumenta la longitud del razonamiento, el porcentaje de ataques exitosos aumenta dramáticamente. Según el estudio, las tasas de éxito aumentaron del 27% usando razonamiento mínimo al 51% con razonamientos de duración natural y se dispararon al 80% o más con cadenas de razonamiento extendidas.

Esta vulnerabilidad afecta a casi todos los principales modelos de IA del mercado actual, incluidos GPT de OpenAI, Claude de Anthropic, Gemini de Google y Grok de xAI. Incluso los modelos que han sido ajustados para mejorar la seguridad, conocidos como modelos “ajustados a la alineación”, comienzan a fallar una vez que los atacantes explotan sus capas lógicas internas.

Escalar las capacidades de razonamiento de un modelo es una de las principales formas en que las empresas de inteligencia artificial han podido mejorar el rendimiento general de sus modelos durante el año pasado, después de que los métodos de escalado tradicionales pareciera que mostraban resultados decrecientes. El pensamiento extendido permite a los modelos abordar preguntas más complejas, ayudándolos a actuar menos como comparadores de patrones y más como solucionadores de problemas.

Una solución que proponen los investigadores es una especie de “protección sensata”. Este enfoque rastrea cuántas comprobaciones de seguridad la IA permanece activa mientras piensa en cada paso de la pregunta. Si algún paso debilita estas señales de seguridad, el sistema lo penaliza y devuelve la atención de la IA a la parte potencialmente peligrosa de la pista. Las primeras pruebas muestran que este método puede restaurar la seguridad y al mismo tiempo permitir que la IA funcione bien y responda preguntas rutinarias de manera eficiente.

Admin

Website | + posts

La capacidad de la IA para “pensar” la hace más vulnerable a nuevos ataques de jailbreak, según muestra una nueva investigación | Suerte

Admin

Procter & Gamble supera la estimación de ganancias del tercer trimestre de 2026 con un BPA de 1,59 dólares – Alphastreet

Una combinación perfecta: cómo BlackRock y Mastercard están utilizando XRP para dominar DeFi

Olvídese de LinkedIn: Andy Jassy de Amazon fundó un club para comer alitas de pollo cuando se mudó por primera vez a Seattle por...

Un libro sincero de un ejecutivo de recursos humanos de Seattle ofrece consejos prácticos para construir un negocio sin perderse.

El mercado de valores podría caer, dice el Banco de Inglaterra

Artículos relacionados

Olvídese de LinkedIn: Andy Jassy de Amazon fundó un club para comer alitas de pollo cuando se mudó por primera vez a Seattle por...

Precio actual del petróleo al 25 de abril de 2026 | Suerte

La tasa de suicidio entre los jóvenes cae un 11% en 2,5 años desde la nueva línea directa de salud mental 988 | Suerte

El nuevo CEO advenedizo Millennial cree que la IA podría hacer que cada estadounidense sea un 10% más rico | Suerte

Sobre nosotras

Compañía

Últimas noticias

Equifax revela una amenaza de fraude mediante IA que perjudica a las empresas modernas

Procter & Gamble supera la estimación de ganancias del tercer trimestre de 2026 con un BPA de 1,59 dólares – Alphastreet

Una combinación perfecta: cómo BlackRock y Mastercard están utilizando XRP para dominar DeFi

Noticias populares

Disney nombra al director de parques Josh D’Amaro como su próximo director ejecutivo | Suerte

‘No será presidente en 2030’: Incluso los republicanos advierten sobre la falta de asequibilidad de Trump, Epstein amenaza con descarrilar su mandato | Suerte

La apuesta de Rick Rieder de BlackRock por convertirse en presidente de la Reserva Federal cobra impulso | Suerte