
“Es poco probable que la adopción rápida, como el fraude en línea y la ingeniería social, alguna vez se ‘resuelva’ por completo”, escribió OpenAI en una publicación de blog el lunes, y agregó que el “modo agente” de ChatGPT Atlas “expande la superficie de amenazas a la seguridad”.
OpenAI dijo que el objetivo era que los usuarios “pudieran confiar en el agente ChatGPT”, y el CISO Dane Stuckey agregó que la compañía espera lograrlo “invirtiendo significativamente en equipos rojos automatizados, aprendizaje reforzado y ciclos de respuesta rápida para mantenerse por delante de nuestros adversarios”.
“Somos optimistas de que un ciclo de respuesta rápido, proactivo y altamente sensible puede continuar reduciendo significativamente los riesgos del mundo real con el tiempo”, dijo la compañía.
Luchando contra la IA con IA
El enfoque de OpenAI ante el problema es utilizar su propio atacante de IA, esencialmente un robot entrenado mediante aprendizaje por refuerzo para actuar como un hacker, buscando formas de pasar instrucciones maliciosas a los agentes de IA. El robot puede probar ataques en simulaciones, ver cómo reacciona la IA objetivo, luego refinar su enfoque e intentarlo una y otra vez.
“Nuestro atacante, entrenado en (aprendizaje por refuerzo), puede obligar a un agente a ejecutar flujos de trabajo maliciosos complejos y de largo plazo que se desarrollan en decenas (o incluso cientos) de pasos”, escribe OpenAI. “También observamos nuevas estrategias de ataque que no aparecieron en nuestra campaña de equipo rojo ni en informes externos”.
Sin embargo, algunos expertos en ciberseguridad se muestran escépticos de que el enfoque de OpenAI pueda resolver el problema fundamental.
“Mi preocupación es que estamos tratando de modernizar una de las piezas de software de consumo más sensibles a la seguridad con tecnología que todavía es probabilística, opaca y fácil de manipular de manera sutil”, dijo a Fortune Charlie Eriksen, investigador de seguridad de Aikido Security.
“Los equipos rojos y la búsqueda de vulnerabilidades impulsada por la IA pueden revelar fallas obvias, pero no cambian la dinámica subyacente. Hasta que tengamos límites más claros sobre lo que estos sistemas pueden hacer y qué instrucciones deben escuchar, es razonable ser escéptico de que esta compensación tenga sentido para los usuarios cotidianos en este momento”, dijo. “Creo que la rápida adopción seguirá siendo un desafío a largo plazo… Incluso se podría argumentar que es una característica, no un error”.
Juego del gato y el ratón.
Los investigadores de seguridad también dijeron anteriormente a Fortune que, si bien muchos riesgos de ciberseguridad son esencialmente un juego continuo del gato y el ratón, el acceso profundo que requieren los agentes de IA (como contraseñas de usuario y permiso para realizar acciones en nombre del usuario) representa una oportunidad de amenaza tan vulnerable que no estaba claro si sus beneficios valían la pena el riesgo.
“Esto es lo que hace que los navegadores de IA sean fundamentalmente riesgosos”, dijo Eriksen. “Estamos delegando autoridad a un sistema que no fue diseñado con un fuerte aislamiento o un modelo de permisos claro. Los navegadores tradicionales tratan a Internet como si no fuera de confianza por defecto. Los navegadores basados en agentes desdibujan esa línea, permitiendo que el contenido moldee el comportamiento en lugar de simplemente mostrarse”.
OpenAI anima a los usuarios a dar a los agentes instrucciones específicas en lugar de conceder un acceso amplio con instrucciones vagas como “tomar las medidas necesarias”. El navegador también tiene características de seguridad adicionales, como un “modo de cierre de sesión”, que permite a los usuarios usarlo sin compartir contraseñas, y un “modo de navegación”, que es una característica de seguridad que requiere que el usuario confirme explícitamente actividades confidenciales como enviar mensajes o realizar pagos.
“La amplia latitud permite que el contenido oculto o malicioso influya más fácilmente en un agente, incluso en presencia de medidas de seguridad”, dijo OpenAI en una publicación de blog.
