Los modelos de inteligencia artificial de Frontier ya no solo ayudan a los ingenieros a escribir código más rápido o a automatizar tareas rutinarias. Cada vez son más capaces de darse cuenta de sus errores.
Anthropic dice que su último modelo, Claude Opus 4.6, destaca por identificar las debilidades del software detrás de los principales ataques cibernéticos. Según el informe del Frontier Red Team, durante las pruebas, Opus 4.6 identificó más de 500 vulnerabilidades de día cero previamente desconocidas (fallos desconocidos para las personas que escribieron el software o la parte responsable de parchearlo o repararlo) en bibliotecas de software de código abierto. Es de destacar que el modelo no recibió instrucciones explícitas de buscar fallas de seguridad, sino que encontró y marcó problemas.
Anthropic afirma que “los resultados muestran que los modelos de lenguaje pueden agregar valor real a las herramientas de descubrimiento existentes”, pero reconoce que estas capacidades también son inherentemente de “doble uso”.
Los atacantes pueden utilizar fácilmente las mismas capacidades que ayudan a las empresas a encontrar y corregir fallas de seguridad para descubrir y explotar vulnerabilidades antes de que los defensores puedan detectarlas. Un modelo de inteligencia artificial capaz de identificar de forma autónoma exploits de día cero en software ampliamente utilizado podría acelerar ambos lados de la carrera armamentista de ciberseguridad, dando potencialmente la ventaja a quien actúe más rápido.
Logan Graham, jefe del Edge Red Team de Anthropic, le dijo a Axios que la compañía ve la ciberseguridad como una competencia entre ataque y defensa y quiere garantizar que los defensores tengan acceso a estas herramientas primero.
Para gestionar algunos de los riesgos, Anthropic está implementando nuevos sistemas de detección que monitorean la actividad interna de Claude mientras genera respuestas, utilizando lo que la compañía llama “sondas” para identificar posibles abusos en tiempo real. La compañía dice que también está ampliando sus capacidades de aplicación de la ley, incluida la capacidad de bloquear el tráfico identificado como malicioso. Anthropic reconoce que este enfoque creará fricciones para los investigadores de seguridad legítimos y el trabajo de defensa, y se compromete a trabajar con la comunidad de seguridad para abordar estos problemas. Las medidas de seguridad representan un “importante paso adelante” para detectar y responder rápidamente a los abusos, dijo la compañía, aunque el trabajo continúa.
OpenAI, por el contrario, adoptó un enfoque más cauteloso con su nuevo modelo de codificación GPT-5.3-Codex, también lanzado el jueves. La compañía enfatizó que si bien este modelo ha mejorado la productividad de la codificación, estos beneficios conllevan importantes riesgos de ciberseguridad. El director ejecutivo de OpenAI, Sam Altman, dijo en una publicación en X que GPT-5.3-Codex es el primer modelo que recibe una calificación de riesgo de ciberseguridad “alta” según el marco de preparación interno de la empresa.
Como resultado, OpenAI está implementando el GPT-5.3-Codex con controles más estrictos. Si bien el modelo está disponible para los usuarios pagos de ChatGPT para las tareas de desarrollo diarias, la empresa retrasa el acceso completo a la API y limita los casos de uso de alto riesgo que podrían permitir una automatización a gran escala. Las aplicaciones más confidenciales están protegidas por medidas de seguridad adicionales, incluido un programa de acceso confiable para profesionales de seguridad examinados. En una publicación de blog que acompaña al lanzamiento, OpenAI dijo que aún no tiene “evidencia definitiva” de que el modelo pueda automatizar completamente los ataques cibernéticos, pero está adoptando un enfoque cauteloso, implementando lo que describió como su paquete de seguridad cibernética más completo hasta la fecha, que incluye monitoreo avanzado, capacitación en seguridad y mecanismos de aplicación de la ley basados en inteligencia de amenazas.
