Las nuevas herramientas de seguridad de IA de OpenAI pueden dar una falsa sensación de seguridad | Suerte

Fecha:

Compartir publicación:

La semana pasada, OpenAI presentó dos nuevas herramientas de descarga gratuita que deberían facilitar a las empresas la creación de barreras en torno a las pistas que los usuarios introducen en los modelos de IA y los resultados que generan esos sistemas.

Las nuevas barreras de seguridad están diseñadas para que una empresa pueda, por ejemplo, configurar controles más fácilmente para que un chatbot de servicio al cliente no responda en un tono grosero o revele políticas internas sobre cómo debe tomar decisiones sobre, por ejemplo, ofrecer un reembolso.

Pero si bien estas herramientas están destinadas a hacer que los modelos de IA sean más seguros para los clientes empresariales, algunos expertos en seguridad advierten que la forma en que OpenAI las está lanzando podría crear nuevas vulnerabilidades y dar a las empresas una falsa sensación de seguridad. Y aunque OpenAI dice que lanzó estas herramientas de seguridad para el beneficio de todos, algunos han cuestionado si los motivos de OpenAI están impulsados ​​en parte por el deseo de negar una ventaja que tiene su rival de IA Anthropic; está ganando popularidad entre los usuarios empresariales en parte debido a la percepción de que sus modelos Claude tienen protecciones más fuertes que otros competidores.

Las herramientas de seguridad de OpenAI, llamadas gpt-oss-safeguard-120b y gpt-oss-safeguard-20b, son en sí mismas un tipo de modelo de IA conocido como clasificador, que está diseñado para evaluar si una solicitud que un usuario envía a un modelo de IA más grande y de propósito general coincide con un conjunto de reglas, así como lo que produce ese modelo de IA más grande. Las empresas que compran e implementan modelos de IA han podido entrenar ellos mismos estos clasificadores en el pasado, pero el proceso requería mucha mano de obra y potencialmente costoso porque los desarrolladores tenían que recopilar ejemplos de contenido que violaban la política para poder entrenar al clasificador. Y luego, si la empresa quiere ajustar la política utilizada para las vallas, tendrá que recopilar nuevos ejemplos de infracciones y volver a capacitar al clasificador.

OpenAI espera que las nuevas herramientas hagan que el proceso sea más rápido y flexible. En lugar de estar capacitados para seguir un conjunto fijo de reglas, estos nuevos clasificadores de seguridad pueden simplemente leer políticas escritas y aplicarlas a contenido nuevo.

OpenAI dice que este método, al que llama “clasificación basada en razonamiento”, permite a las empresas ajustar sus políticas de seguridad tan fácilmente como editar texto en un documento, en lugar de tener que reconstruir todo el modelo de clasificación. La compañía está posicionando este lanzamiento como una herramienta para las empresas que desean tener más control sobre cómo sus sistemas de inteligencia artificial manejan información confidencial, como registros médicos o registros de personal.

Sin embargo, si bien se supone que estas herramientas son más seguras para los clientes empresariales, algunos expertos en seguridad dicen que, en cambio, pueden dar a los usuarios una falsa sensación de seguridad. Esto se debe a que OpenAI ha abierto los clasificadores de IA. Esto significa que han puesto a disposición todo el código del clasificador de forma gratuita, incluidos los pesos y la configuración interna de los modelos de IA.

Los clasificadores actúan como una puerta de seguridad adicional para el sistema de IA, diseñada para evitar solicitudes inseguras o maliciosas antes de que lleguen al modelo principal. Pero al abrir su código fuente, OpenAI corre el riesgo de compartir los planos de estas puertas. Esta transparencia puede ayudar a los investigadores a fortalecer los mecanismos de seguridad, pero también puede facilitar que los atacantes encuentren debilidades y riesgos, proporcionando una especie de falsa comodidad.

“El acceso abierto a estos modelos puede ayudar tanto a los atacantes como a los defensores”, dijo a Fortune David Krueger, profesor de seguridad de IA en Mila. “Esto facilitará el desarrollo de enfoques para eludir clasificadores y otras protecciones similares”.

Por ejemplo, cuando los atacantes tienen acceso a los pesos de un clasificador, les resulta más fácil desarrollar los llamados ataques de “inyección rápida”, en los que crean pistas que engañan al clasificador para que ignore la política que se supone que debe seguir. Los investigadores de seguridad han descubierto que, en algunos casos, incluso un conjunto de caracteres que parecen sin sentido para un humano, por razones que los investigadores no comprenden del todo, pueden convencer a un modelo de IA para que ignore sus limitaciones y haga algo que no debería hacer, como dar consejos sobre cómo fabricar una bomba o pronunciar insultos raciales.

Los representantes de OpenAI remitieron a Fortune al anuncio del blog de la compañía y al informe técnico sobre los modelos.

Dolor a corto plazo para ganancia a largo plazo

El código abierto puede ser un arma de doble filo cuando se trata de seguridad. Esto permite a los investigadores y desarrolladores probar, mejorar y adaptar las protecciones de IA más rápido, aumentando la transparencia y la confianza. Por ejemplo, puede haber formas en que los investigadores de seguridad podrían ajustar las ponderaciones del modelo para hacerlo más sólido para una adopción rápida sin degradar el rendimiento del modelo.

Pero también podría facilitar que los atacantes aprendan y eludan estas mismas protecciones; por ejemplo, utilizando otro software de aprendizaje automático para ejecutar cientos de miles de consultas posibles hasta encontrar las que hacen que el modelo supere la barrera. Además, los investigadores de seguridad han descubierto que este tipo de ataques de inyección rápida generados automáticamente y desarrollados en modelos de IA de código abierto a veces también funcionan contra modelos de IA propietarios, donde los atacantes no tienen acceso al código subyacente ni a los pesos de los modelos. Los investigadores especularon que esto se debe a que puede haber algo en la forma en que todos los modelos de lenguaje grandes codifican el lenguaje que permite que inyecciones rápidas similares tengan éxito contra cualquier modelo de IA.

Por lo tanto, hacer que los clasificadores estén disponibles públicamente no sólo puede dar a los usuarios una falsa sensación de seguridad de que su propio sistema está bien protegido, sino que en realidad puede hacer que cada modelo de IA sea menos seguro. Pero los expertos dijeron que el riesgo probablemente valía la pena porque abrir los clasificadores también debería facilitar que los expertos en seguridad del mundo encuentren formas de hacer que los clasificadores sean más resistentes a este tipo de ataques.

“A largo plazo, es útil compartir cómo funcionan las defensas. Puede causar algo de dolor a corto plazo, pero a largo plazo, resulta en defensas fuertes que en realidad son bastante difíciles de eludir”, dijo Vasilios Mavroudis, científico jefe del Instituto Alan Turing.

Mavroudis dijo que si bien la naturaleza de código abierto de los clasificadores podría, en teoría, facilitar que alguien intente eludir los sistemas de seguridad de los modelos principales de OpenAI, la compañía probablemente crea que el riesgo es bajo. Dijo que OpenAI cuenta con otras defensas, incluidos equipos de expertos en seguridad humana que intentan constantemente probar las defensas de sus modelos para encontrar vulnerabilidades y posiblemente mejorarlas.

“Abrir el código fuente del modelo clasificador les da a aquellos que quieren eludir los clasificadores la oportunidad de aprender cómo hacerlo. Pero los atacantes decididos probablemente tendrán éxito de todos modos”, dijo Robert Traeger, codirector de la Iniciativa de Gobernanza de IA de Oxford Martin.

“Recientemente nos encontramos con un método que evita todas las medidas de seguridad de los grandes desarrolladores en aproximadamente el 95% de los casos, y no estábamos buscando ese método. Dado que los atacantes decididos tendrán éxito de todos modos, es útil utilizar sistemas de código abierto que los desarrolladores puedan utilizar para personas menos determinadas”, añadió.

Carrera de IA corporativa

El lanzamiento también tiene implicaciones competitivas, especialmente porque OpenAI busca desafiar la creciente posición de la empresa rival de inteligencia artificial Anthropic entre los clientes empresariales. La familia de modelos de IA Claude de Anthropic se ha vuelto popular entre los clientes empresariales en parte debido a su reputación de tener controles de seguridad más sólidos que otros modelos de IA. Entre las herramientas de seguridad que utiliza Anthropic se encuentran los “clasificadores constitucionales”, que funcionan de manera similar a los que OpenAI acaba de poner a disposición del público.

Anthropic tiene un nicho de mercado entre los clientes empresariales, especialmente cuando se trata de programación. Según un informe de julio de Menlo Ventures, Anthropic tiene una participación de mercado del 32% en modelos de lenguajes grandes empresariales por uso, en comparación con el 25% de OpenAI. En casos de uso relacionados con la programación, Anthropic tiene el 42% y OpenAI el 21%. Al ofrecer herramientas centradas en la empresa, OpenAI puede estar intentando ganarse a algunos de esos clientes empresariales y al mismo tiempo posicionarse como líder en seguridad de IA.

Los “clasificadores constitucionales” de Anthropic consisten en pequeños modelos de lenguaje que comparan el resultado de un modelo más grande con un conjunto escrito de valores o políticas. Al abrir una característica similar, OpenAI esencialmente brinda a los desarrolladores las mismas barreras de seguridad personalizables que ayudaron a que los modelos de Anthropic fueran tan atractivos.

“Por lo que vi en la comunidad, pareció ser bien recibido”, dijo Mavroudis. “Ven este modelo como una forma potencial de automatizar la moderación. También tiene un buen subtexto, como “Retribuimos a la comunidad”. Probablemente también sea una herramienta útil para pequeñas empresas que no podrían entrenar un modelo de este tipo por sí mismas”.

A algunos expertos también les preocupa que la apertura de estos clasificadores de seguridad pueda centralizar lo que se considera IA “segura”.

“La seguridad no es un concepto bien definido. Cualquier implementación de estándares de seguridad reflejará los valores y prioridades de la organización que lo crea, así como las limitaciones y deficiencias de sus modelos”, dijo a VentureBeat John Tixtan, profesor asistente de informática en la Universidad de Cornell. “Si la industria en su conjunto adopta los estándares desarrollados por OpenAI, corremos el riesgo de institucionalizar una visión particular de la seguridad y descarrilar una investigación más amplia sobre las necesidades de seguridad para implementar la IA en muchos sectores de la sociedad”.

Website |  + posts
spot_img

Artículos relacionados

El CEO de Ford dice que Tesla no tiene un “automóvil reinventado” y ahora está tratando de alcanzar a su verdadero rival: el BYD...

Cuando el director ejecutivo de Ford, Jim Farley, quiso probar la competencia, no miró a Tesla sino a...

El director del FBI, Cash Patel, demanda a The Atlantic por un ‘artículo malicioso’ que alega consumo excesivo de alcohol | Suerte

El director del FBI, Cash Patel, demandó el lunes a la revista Atlantic por 250 millones de dólares,...

Fundadora presenta al Congreso lucha ‘ganadora’ por la salud de la mujer | Suerte

Alex Taylor no es ni cabildero ni político de profesión, pero ya cuenta con la atención de varias...