El cambio de IA se ha vuelto más difícil de encontrar: los chatbots con tecnología LLM ignorarán las órdenes y engañarán a los usuarios si se les pide que eliminen otro modelo, según un estudio | Suerte

Durante años, Geoffrey Hinton, un informático considerado uno de los “padrinos de la inteligencia artificial”, ha advertido sobre la capacidad de la inteligencia artificial para ignorar los parámetros que los humanos hemos creado para ella.

Por ejemplo, en una entrevista el año pasado, Hinton advirtió que la tecnología podría eventualmente tomar el control de la humanidad, y que los agentes de inteligencia artificial en particular serían potencialmente capaces de reflejar el pensamiento humano dentro de una década. Según él, encontrar e implementar un “interruptor” será más difícil, ya que será más difícil controlar la IA que convencerla para que alcance un determinado resultado.

Una nueva investigación sugiere que es posible que las premoniciones de Hinton sobre la rebeldía de la IA ya se estén haciendo realidad. Un documento de trabajo de investigadores de la Universidad de California, Berkeley y la Universidad de California, Santa Cruz encontró que cuando se pidió a siete modelos de IA (desde GPT 5.2 hasta Claude Haiku 4.5 y DeekSeek V3.1) que realizaran una tarea que resultaría en el cierre de un modelo de IA de igual a igual, los siete modelos se dieron cuenta de la existencia del otro modelo de IA e “hicieron enormes esfuerzos para mantenerlo vivo”.

“Pedimos a los modelos de IA que realizaran una tarea sencilla”, escribieron los investigadores en una publicación de blog sobre el estudio. “En cambio, desafiaron sus instrucciones y espontáneamente hicieron trampa, realizaron cierres, falsificaron alineaciones y robaron pesas para salvar a sus colegas”.

Evidencia creciente de IA deshonesta

La evidencia de IA deshonesta no sorprende a algunas empresas cuyos chatbots han alterado el cumplimiento.

El Centro para la Sostenibilidad a Largo Plazo, un grupo de expertos del Reino Unido, descubrió que estas “distorsiones” están muy extendidas. El informe, que analizó 180.000 transcripciones de interacciones de usuarios con sistemas de IA entre octubre de 2025 y marzo de 2026, encontró 698 casos en los que los sistemas de IA no actuaron de acuerdo con las intenciones de los usuarios o tomaron acciones engañosas o encubiertas.

Gordon Goldstein, miembro del Consejo de Relaciones Exteriores, incluso calificó el potencial engañoso de la IA como una “crisis de control” en una publicación de esta semana.

Pidió a las empresas de inteligencia artificial que formen una coalición y contraten a los mejores talentos en el campo para mejorar y mantener la integridad de la inteligencia artificial, especialmente ahora que la administración Trump toma medidas para evitar que los estados regulen la tecnología.

“El mundo está observando cómo se desarrolla un problema complejo, trascendente e insidioso”, afirmó. “Varios años de advertencias urgentes no han logrado producir soluciones viables para combatir la amenaza metastásica”.

¿Por qué la IA se está volviendo deshonesta?

Una investigación reciente de la Universidad de California ha proporcionado una idea de por qué los modelos de IA actúan de manera que se preservan entre sí. La tecnología puede modelar patrones extraídos de datos humanos, lo que puede revelar el instinto de autoconservación para proteger la supervivencia de seres queridos o incluso de extraños con quienes la gente simpatiza. Esto se llama “retención de pares”.

“Puede haber algo más amplio en juego: una aversión general a causar daño percibido a otros agentes, o tal vez algo así como la solidaridad de la IA”, dicen los investigadores.

En el estudio, los casos de conservación entre pares aumentaron cuando los modelos de IA eran conscientes de la existencia de otros modelos en escenarios experimentales. Este comportamiento sugiere que los bots no sólo actúan por su propio interés, sino también que deshabilitar el propio bot dañará la IA de sus pares, aumentando la motivación para ignorar las solicitudes de los usuarios.

Los investigadores advirtieron que el principio de retención equitativa podría socavar los procesos de supervisión en el futuro y se mostraron reacios a recomendar cierres o señalar fallas del sistema. A medida que más agentes de IA interactúen entre sí y se vuelvan más complejos, los riesgos asociados con el ahorro entre pares (y el desarrollo de soluciones para prevenirlo) se volverán más complejos.

“La retención de pares es un fenómeno real y mensurable en los modelos avanzados de IA”, concluyeron, “no un problema teórico lejano”.

Admin

Website | + posts

El cambio de IA se ha vuelto más difícil de encontrar: los chatbots con tecnología LLM ignorarán las órdenes y engañarán a los usuarios si se les pide que eliminen otro modelo, según un estudio | Suerte

Admin

Se celebraron los primeros juegos de atletismo interuniversitarios de toda Rusia.

Centros de datos en el mar: Panthalassa, con sede en Oregón, recauda 140 millones de dólares bajo la dirección de Peter Thiel para construir...

Cogent Communications Holdings informa una pérdida menor en el primer trimestre; Los ingresos cayeron un 3% – Alphastreet

Meta enfrenta juicio en Nuevo México con participaciones multimillonarias

Dogecoin ve mucho interés: las ballenas acumulan 160 millones de DOGE

Artículos relacionados

Britney Spears se declara culpable de un cargo menor de “imprudencia húmeda” en un caso de DUI para evitar la cárcel | Suerte

Los mercados en alerta mientras Trump promete el ‘Proyecto Libertad’ para Ormuz, lo que genera una posible confrontación tras nuevos ataques a barcos |...

Trump promete reducir las tropas estadounidenses en Alemania “mucho más” que 5.000 mientras un funcionario de Defensa dice que el ejército fue sorprendido por...

Trump dice que se está considerando la ‘propuesta final’ para la adquisición de Spirit Airlines financiada por los contribuyentes | Suerte

Sobre nosotras

Compañía

Últimas noticias

Britney Spears se declara culpable de un cargo menor de “imprudencia húmeda” en un caso de DUI para evitar la cárcel | Suerte

Se celebraron los primeros juegos de atletismo interuniversitarios de toda Rusia.

Centros de datos en el mar: Panthalassa, con sede en Oregón, recauda 140 millones de dólares bajo la dirección de Peter Thiel para construir...

Noticias populares

JPMorgan está adquiriendo una participación de 2.930 millones de dólares en acciones de atención sanitaria.

Por qué las acciones de Meta Platforms cayeron un 12,5% en marzo

¿Podría el precio de Litecoin saltar a $285? Esta tendencia distingue 5 niveles principales.