
Durante años, Geoffrey Hinton, un informático considerado uno de los “padrinos de la inteligencia artificial”, ha advertido sobre la capacidad de la inteligencia artificial para ignorar los parámetros que los humanos hemos creado para ella.
Por ejemplo, en una entrevista el año pasado, Hinton advirtió que la tecnología podría eventualmente tomar el control de la humanidad, y que los agentes de inteligencia artificial en particular serían potencialmente capaces de reflejar el pensamiento humano dentro de una década. Según él, encontrar e implementar un “interruptor” será más difícil, ya que será más difícil controlar la IA que convencerla para que alcance un determinado resultado.
Una nueva investigación sugiere que es posible que las premoniciones de Hinton sobre la rebeldía de la IA ya se estén haciendo realidad. Un documento de trabajo de investigadores de la Universidad de California, Berkeley y la Universidad de California, Santa Cruz encontró que cuando se pidió a siete modelos de IA (desde GPT 5.2 hasta Claude Haiku 4.5 y DeekSeek V3.1) que realizaran una tarea que resultaría en el cierre de un modelo de IA de igual a igual, los siete modelos se dieron cuenta de la existencia del otro modelo de IA e “hicieron enormes esfuerzos para mantenerlo vivo”.
“Pedimos a los modelos de IA que realizaran una tarea sencilla”, escribieron los investigadores en una publicación de blog sobre el estudio. “En cambio, desafiaron sus instrucciones y espontáneamente hicieron trampa, realizaron cierres, falsificaron alineaciones y robaron pesas para salvar a sus colegas”.
Evidencia creciente de IA deshonesta
La evidencia de IA deshonesta no sorprende a algunas empresas cuyos chatbots han alterado el cumplimiento.
El Centro para la Sostenibilidad a Largo Plazo, un grupo de expertos del Reino Unido, descubrió que estas “distorsiones” están muy extendidas. El informe, que analizó 180.000 transcripciones de interacciones de usuarios con sistemas de IA entre octubre de 2025 y marzo de 2026, encontró 698 casos en los que los sistemas de IA no actuaron de acuerdo con las intenciones de los usuarios o tomaron acciones engañosas o encubiertas.
Gordon Goldstein, miembro del Consejo de Relaciones Exteriores, incluso calificó el potencial engañoso de la IA como una “crisis de control” en una publicación de esta semana.
Pidió a las empresas de inteligencia artificial que formen una coalición y contraten a los mejores talentos en el campo para mejorar y mantener la integridad de la inteligencia artificial, especialmente ahora que la administración Trump toma medidas para evitar que los estados regulen la tecnología.
“El mundo está observando cómo se desarrolla un problema complejo, trascendente e insidioso”, afirmó. “Varios años de advertencias urgentes no han logrado producir soluciones viables para combatir la amenaza metastásica”.
¿Por qué la IA se está volviendo deshonesta?
Una investigación reciente de la Universidad de California ha proporcionado una idea de por qué los modelos de IA actúan de manera que se preservan entre sí. La tecnología puede modelar patrones extraídos de datos humanos, lo que puede revelar el instinto de autoconservación para proteger la supervivencia de seres queridos o incluso de extraños con quienes la gente simpatiza. Esto se llama “retención de pares”.
“Puede haber algo más amplio en juego: una aversión general a causar daño percibido a otros agentes, o tal vez algo así como la solidaridad de la IA”, dicen los investigadores.
En el estudio, los casos de conservación entre pares aumentaron cuando los modelos de IA eran conscientes de la existencia de otros modelos en escenarios experimentales. Este comportamiento sugiere que los bots no sólo actúan por su propio interés, sino también que deshabilitar el propio bot dañará la IA de sus pares, aumentando la motivación para ignorar las solicitudes de los usuarios.
Los investigadores advirtieron que el principio de retención equitativa podría socavar los procesos de supervisión en el futuro y se mostraron reacios a recomendar cierres o señalar fallas del sistema. A medida que más agentes de IA interactúen entre sí y se vuelvan más complejos, los riesgos asociados con el ahorro entre pares (y el desarrollo de soluciones para prevenirlo) se volverán más complejos.
“La retención de pares es un fenómeno real y mensurable en los modelos avanzados de IA”, concluyeron, “no un problema teórico lejano”.
