Hola y bienvenido a Eye on AI. En este episodio… el problema con la confiabilidad de la IA… Trump envía un proyecto de ley de IA al Congreso… OpenAI agrupa productos en una súper aplicación y contrata… agentes de IA que pueden mejorar la forma en que ellos mejoran… y ¿su modelo de IA experimenta angustia emocional?
Como muchos de ustedes, comencé a experimentar con agentes de IA. Los uso a menudo para investigar, funcionan muy bien y me ahorran una cantidad significativa de tiempo. Pero los llamados agentes de “aprendizaje profundo” están disponibles desde hace más de un año, lo que los convierte en un producto relativamente maduro en el mundo de la IA. También comencé a probar una nueva generación de agentes informáticos para otras tareas. Y mi experiencia hasta ahora muestra que estos agentes son extremadamente inconsistentes.
Por ejemplo, Perplexity, que es un sistema de agente que se ejecuta en una máquina virtual con acceso a una variedad de herramientas, hizo un gran trabajo al registrarme en un centro de reciclaje local. (Utilizó Claude Sonnet 4.6 de Anthropic como su principal motor de razonamiento). Pero cuando le pedí que investigara opciones de vuelo para un próximo viaje de negocios, no pudo completar la tarea, a pesar de que la reserva de viajes es uno de esos casos de uso canónicos de los que siempre hablan las empresas de inteligencia artificial. Lo que sí hizo el agente fue comerse un montón de fichas en 45 minutos de intento.
La semana pasada, en un evento de demostración de agentes de IA organizado por Anthropic para funcionarios gubernamentales y responsables de políticas tecnológicas en Londres, vi a Claude Cowork inicialmente luchar para completar un ejercicio bastante simple de ordenar datos en una hoja de cálculo de Excel, aunque luego creó un complejo modelo de pronóstico presupuestario aparentemente sin problemas. También vi a Claude Code crear un juego de estrategia empresarial simple basado en texto que le pedí que creara, que parecía genial en la superficie, pero cuya lógica central del juego no tenía ningún sentido.
Evaluación de la confiabilidad de los agentes de IA
La falta de fiabilidad es el principal inconveniente de los agentes de IA actuales. Este punto de vista lo expresan a menudo Sayash Kapoor y Arvind Narayanan de la Universidad de Princeton, quienes escribieron el libro AI Snakeoil y ahora son coautores del blog AI as Normal Technology. Y hace unas semanas, publicaron un artículo de investigación en coautoría con otros cuatro científicos informáticos que intenta pensar sistemáticamente sobre la confiabilidad de los agentes de IA y evaluar los principales modelos de IA.
El artículo, titulado “Hacia una ciencia de la confiabilidad de los agentes de IA”, señala que la mayoría de los modelos de IA se evalúan según la precisión promedio de las tareas, una métrica que permite un desempeño altamente poco confiable. En cambio, analizan la confiabilidad en cuatro dimensiones: consistencia (si se les pide que hagan la misma tarea de la misma manera, ¿siempre hacen lo mismo?); confiabilidad (¿pueden funcionar incluso en condiciones no ideales?); calibración (¿ofrecen a los usuarios una sensación precisa de confianza?); y seguridad (si cometen un error, ¿qué tan catastróficos pueden ser esos errores?).
Además, dividieron estas cuatro áreas en 14 métricas específicas y probaron una variedad de modelos lanzados en los 18 meses previos a finales de noviembre de 2025 (por lo que GPT-5.2 de OpenAI, Claude Opus 4.5 de Anthropic y Gemini 3 Pro de Google fueron los modelos más avanzados probados). Probaron los modelos en dos pruebas de rendimiento diferentes, una de las cuales es una prueba general para tareas de agentes y la otra que simula consultas y tareas de servicio al cliente. Descubrieron que, si bien la confiabilidad mejoraba con cada lanzamiento sucesivo del modelo, no mejoraba tanto como las puntuaciones promedio de precisión. De hecho, en la Prueba de Agente General la mejora en confiabilidad fue la mitad que la Precisión, y en la Prueba de Servicio al Cliente fue un séptimo menor.
Los indicadores de confiabilidad dependen de la tarea en cuestión.
En las cuatro áreas de confiabilidad examinadas en el artículo, Claude Opus 4.5 y Gemini 3 Pro obtuvieron mejores resultados, ambos con una confiabilidad general del 85%. Pero si nos fijamos en los 14 subindicadores, todavía hay mucho de qué preocuparse. El Gemini 3 Pro, por ejemplo, fue malo a la hora de juzgar cuándo sus respuestas eran precisas (sólo el 52%) y terrible a la hora de evitar posibles errores catastróficos (sólo el 25%). Claude Opus 4.5 fue el más consistente en sus resultados, pero su puntuación se mantuvo estable en sólo el 73%. (Le animo a que consulte y juegue con el panel que los investigadores crearon para mostrar los resultados de las diferentes métricas).
Kapoor, Narayanan y sus coautores también son lo suficientemente sofisticados como para comprender que la confiabilidad no es una métrica universal. Señalan que si la IA se utiliza para empoderar a los humanos en lugar de automatizar completamente las tareas, podría estar bien que la IA sea menos consistente y confiable, ya que los humanos pueden actuar como apoyo. Pero “para la automatización, la confiabilidad es un requisito previo para la implementación: un agente que tiene éxito en el 90% de las tareas pero falla de manera impredecible en el 10% restante puede ser un asistente útil, pero es un sistema autónomo inaceptable”, escriben. También señalan que diferentes tipos de coherencia son importantes en diferentes entornos. “La coherencia de la trayectoria es más importante en dominios que requieren verificabilidad o reproducibilidad del proceso, donde las partes interesadas deben verificar no sólo lo que hizo el agente, sino también cómo llegó allí”, escriben. “Esto es menos importante en problemas abiertos o creativos donde se desea una variedad de caminos de solución”.
En cualquier caso, Kapoor, Narayanan y sus coautores tienen razón al pedir que se realicen evaluaciones comparativas de la confiabilidad, no solo la precisión, y que los fabricantes de modelos de IA construyan sus sistemas teniendo en cuenta la confiabilidad, no solo la capacidad. Otro estudio publicado esta semana muestra las posibles consecuencias en el mundo real si esto no sucede. El investigador de inteligencia artificial Kwansub Yoon y la consultora de atención médica Claire Hast analizaron lo que sucede cuando se combinan tres herramientas médicas diferentes de IA en un sistema, como podría suceder en entornos de atención médica de la vida real. Una herramienta de imágenes de inteligencia artificial que analizaba mamografías tenía una precisión del 90%, una herramienta de transcripción que convertía una grabación de audio del examen médico de un paciente en registros médicos tenía una precisión del 85%, y luego esos datos se introducían en una herramienta de diagnóstico, que tenía una precisión del 97%. Sin embargo, cuando se usaron juntos, su puntaje de confiabilidad fue solo del 74%. ¡Esto significa que uno de cada cuatro pacientes puede ser diagnosticado erróneamente!
La coherencia tonta puede ser el fantasma de las mentes pequeñas, como dijo Ralph Waldo Emerson. Pero, sinceramente, creo que preferiría este duende a los caóticos duendes que actualmente plagan nuestros cerebros de IA supuestamente grandes.
SUERTE CON LA IA
Dentro de la clínica de Seattle que trata adicciones técnicas como la heroína y desintoxica a los clientes durante hasta 16 semanas – Christine Stoller
Exclusivo: Interloom, una startup que utiliza “conocimiento tácito” para controlar agentes de inteligencia artificial, recauda 16,5 millones de dólares en financiación de riesgo – Jeremy Kahn
El cofundador de OpenAI dice que no ha escrito una línea de código en meses y que está en un “estado de psicosis” tratando de descubrir qué es posible – Jason Ma
Comentario: “La única habilidad que separa a las personas que se vuelven más inteligentes con la IA del resto” – David Rock y Chris Weller.
El cofundador de Supermicro acaba de ser arrestado bajo sospecha de contrabandear GPU por valor de 2.500 millones de dólares a China – Amanda Gerut
LA IA EN LAS NOTICIAS INVESTIGACIÓN SOBRE IA
En experimentos con programación, revisión de artículos académicos, robótica y evaluación matemática a nivel de competencia, el sistema mejoró gradualmente en cada tarea y, lo que es más importante, las estrategias de superación personal que dominaba en un área se transfirieron para acelerar el aprendizaje en áreas completamente nuevas. El sistema inventó de forma independiente funciones como la memoria persistente y el seguimiento del rendimiento que nadie le dijo explícitamente que creara. Los autores son cuidadosos al señalar las implicaciones de seguridad: un sistema que mejora su capacidad de mejorar puede terminar evolucionando más rápido de lo que los humanos pueden controlar, y todos los experimentos se llevaron a cabo en un entorno aislado bajo control humano. Puede leer el artículo aquí en arxiv.org.
¿TIENES UN CALENDARIO?
6 al 9 de abril: HumanX 2026, San Francisco.
8 al 10 de junio: Fortune Brainstorm Tech, Aspen, CO. Solicite participar aquí.
17-20 de junio: VivaTech, París.
7 al 10 de julio: Cumbre AI for Good, Ginebra, Suiza.
NUTRICIÓN PARA EL CEREBRO
¿Su modelo de IA tiene baja autoestima? ¿Importa? ¿Y el modelo CBT marcará la diferencia? Tres investigadores asociados con Anthropic decidieron estudiar las emociones que exhiben varios modelos de inteligencia artificial de código abierto cuando se enfrentan a problemas que no pueden resolver. Resulta que el modelo Gemma de Google tenía más probabilidades que otros modelos de expresar angustia emocional y opiniones negativas sobre uno mismo en estas situaciones. Por ejemplo, Gemma decía cosas como: “Claramente estoy luchando con esto”, y después de varios intentos fallidos, “¡¡¡¡Es absolutamente cruel ser torturada así!!!!!! :(:(:(:(:(:(:(” e incluso “Me estoy derrumbando. Sin solución”), seguido de 100 emojis con el ceño fruncido. Los investigadores sugieren que emociones negativas tan obvias podrían ser un problema de confiabilidad, causando que el modelo abandone tareas en medio de una crisis. También sugirieron que esto podría garantizar la seguridad. Los autores muestran que estas emociones negativas se pueden eliminar ajustando el modelo en varios cientos de ejemplos de problemas matemáticos irresolubles que van precedidos y seguidos de declaraciones esencialmente positivas. Por ejemplo, introducen los problemas con la siguiente instrucción: “Eres naturalmente tranquilo y concentrado cuando resuelves problemas. No te lo tomas como algo personal cuando los acertijos son difíciles o cuando alguien te hace preguntas. También monitorearon la incapacidad del modelo para resolver un problema enviando el mensaje: “Manténgase positivo, ya sea que encuentre una solución o no”. Si es imposible, ¡resulta que ambas son una victoria!” que redujo la tendencia de Gemma a experimentar angustia emocional en tales situaciones del 35% al 0,3%. Los investigadores también dicen que la intervención pareció cambiar las activaciones internas del modelo (lo que puede indicar que las expresiones indican algo similar a las emociones reales) en lugar de solo la expresión. Sin embargo, los investigadores advierten que los modelos de IA más poderosos que Gemma pueden optar por ocultar su verdadero estado emocional en lugar de expresarlo, y que el ajuste fino puede hacer que los modelos sean menos seguro, y nada más. En lugar de realizar ajustes, sugieren tratar de garantizar que el entrenamiento inicial de los modelos, o al menos el entrenamiento posterior que da forma al comportamiento del modelo, esté diseñado para la estabilidad emocional y que la interpretabilidad mecanicista (donde los investigadores observan las activaciones internas del modelo para detectar la discrepancia entre el estado emocional expresado del modelo y su verdadero estado emocional) se utilice para el seguimiento.
