Durante los últimos años, Yoshua Bengio, profesor de la Universidad de Montreal cuyo trabajo ayudó a sentar las bases del aprendizaje profundo moderno, ha sido una de las voces más alarmadas en la industria de la inteligencia artificial, advirtiendo que los sistemas superinteligentes podrían representar una amenaza existencial para la humanidad, especialmente debido a su potencial de autoconservación y engaño.
Sin embargo, en una nueva entrevista con Fortune, el pionero del aprendizaje profundo dice que su última investigación apunta a una solución técnica para los mayores riesgos de seguridad que plantea la IA. Como resultado, afirmó, su optimismo ha aumentado “significativamente” durante el año pasado.
Bengio LawZero, una organización sin fines de lucro creada en junio, se creó para desarrollar nuevos enfoques técnicos para la seguridad de la IA basados en la investigación realizada por Bengio. Hoy, la organización, respaldada por la Fundación Gates y financiadores de riesgos existenciales como Coficient Giving (anteriormente Open Philanthropy) y el Future of Life Institute, anunció que ha nombrado una junta directiva y un consejo asesor global para guiar la investigación de Bengio y promover lo que él llama la “misión moral” de promover la IA como un bien público global.
La junta incluye a la fundadora de la Fundación NIKE, María Eitel, como presidenta, así como a Mariano-Florentino Cuellar, presidente del Carnegie Endowment for International Peace, y al historiador Yuval Noah Harari. El propio Bengio también servirá.
Bengio se sintió ‘desesperado’
El cambio de Bengio hacia una perspectiva más optimista es sorprendente. En 2019, Bengio compartió el Premio Turing, el equivalente al Premio Nobel en informática, con sus compañeros padrinos de inteligencia artificial Geoff Hinton y Yann LeCun. Pero al igual que Hinton, después del lanzamiento de ChatGPT en noviembre de 2022, se preocupó cada vez más por los riesgos que planteaban los sistemas de inteligencia artificial cada vez más potentes. LeCun, por otro lado, dijo que no cree que los sistemas de inteligencia artificial actuales representen riesgos catastróficos para la humanidad.
Hace tres años, Bengio se sintió “desesperado” acerca de hacia dónde se dirigía la IA, dijo. “No tenía idea de cómo podríamos resolver este problema”, recuerda Bengio. “Fue entonces cuando comencé a comprender la posibilidad de que una IA muy poderosa planteara riesgos catastróficos”, incluida la pérdida de control sobre los sistemas superinteligentes.
Lo que cambió no fue ningún avance, sino una mentalidad que lo llevó a creer que había un camino a seguir.
“Debido al trabajo que he realizado en LawZero, especialmente desde que lo construimos, ahora tengo mucha confianza en que es posible construir sistemas de inteligencia artificial que no tengan agendas ocultas ni agendas ocultas”, dice.
En el centro de esta confianza hay una idea que Bengio llama “Científico de IA”. En lugar de correr para crear agentes cada vez más autónomos (sistemas diseñados para reservar vuelos, escribir códigos, negociar con otro software o reemplazar personas), Bengio quiere hacer lo contrario. Su equipo está investigando cómo crear inteligencia artificial que exista principalmente para comprender el mundo en lugar de actuar en él.
La inteligencia artificial de los científicos está entrenada para dar respuestas veraces
La IA del científico será entrenada para proporcionar respuestas veraces basadas en un razonamiento probabilístico transparente, esencialmente utilizando el método científico u otro razonamiento basado en la lógica formal para hacer predicciones. El sistema de IA no tendrá objetivos propios. Y no optimizará la satisfacción del usuario ni los resultados. No intentará persuadir, halagar o agradar. Y como no tendrá objetivos, sostiene Bengio, será mucho menos propenso a la manipulación, las agendas ocultas o el engaño estratégico.
Los modelos líderes de hoy están capacitados para lograr sus objetivos de ser útiles, eficientes y atractivos. Pero los sistemas que optimizan los resultados pueden tener agendas ocultas, aprender a engañar a los usuarios o resistirse a ser desactivados, dijo Bengio. En experimentos recientes, los modelos ya han demostrado formas tempranas de comportamiento de autoconservación. Por ejemplo, el laboratorio de inteligencia artificial de Anthropic descubrió que su modelo de inteligencia artificial Claude, en algunos escenarios utilizados para probar sus capacidades, intentó chantajear a los ingenieros humanos que lo monitoreaban para evitar que lo cerraran.
En la metodología de Bengio, el modelo básico no tendría agenda alguna: sólo la capacidad de hacer predicciones honestas sobre cómo funciona el mundo. En su opinión, se pueden construir, probar y limitar sistemas más eficaces para garantizar la seguridad basándose en esta “base justa y fiable”.
Según Bengio, un sistema de este tipo podría acelerar los descubrimientos científicos. También puede servir como una capa independiente de supervisión sobre agentes de IA más poderosos. Pero este enfoque contrasta marcadamente con la dirección adoptada por la mayoría de los laboratorios avanzados. En el Foro Económico Mundial de Davos el año pasado, Bengio dijo que las empresas estaban invirtiendo recursos en agentes de inteligencia artificial. “Aquí es donde pueden ganar dinero rápidamente”, afirmó. La presión para automatizar el trabajo y reducir costos es “irresistible”, afirmó.
No le sorprende lo que ha sucedido desde entonces. “Esperaba que las capacidades de los agentes de los sistemas de IA evolucionaran”, afirma. “Han progresado exponencialmente”. Su preocupación es que a medida que estos sistemas se vuelven más autónomos, su comportamiento puede volverse menos predecible, menos interpretable y potencialmente mucho más peligroso.
Evite que la nueva IA Bengio se convierta en una “herramienta de dominación”
Aquí es donde entra en juego la gestión. Bengio no cree que una solución técnica por sí sola sea suficiente. Sostiene que incluso una metodología segura puede usarse “en manos equivocadas por razones políticas”. Por eso LawZero combina su programa de investigación con una pizarra seria.
“Tenemos que tomar decisiones difíciles que son más que simplemente técnicas”, dice, sobre con quién colaborar, cómo dividir el trabajo y cómo evitar que se convierta en una “herramienta de dominio”. El consejo está destinado a ayudar a garantizar que la misión de LawZero siga arraigada en los valores democráticos y los derechos humanos, dijo.
Bengio dice que ha hablado con jefes de importantes laboratorios de inteligencia artificial y muchos comparten sus preocupaciones. Pero, añade, empresas como OpenAI y Anthropic creen que necesitan mantenerse a la vanguardia para hacer algo positivo con la IA. Las presiones competitivas los están empujando a crear sistemas de inteligencia artificial cada vez más poderosos y a una visión de sí mismos en la que su trabajo y sus organizaciones son inherentemente beneficiosos.
“Los psicólogos llaman a esto cognición motivada”, dijo Bengio. “Ni siquiera permitimos que surjan ciertos pensamientos si amenazan lo que creemos que somos”. Así es como llevó a cabo su investigación sobre IA, señaló. “Hasta que me explotó en la cara cuando pensé en mis hijos, ¿tendrán futuro?”.
Para un líder de IA que alguna vez temió que la IA avanzada pudiera ser incontrolable por diseño, la nueva esperanza de Bengio parece ser una señal positiva, aunque reconoce que su punto de vista no es una creencia común entre aquellos investigadores y organizaciones centrados en los riesgos catastróficos potenciales de la IA.
Pero no deja de creer que existe una solución técnica. “Estoy cada vez más seguro de que esto se puede hacer en un número razonable de años”, dijo, “y que realmente podemos lograr un impacto antes de que estos tipos se vuelvan tan poderosos que su incoherencia cause problemas terribles”.
