
David Silver, un reconocido investigador de Google DeepMind que jugó un papel fundamental en muchos de los descubrimientos más famosos de la compañía, dejó la compañía para fundar su propia startup.
Silver está lanzando una nueva startup llamada Ineffable Intelligence, con sede en Londres, según una persona con conocimiento directo de los planes de Silver. Según la fuente, la empresa está contratando activamente investigadores en el campo de la inteligencia artificial y buscando financiación de riesgo.
Figura clave detrás de muchos de los avances de DeepMind
Silver fue uno de los primeros empleados de DeepMind cuando se fundó la empresa en 2010. Conocía al cofundador de DeepMind, Demis Hassabis, desde la universidad. Silver jugó un papel decisivo en muchos de los primeros avances de la compañía, incluido su logro histórico de 2016 con AlphaGo, que demostró que un programa de inteligencia artificial podía vencer a los mejores jugadores humanos del mundo en el antiguo juego de estrategia Go.
También fue un miembro clave del equipo que desarrolló AlphaStar, un programa de inteligencia artificial que podía vencer a los mejores jugadores humanos del mundo en el desafiante videojuego Starcraft 2, AlphaZero, que podía jugar ajedrez y shogi, así como Go a niveles sobrehumanos, y MuZero, que podía dominar muchos tipos diferentes de juegos mejor que los humanos, a pesar de que comenzó sin ningún conocimiento del juego, ni siquiera sus reglas.
Más recientemente, trabajó con el equipo de DeepMind que creó AlphaProof, un sistema de inteligencia artificial que podría responder con éxito preguntas en la Olimpiada Internacional de Matemáticas. También es uno de los autores del artículo de investigación de 2023 que presentó la familia Gemini de modelos de inteligencia artificial original de Google. Gemini es ahora la marca y el producto comercial líder de Google en inteligencia artificial.
Buscamos el camino hacia la “superinteligencia” de la inteligencia artificial
Siliver les ha dicho a sus amigos que quiere volver a “la emoción y la maravilla de resolver los problemas más difíciles de la IA” y ve la superinteligencia -o la IA que es más inteligente que cualquier ser humano y potencialmente más inteligente que toda la humanidad- como el mayor problema sin resolver en el campo, según una persona familiarizada con su pensamiento.
Varios otros destacados investigadores de IA también han abandonado los laboratorios de IA existentes en los últimos años para fundar nuevas empresas centradas en el desarrollo de superinteligencia. Ilya Sutskever, ex científico jefe de OpenAI, fundó Safe Superintelligence (SSI) en 2024. La empresa ha recaudado 3.000 millones de dólares en financiación de riesgo hasta la fecha y, según se informa, está valorada en 30.000 millones de dólares. Algunos de los colegas de Silver que trabajaron en AlphaGo, AlphaZero y MuZero también se fueron recientemente para fundar Reflection AI, una startup de inteligencia artificial que también dice que está desarrollando superinteligencia. Mientras tanto, el año pasado Meta reorganizó sus esfuerzos de inteligencia artificial en torno a un nuevo “Laboratorio de Superinteligencia”, dirigido por el ex director ejecutivo y fundador de Scale AI, Alexander Wang.
Más allá de los modelos lingüísticos
Silver es bien conocido por su trabajo sobre el aprendizaje por refuerzo, una forma de entrenar modelos de IA basados en la experiencia en lugar de en datos históricos. En el aprendizaje por refuerzo, un modelo realiza una acción, generalmente en un juego o simulación, y luego recibe retroalimentación sobre si esas acciones son productivas para lograr un objetivo. A través de prueba y error sobre muchas acciones, la IA aprende las mejores formas de lograr un objetivo.
El investigador ha sido considerado a menudo uno de los defensores más dogmáticos del aprendizaje por refuerzo, argumentando que es la única forma de crear una inteligencia artificial que algún día podría superar el conocimiento humano.
En un podcast de Google DeepMind publicado en abril, dijo que los grandes modelos de lenguaje (LLM), el tipo de IA responsable de gran parte del reciente revuelo sobre la IA, son poderosos, pero también están limitados por el conocimiento humano. “Queremos ir más allá de lo que los humanos saben, y para hacerlo necesitaremos un tipo diferente de método, y ese tipo de método requerirá que nuestras IA descubran cosas por sí mismas y descubran cosas nuevas que la gente no conoce”, dijo. Pidió una nueva “era de experiencia” en IA que se basaría en el aprendizaje por refuerzo.
Actualmente, los LLM cuentan con una fase de “preformación” que utiliza lo que se conoce como aprendizaje no supervisado. Consumen grandes cantidades de texto y aprenden a predecir qué palabras tienen estadísticamente más probabilidades de seguir a otras palabras en un contexto determinado. Luego tienen una fase de desarrollo “posterior al entrenamiento” en la que realmente se utiliza algo de aprendizaje por refuerzo, a menudo con evaluadores humanos que observan el resultado del modelo y dan retroalimentación a la IA, a veces simplemente en forma de “pulgar hacia arriba” o “pulgar hacia abajo”. Esta retroalimentación mejora la tendencia del modelo a producir resultados útiles.
Pero este tipo de aprendizaje depende en última instancia de lo que la gente sabe, tanto porque depende de lo que la gente ha aprendido y registrado en el pasado durante la fase previa al aprendizaje, como porque la forma en que se realiza el aprendizaje por refuerzo después de la formación LLM se basa en última instancia en las preferencias humanas. Sin embargo, en algunos casos, la intuición humana puede ser errónea o miope.
Por ejemplo, en la jugada 37 del segundo juego del partido de AlphaGo en 2016 contra el campeón mundial de Go Lee Sedol, AlphaGo hizo un movimiento tan poco convencional que todos los expertos humanos que comentaron sobre el juego estaban convencidos de que era un error. Pero esto más tarde resultó ser la clave de la victoria de AlphaGo en ese partido. Del mismo modo, los jugadores de ajedrez humanos a menudo se refieren a la forma en que AlphaZero juega al ajedrez como “extraterrestre”, pero sus movimientos contrarios a la intuición suelen ser brillantes.
Si los evaluadores humanos emitieran juicios sobre tales pasos, aunque en el proceso de aprendizaje por refuerzo utilizado en la capacitación posterior al LLM, podrían darles un “pulgar hacia abajo” a esos pasos porque ven a los evaluadores humanos como errores. Es por eso que los puristas del aprendizaje por refuerzo como Silver dicen que para lograr la superinteligencia, la IA no sólo tendrá que ir más allá del conocimiento humano, sino que tendrá que descartarlo y aprender a lograr objetivos desde cero, trabajando desde los primeros principios.
Silver dijo que Ineffable Intelligence buscaría crear “una superinteligencia de aprendizaje infinito que descubra de forma independiente los fundamentos de todo conocimiento”, dijo una persona familiarizada con su pensamiento.
