Los ex ejecutivos de Cohere, Sarah Hooker y Sudip Roy, aseguran una ronda inicial de 50 millones de dólares para su nueva startup Adaption Labs | Suerte

Fecha:

Compartir publicación:

Sarah Hooker, investigadora de inteligencia artificial y defensora de sistemas de IA más baratos que utilizan menos potencia informática, tiene su propia opinión.

La ex vicepresidenta de investigación de la empresa de inteligencia artificial Cohere y veterana de Google DeepMind ha recaudado 50 millones de dólares en financiación inicial para su nueva startup Adaption Labs.

Hooker y el cofundador Sudip Roy, quien anteriormente fue director de computación de inferencia en Cohere, están tratando de crear sistemas de inteligencia artificial que consuman menos potencia informática y sean más baratos de operar que la mayoría de los principales modelos de inteligencia artificial actuales. También apuntan a modelos que utilizan diferentes técnicas para estar más “adaptados” que la mayoría de los modelos existentes a los problemas específicos que se les pide que resuelvan. (De ahí el nombre de la startup).

La ronda de financiación está liderada por Emergence Capital Partners, con la participación de Mozilla Ventures, la firma de capital riesgo Fifty Years, Threshold Ventures, Alpha Intelligence Capital, e14 Fund y Neo. Adaption Labs, con sede en San Francisco, se negó a proporcionar información sobre su valoración posterior a la recaudación de fondos.

Hooker dijo a Fortune que quiere construir modelos que puedan aprender continuamente sin costosos reentrenamiento o ajustes, y sin el extenso diseño operativo y contextual que la mayoría de las empresas utilizan actualmente para adaptar los modelos de IA a sus casos de uso específicos.

Crear modelos que puedan aprender continuamente se considera una de las tareas más importantes en el campo de la inteligencia artificial. “Este es probablemente el problema más importante en el que he trabajado”, dijo Hooker.

Adaption Labs apuesta por la creencia predominante en la industria de la IA de que la mejor manera de construir mejores modelos de IA es agrandar los LLM subyacentes y capacitarlos con más datos. A medida que los gigantes tecnológicos gastan miles de millones en capacitación cada vez mayor, Hooker dice que los retornos de este enfoque están disminuyendo. “La mayoría de los laboratorios no cuadriplicarán el tamaño de sus modelos cada año, principalmente porque estamos viendo saturación en la arquitectura”, dijo.

Hooker dijo que la industria de la IA se encuentra en un “punto de inflexión” en el que las mejoras ya no provendrán simplemente de la construcción de modelos más grandes, sino de la creación de sistemas que puedan adaptarse de manera más fácil y económica a la tarea en cuestión.

Adaption Labs no es el único “neolaboratorio” (llamado así porque representa una nueva generación de laboratorios de IA de vanguardia tras el éxito de empresas más establecidas como OpenAI, Anthropic y Google DeepMind) que desarrolla nuevas arquitecturas de IA destinadas a permitir el aprendizaje permanente. Jerry Tworek, investigador senior de OpenAI, dejó la empresa en las últimas semanas para iniciar su propia startup llamada Core Automation y dijo que también está interesado en utilizar nuevas técnicas de inteligencia artificial para crear sistemas que puedan aprender constantemente. David Silver, ex investigador principal de Google DeepMind, dejó el gigante tecnológico el mes pasado para lanzar una startup llamada Ineffable Intelligence, que se centrará en el uso del aprendizaje por refuerzo, donde un sistema de inteligencia artificial aprende de las acciones que realiza en lugar de datos estáticos. En algunas configuraciones, esto también podría conducir a modelos de IA capaces de aprendizaje continuo.

La startup de Hooker construye su trabajo en torno a tres “pilares”: datos adaptativos (en los que los sistemas de inteligencia artificial generan y manipulan los datos necesarios para resolver un problema sobre la marcha, en lugar de entrenarse con un gran conjunto de datos estáticos); inteligencia adaptativa (ajuste automático de la cantidad de cálculos en función de la complejidad de la tarea); e interfaces adaptativas (aprendizaje basado en cómo los usuarios interactúan con el sistema).

Durante su tiempo en Google, Hooker desarrolló una reputación en los círculos de IA como oponente del dogma de “la escala es todo lo que necesitas” de muchos de sus colegas investigadores de IA. En un artículo de 2020 ampliamente citado, titulado “La lotería del hardware”, argumentó que las ideas de IA a menudo tienen éxito o fracasan en función de si encajan en el hardware existente y no de sus méritos inherentes. Más recientemente, escribió un artículo de investigación titulado “Sobre la lenta muerte del escalamiento”, que sostiene que los modelos más pequeños con mejores métodos de entrenamiento pueden superar a los modelos mucho más grandes.

En Cohere, defendió el Proyecto Aya, una colaboración con 3.000 científicos informáticos en 119 países que llevó capacidades de inteligencia artificial de vanguardia a docenas de lenguajes para los cuales los principales modelos de vanguardia no funcionaban bien, y lo hicieron utilizando modelos relativamente compactos. El trabajo demostró que los enfoques creativos para el almacenamiento y la capacitación de datos pueden compensar la escala bruta.

Una de las ideas que está explorando Adaption Labs es lo que llama “aprendizaje sin gradientes”. Todos los modelos de IA actuales son redes neuronales extremadamente grandes, que abarcan miles de millones de neuronas digitales. El entrenamiento tradicional de redes neuronales utiliza una técnica llamada descenso de gradiente, que funciona de manera muy similar a un excursionista con los ojos vendados que intenta encontrar el punto más bajo de un valle dando pequeños pasos e intentando detectar si van cuesta abajo. El modelo realiza pequeños ajustes a miles de millones de configuraciones internas llamadas “pesos” que determinan cuánto enfatiza una neurona determinada la entrada de cualquier otra neurona a la que está conectada en su propia salida, verificando después de cada paso si se ha acercado a la respuesta correcta. Este proceso requiere una enorme potencia informática y puede llevar semanas o meses. Y una vez entrenado el modelo, estos pesos se fijan en su lugar.

Para ajustar un modelo para una tarea específica, los usuarios a veces dependen del ajuste fino. Esto implica entrenar aún más el modelo en un conjunto de datos más pequeño y cuidadosamente seleccionado (que generalmente consta de miles o decenas de miles de ejemplos) y realizar más ajustes a las ponderaciones del modelo. Nuevamente, esto puede resultar costoso y, en ocasiones, ascender a millones de dólares.

Alternativamente, los usuarios simplemente intentan darle al modelo instrucciones o sugerencias muy específicas sobre cómo debe realizar la tarea que el usuario desea que realice el modelo. Hooker lo llama “acrobacias rápidas” y señala que las pistas a menudo dejan de funcionar y deben reescribirse cada vez que se lanza una nueva versión del modelo.

Dijo que su objetivo es “eliminar la ingeniería operativa”.

El aprendizaje sin gradientes evita muchos problemas gracias al ajuste fino y al diseño rápido. En lugar de ajustar todos los pesos internos del modelo mediante una costosa capacitación, el enfoque de Adaption Labs cambia el comportamiento del modelo en el momento en que responde a una consulta, lo que los investigadores llaman “tiempo de inferencia”. Los pesos subyacentes del modelo permanecen intactos, pero el sistema aún puede adaptar su comportamiento dependiendo de la tarea en cuestión.

“¿Cómo actualizar el modelo sin cambiar los pesos?” – dijo Hooker. “Hay algunas innovaciones realmente interesantes en arquitectura que nos permiten utilizar los recursos informáticos de manera mucho más eficiente”.

Mencionó algunas formas diferentes de hacer esto. Una es la “fusión sobre la marcha”, en la que el sistema selecciona adaptadores de un conjunto de adaptadores (a menudo modelos pequeños que se entrenan por separado en pequeños conjuntos de datos). Estos adaptadores luego dan forma a la respuesta del modelo subyacente más amplio. El modelo decide qué adaptador utilizar en función de la pregunta que haga el usuario.

Otro método es la “decodificación dinámica”. La decodificación se refiere a cómo el modelo selecciona resultados de una variedad de respuestas probables. La decodificación dinámica cambia las probabilidades según la tarea en cuestión sin cambiar los pesos del modelo subyacente.

“Nos estamos alejando de ser simplemente un modelo”, dijo Hooker. “Esto es parte de una idea profunda: se basa en la interacción y el modelo debería cambiar (en) tiempo real dependiendo de la tarea en cuestión”.

Hooker sostiene que la transición a estos métodos cambia radicalmente la economía de la IA. “El cálculo más caro es el cálculo previo al entrenamiento, principalmente porque es una enorme cantidad de cálculo y una enorme cantidad de tiempo. Con la computación de inferencia, se obtiene un retorno mucho mayor (de cada unidad de potencia de cálculo)”, dijo.

Roy, CTO de Adaption, tiene una amplia experiencia en hacer que los sistemas de inteligencia artificial funcionen de manera eficiente. “Mi cofundador hace que las GPU funcionen muy rápido, lo cual es importante para nosotros debido al componente de tiempo real”, dijo Hooker.

Hooker dijo que Adaption utilizará la financiación de la ronda inicial para contratar más investigadores e ingenieros de IA, así como también contratará diseñadores para trabajar en diferentes interfaces de usuario para la IA, más allá del “panel de chat” estándar que utilizan la mayoría de los modelos de IA.

Website |  + posts
spot_img

Artículos relacionados

Exclusivo: Su robot de reparto ahora monitoreará los peligros en las aceras en tiempo real | Suerte

Los robots de reparto que ruedan por la acera tienen cámaras, sensores y tienen que esquivar constantemente todo...

La lucha de Kalsha por las apuestas deportivas llega a la Corte Suprema, con el futuro del juego en juego | Suerte

Los mercados de pronóstico Kalshi y Polymarket afirman ser máquinas de la verdad que ofrecen información sobre todo,...

El primer ministro de Canadá dice que los fuertes vínculos económicos con Estados Unidos fueron una fortaleza, pero ahora son una debilidad que debe...

El primer ministro canadiense, Mark Carney, dijo en un mensaje en video difundido el domingo que los fuertes...

Los mercados tiemblan a medida que el Estrecho de Ormuz comienza a parecerse a una zona de guerra. “Estamos listos para someterlos a un...

Los futuros de las acciones cayeron y los precios del petróleo subieron el domingo después de que las...