Cuándo Yann Le Cun da charlas, es apto para incluir una diapositiva mostrando una famosa pintura de una escena de la Revolución Francesa. Superpuestas a una escena de batalla están estas palabras: “LA REVOLUCIÓN NO SERÁ SUPERVISADA”.
LeCun, vicepresidente y científico jefe de IA de Meta (anteriormente Facebook), cree que la próxima revolución de IA se producirá cuando los sistemas de IA ya no requieran aprendizaje supervisado. Ya no dependerán de conjuntos de datos cuidadosamente etiquetados que brindan información básica para que puedan comprender el mundo y realizar las tareas asignadas. Los sistemas de IA deben poder aprender del mundo con una ayuda mínima de los humanos, dice LeCun. En un correo electrónico de preguntas y respuestas con Espectro IEEEhabló sobre cómo el aprendizaje autosupervisado puede crear sistemas de IA más robustos imbuidos de sentido común.
Estará explorando este tema mañana en una reunión virtual Meta IA evento titulado Dentro del laboratorio: construcción para el metaverso con IA. Ese evento contará con charlas de Mark Zuckerberg, un puñado de científicos de IA de Meta, y una discusión entre LeCun y Yoshua Bengio sobre el camino hacia la IA a nivel humano.
Yann Le CunCortesía Yann LeCun
Ha dicho que las limitaciones del aprendizaje supervisado a veces se consideran erróneamente como intrínsecas limitaciones del aprendizaje profundo. ¿Cuál de estas limitaciones se puede superar con el aprendizaje autosupervisado?
Yann Le Cun: El aprendizaje supervisado funciona bien en dominios relativamente bien circunscritos para los que puede recopilar grandes cantidades de datos etiquetados y para los cuales el tipo de entradas que se ven durante la implementación no son muy diferentes de las que se usan durante el entrenamiento. Es difícil recopilar grandes cantidades de datos etiquetados que no estén sesgados de alguna manera. No estoy hablando necesariamente de sesgo social, sino de correlaciones en los datos que el sistema no debería usar. Un ejemplo famoso de eso es cuando entrenas un sistema para reconocer vacas y todos los ejemplos son vacas en campos de hierba. El sistema utilizará la hierba como señal contextual de la presencia de una vaca. Pero si ahora muestra una vaca en una playa, puede tener problemas para reconocerla como una vaca.
El aprendizaje autosupervisado (SSL) nos permite entrenar un sistema para aprender una buena representación de las entradas de forma independiente a la tarea. Debido a que el entrenamiento SSL usa datos no etiquetados, podemos usar conjuntos de entrenamiento muy grandes y hacer que el sistema aprenda representaciones más sólidas y completas de las entradas. Luego, se necesita una pequeña cantidad de datos etiquetados para obtener un buen rendimiento en cualquier tarea supervisada. Esto reduce en gran medida la cantidad necesaria de datos etiquetados [endemic to] puro aprendizaje supervisado, y hace que el sistema sea más robusto y más capaz de manejar entradas que son diferentes de las muestras de entrenamiento etiquetadas. A veces también reduce la sensibilidad del sistema al sesgo en los datos, una mejora sobre la cual compartiremos más de nuestros conocimientos en investigaciones que se harán públicas en las próximas semanas.
Lo que está sucediendo ahora en los sistemas prácticos de IA es que nos estamos moviendo hacia arquitecturas más grandes que están previamente entrenadas con SSL en grandes cantidades de datos sin etiquetar. Estos se pueden utilizar para una amplia variedad de tareas. Por ejemplo, Meta AI ahora tiene sistemas de traducción de idiomas que pueden manejar un par de cientos de idiomas. ¡Es una sola red neuronal! También disponemos de sistemas de reconocimiento de voz multilingües. Estos sistemas pueden manejar idiomas para los que tenemos muy pocos datos, y mucho menos datos anotados.
Otras figuras destacadas han dicho que el camino a seguir para la IA es mejorar el aprendizaje supervisado con un mejor etiquetado de datos. andres ng Hace poco me hablaron de IA centrada en datosy de Nvidia reverendo lebaredian habló conmigo sobre datos sintéticos que viene con todas las etiquetas. ¿Hay división en el campo sobre el camino a seguir?
Le Cun: No creo que haya una división filosófica. El preentrenamiento SSL es una práctica muy estándar en PNL [natural language processsing]. Ha mostrado excelentes mejoras de rendimiento en el reconocimiento de voz y está empezando a ser cada vez más útil en la visión. Sin embargo, todavía hay muchas aplicaciones inexploradas del aprendizaje supervisado “clásico”, por lo que sin duda se deben usar datos sintéticos con el aprendizaje supervisado siempre que sea posible. Dicho esto, Nvidia está trabajando activamente en SSL.
A mediados de la década de 2000 Geoff Hinton, Yoshua Bengio y yo estaban convencidos de que la única forma en que seríamos capaces de entrenar redes neuronales muy grandes y muy profundas era a través del aprendizaje autosupervisado (o no supervisado). Fue entonces cuando Andrew Ng comenzó a interesarse en el aprendizaje profundo. Su trabajo en ese momento también se centró en métodos que ahora llamaríamos autosupervisados.
¿Cómo podría el aprendizaje autosupervisado conducir a sistemas de IA con sentido común? ¿Hasta dónde puede llevarnos el sentido común hacia la inteligencia a nivel humano?
Le Cun: Creo que se producirá un progreso significativo en la IA una vez que descubramos cómo hacer que las máquinas aprendan cómo funciona el mundo como lo hacen los humanos y los animales: principalmente observándolo y un poco actuando en él. Entendemos cómo funciona el mundo porque hemos aprendido un modelo interno del mundo que nos permite completar la información que falta, predecir lo que va a pasar y predecir los efectos de nuestras acciones. Nuestro modelo mundial nos permite percibir, interpretar, razonar, planificar y actuar. ¿Cómo pueden las máquinas aprender modelos del mundo?
Esto se reduce a dos preguntas: ¿Qué paradigma de aprendizaje debemos usar para entrenar modelos mundiales? ¿Y qué arquitectura deberían usar los modelos mundiales? A la primera pregunta, mi respuesta es SSL. Un ejemplo de eso sería hacer que una máquina vea un video, detenga el video y haga que la máquina aprenda una representación de lo que sucederá a continuación en el video. Al hacerlo, la máquina puede aprender una enorme cantidad de conocimientos previos sobre cómo funciona el mundo, tal vez de manera similar a cómo aprenden los bebés humanos y los animales en las primeras semanas y meses de vida.
A la segunda pregunta, mi respuesta es un nuevo tipo de macroarquitectura profunda que llamo Arquitectura predictiva de incrustación conjunta jerárquica (H-JEPA). Sería demasiado largo explicar aquí en detalle, pero digamos que en lugar de predecir los fotogramas futuros de un videoclip, un JEPA aprende representaciones abstractas del videoclip y el futuro del clip para que este último sea fácilmente predecible. sobre la base de su comprensión de la primera. Esto se puede hacer funcionar usando algunos de los últimos desarrollos en métodos SSL no contrastivos, particularmente un método que mis colegas y yo propusimos recientemente llamado VICReg (Regularización de Varianza, Invarianza, Covarianza).
Hace unas semanas, respondiste a un tuit de Ilya Sutskever de OpenAI en el que especuló que las grandes redes neuronales de hoy pueden ser ligeramente conscientes. Tu respuesta fue un rotundo “No”. En su opinión, ¿qué se necesitaría para construir una red neuronal que califique como consciente? ¿Cómo sería ese sistema?
Le Cun: En primer lugar, la conciencia es un concepto muy mal definido. Algunos filósofos, neurocientíficos y científicos cognitivos piensan que es una mera ilusión, y yo me acerco bastante a esa opinión.
Pero tengo una especulación sobre qué causa la ilusión de la conciencia. Mi hipótesis es que tenemos un único “motor” modelo mundial en nuestra corteza prefrontal. Ese modelo mundial es configurable a la situación actual. Estamos al timón de un velero; nuestro modelo mundial simula el flujo de aire y agua alrededor de nuestro barco. Construimos una mesa de madera; nuestro modelo del mundo imagina el resultado de cortar piezas de madera y ensamblarlas, etc. Tiene que haber un módulo en nuestro cerebro, al que llamo el configurador, que establece objetivos y subobjetivos para nosotros, configura nuestro modelo del mundo para simular la situación en mano, y prepara nuestro sistema de percepción para extraer la información relevante y desechar el resto. La existencia de un configurador supervisor podría ser lo que nos da la ilusión de la conciencia. Pero aquí está lo curioso: necesitamos este configurador porque solo tenemos un único motor de modelo mundial. Si nuestros cerebros fueran lo suficientemente grandes como para contener muchos modelos del mundo, no necesitaríamos la conciencia. Entonces, en ese sentido, ¡la conciencia es un efecto de la limitación de nuestro cerebro!
¿Qué papel jugará el aprendizaje autosupervisado en la construcción del metaverso?
Le Cun: Hay muchas aplicaciones específicas de aprendizaje profundo para el metaverso, algunas de las cuales son cosas como el seguimiento de movimiento para gafas VR y gafas AR, capturar y resintetizar el movimiento corporal y las expresiones faciales, etc.
Existen grandes oportunidades para nuevas herramientas creativas impulsadas por IA que permitirán a todos crear cosas nuevas en el metaverso y también en el mundo real. Pero también hay una aplicación “IA-completa” para el metaverso: asistentes virtuales de IA. Deberíamos tener asistentes virtuales de IA que puedan ayudarnos en nuestra vida diaria, responder cualquier pregunta que tengamos y ayudarnos a lidiar con la avalancha de información que nos bombardea todos los días. Para eso, necesitamos que nuestros sistemas de IA posean cierta comprensión de cómo funciona el mundo (físico o virtual), cierta capacidad de razonar y planificar, y cierto nivel de sentido común. En resumen, debemos descubrir cómo construir sistemas de IA autónomos que puedan aprender como lo hacen los humanos. Esto llevará tiempo. Pero Meta está jugando un juego largo aquí.