Noticias Actualidad en procesos industriales

Dele visibilidad a su trayectoria académica

Participe en la convocatoria de trabajos inéditos de Virtual Pro.

Publicar Ahora

2023-02-07Resolviendo un misterio de aprendizaje automático

MIT |Un nuevo estudio muestra cómo los modelos de lenguaje grandes como GPT-3 pueden aprender una nueva tarea con solo unos pocos ejemplos, sin necesidad de nuevos datos de entrenamiento.

Los grandes modelos de lenguaje como GPT-3 de OpenAI son redes neuronales masivas que pueden generar texto similar al humano, desde poesía hasta código de programación. Estos modelos de aprendizaje automático, entrenados con gran cantidad de datos de Internet, toman una pequeña cantidad de texto de entrada y luego predicen el texto que probablemente vendrá a continuación.

Pero eso no es todo lo que estos modelos pueden hacer. Los investigadores están explorando un fenómeno curioso conocido como aprendizaje en contexto, en el que un modelo de lenguaje grande aprende a realizar una tarea después de ver solo unos pocos ejemplos, a pesar de que no fue entrenado para esa tarea. Por ejemplo, alguien podría proporcionarle al modelo varias oraciones de ejemplo y sus sentimientos (positivos o negativos), luego sugerirle una nueva oración y el modelo puede dar el sentimiento correcto.

Por lo general, un modelo de aprendizaje automático como GPT-3 necesitaría volver a entrenarse con nuevos datos para esta nueva tarea. Durante este proceso de entrenamiento, el modelo actualiza sus parámetros a medida que procesa nueva información para aprender la tarea. Pero con el aprendizaje en contexto, los parámetros del modelo no se actualizan, por lo que parece que el modelo aprende una nueva tarea sin aprender nada en absoluto.

Científicos del MIT, Google Research y la Universidad de Stanford se esfuerzan por desentrañar este misterio. Estudiaron modelos que son muy similares a los modelos de lenguaje grande para ver cómo pueden aprender sin actualizar los parámetros.

Los resultados teóricos de los investigadores muestran que estos modelos masivos de redes neuronales son capaces de contener modelos lineales más pequeños y simples enterrados en su interior. Luego, el modelo grande podría implementar un algoritmo de aprendizaje simple para entrenar a este modelo lineal más pequeño para completar una nueva tarea, utilizando solo la información que ya está contenida en el modelo más grande. Sus parámetros permanecen fijos.

Un paso importante hacia la comprensión de los mecanismos detrás del aprendizaje en contexto, esta investigación abre la puerta a una mayor exploración de los algoritmos de aprendizaje que estos grandes modelos pueden implementar, dice Ekin Akyürek, estudiante de posgrado en informática y autor principal de un artículo que explora este fenómeno. Con una mejor comprensión del aprendizaje en contexto, los investigadores podrían permitir que los modelos completen nuevas tareas sin la necesidad de una costosa capacitación.

"Por lo general, si desea afinar estos modelos, necesita recopilar datos específicos del dominio y realizar una ingeniería compleja. Pero ahora podemos simplemente alimentarlo con una entrada, cinco ejemplos, y logra lo que queremos. Entonces, en -el aprendizaje contextual es un fenómeno de aprendizaje irrazonablemente eficiente que debe entenderse", dice Akyürek.

Junto a Akyürek en el artículo están Dale Schuurmans, científico investigador de Google Brain y profesor de informática en la Universidad de Alberta; así como los autores principales Jacob Andreas, profesor asistente del X Consortium en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); Tengyu Ma, profesor asistente de informática y estadística en Stanford; y Danny Zhou, científico principal y director de investigación de Google Brain. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Un modelo dentro de un modelo

En la comunidad de investigación del aprendizaje automático, muchos científicos han llegado a creer que los grandes modelos de lenguaje pueden realizar un aprendizaje en contexto debido a la forma en que están entrenados, dice Akyürek.

Por ejemplo, GPT-3 tiene cientos de miles de millones de parámetros y se entrenó leyendo grandes extensiones de texto en Internet, desde artículos de Wikipedia hasta publicaciones de Reddit. Entonces, cuando alguien muestra los ejemplos del modelo de una nueva tarea, es probable que ya haya visto algo muy similar porque su conjunto de datos de entrenamiento incluía texto de miles de millones de sitios web. Repite patrones que ha visto durante el entrenamiento, en lugar de aprender a realizar nuevas tareas.

Akyürek planteó la hipótesis de que los aprendices en contexto no solo coinciden con patrones vistos anteriormente, sino que en realidad están aprendiendo a realizar nuevas tareas. Él y otros habían experimentado dando indicaciones a estos modelos utilizando datos sintéticos, que no podrían haber visto en ningún otro lugar antes, y descubrieron que los modelos aún podían aprender de unos pocos ejemplos. Akyürek y sus colegas pensaron que quizás estos modelos de redes neuronales tienen modelos de aprendizaje automático más pequeños dentro de ellos que los modelos pueden entrenar para completar una nueva tarea.

“Eso podría explicar casi todos los fenómenos de aprendizaje que hemos visto con estos grandes modelos”, dice.

Para probar esta hipótesis, los investigadores utilizaron un modelo de red neuronal llamado transformador, que tiene la misma arquitectura que GPT-3, pero que había sido entrenado específicamente para el aprendizaje en contexto.

Al explorar la arquitectura de este transformador, demostraron teóricamente que puede escribir un modelo lineal dentro de sus estados ocultos. Una red neuronal se compone de muchas capas de nodos interconectados que procesan datos. Los estados ocultos son las capas entre las capas de entrada y salida.

Sus evaluaciones matemáticas muestran que este modelo lineal está escrito en algún lugar de las primeras capas del transformador. Luego, el transformador puede actualizar el modelo lineal implementando algoritmos de aprendizaje simples.

En esencia, el modelo simula y entrena una versión más pequeña de sí mismo.

Sondeando capas ocultas

Los investigadores exploraron esta hipótesis mediante experimentos de sondeo, en los que buscaron en las capas ocultas del transformador para tratar de recuperar una cierta cantidad.

“En este caso, intentamos recuperar la solución real del modelo lineal y pudimos mostrar que el parámetro está escrito en los estados ocultos. Esto significa que el modelo lineal está en alguna parte”, dice.

A partir de este trabajo teórico, los investigadores pueden permitir que un transformador realice aprendizaje en contexto agregando solo dos capas a la red neuronal. Todavía hay muchos detalles técnicos por resolver antes de que eso sea posible, advierte Akyürek, pero podría ayudar a los ingenieros a crear modelos que puedan completar nuevas tareas sin la necesidad de volver a capacitarse con nuevos datos.

“El documento arroja luz sobre una de las propiedades más notables de los modelos de lenguaje grande modernos: su capacidad para aprender de los datos proporcionados en sus entradas, sin capacitación explícita. Usando el caso simplificado de la regresión lineal, los autores muestran teóricamente cómo los modelos pueden implementar algoritmos de aprendizaje estándar mientras leen su entrada, y empíricamente qué algoritmos de aprendizaje se ajustan mejor a su comportamiento observado”, dice Mike Lewis, científico investigador de Facebook AI Research que no era involucrados con este trabajo. "Estos resultados son un trampolín para comprender cómo los modelos pueden aprender tareas más complejas y ayudarán a los investigadores a diseñar mejores métodos de entrenamiento para que los modelos de lenguaje mejoren aún más su rendimiento".

En el futuro, Akyürek planea continuar explorando el aprendizaje en contexto con funciones que son más complejas que los modelos lineales que estudiaron en este trabajo. También podrían aplicar estos experimentos a grandes modelos de lenguaje para ver si sus comportamientos también se describen mediante algoritmos de aprendizaje simples. Además, quiere profundizar en los tipos de datos previos al entrenamiento que pueden permitir el aprendizaje en contexto.

“Con este trabajo, las personas ahora pueden visualizar cómo estos modelos pueden aprender de los ejemplares. Entonces, mi esperanza es que cambie la visión de algunas personas sobre el aprendizaje en contexto”, dice Akyürek. “Estos modelos no son tan tontos como la gente piensa. No solo memorizan estas tareas. Pueden aprender nuevas tareas, y hemos demostrado cómo se puede hacer eso”.

MIT
Autor
MIT

Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...


2024-04-25
El CSIC presenta un catálogo con sus 100 tecnologías con mayor potencial comercial

La presidenta de la institución, Eloísa del Pino, ha presentado el catálogo, accesible en abierto, que recoge tecnologías disruptivas en distintas áreas del conocimiento para contribuir al desarrollo de la sociedad.

2024-04-25
De epidemias, civilizaciones y la narrativa de Jonathan Kennedy

El libro "Patogénesis: una historia del mundo en ocho plagas" de Jonathan Kennedy explora la idea de que los gérmenes han tenido un papel fundamental en la historia de la humanidad, desde el Neolítico hasta el siglo XXI. Kennedy plantea que nuestra relación con bacterias y virus ha sido determinante en nuestra supervivencia, incluso más que nuestro ingenio o creatividad.

2024-04-24
Emprendedores universitarios recuperan tuberías dañadas

El problema de las fugas hídricas en el país no es un tema nuevo. Un estudio realizado por la UNAM (Agua Capital, Fondo de Agua de la Ciudad de México y el Centro Regional de Seguridad Hídrica) afirma que “las pérdidas de agua en las redes de distribución del Valle de México se estiman entre el 40 y 50 por ciento, aunque no se cuenta con información precisa sobre los volúmenes que no llegan a su destino”.

2024-04-24
Arc Search llega y reta a Chrome con su mejor experiencia de usuario

Arc Search es un navegador que está dando mucho de qué hablar en el mundo de la tecnología. Enfocado en la experiencia de usuario, es una alternativa que integra inteligencia artificial para mejorar la búsqueda y navegación web.

2024-04-23
Nadie puede trabajar solo en ingeniería civil

Para Mikayla Britsch, senior, la ingeniería civil y ambiental es una vocación que requiere habilidades tanto técnicas como humanas.

2024-04-22
Rompiendo paradigmas para descarbonizar el transporte de carga en América Latina y el Caribe

El transporte de carga terrestre es el más importante para la movilización de bienes en la región de América Latina y el Caribe (ALC), llevando más del 70 % de las cargas nacionales de la región. Se estima que el transporte de carga tiene una participación entre el 3-4 % del PIB nacional de los países de la región (Barbero & Guerrero, 2017).