Por André He y Vivek Myers
Un objetivo de larga information en el campo del aprendizaje de robots ha sido crear agentes generalistas que puedan realizar tareas para humanos. El lenguaje pure tiene el potencial de ser una interfaz fácil de usar para que los humanos especifiquen tareas arbitrarias, pero es difícil entrenar robots para que sigan instrucciones del lenguaje. Enfoques como la clonación conductual condicionada por el lenguaje (LCBC) entrenan políticas para imitar directamente acciones expertas condicionadas al lenguaje, pero requieren que los humanos anoten todas las trayectorias de entrenamiento y generalicen mal entre escenas y comportamientos. Mientras tanto, los enfoques recientes condicionados a objetivos funcionan mucho mejor en tareas generales de manipulación, pero no permiten una fácil especificación de tareas para los operadores humanos. ¿Cómo podemos conciliar la facilidad de especificar tareas mediante enfoques similares al LCBC con las mejoras en el rendimiento del aprendizaje condicionado por objetivos?
Conceptualmente, un robotic que sigue instrucciones requiere dos capacidades. Necesita fundamentar la enseñanza del idioma en el entorno físico y luego poder llevar a cabo una secuencia de acciones para completar la tarea prevista. No es necesario aprender estas capacidades de un extremo a otro únicamente a partir de trayectorias anotadas por humanos, sino que se pueden aprender por separado de las fuentes de datos adecuadas. Los datos de visión y lenguaje de fuentes no robóticas pueden ayudar a aprender la base del lenguaje con generalización a diversas instrucciones y escenas visuales. Mientras tanto, las trayectorias de robots sin etiquetar se pueden utilizar para entrenar a un robotic para que alcance estados objetivo específicos, incluso cuando no estén asociadas con instrucciones del lenguaje.
El condicionamiento de objetivos visuales (es decir, imágenes de objetivos) proporciona beneficios complementarios para el aprendizaje de políticas. Como forma de especificación de tareas, las metas son deseables para escalar porque pueden generarse libremente y reetiquetarse en retrospectiva (cualquier estado alcanzado a lo largo de una trayectoria puede ser una meta). Esto permite entrenar políticas mediante clonación conductual condicionada por objetivos (GCBC) en grandes cantidades de datos de trayectoria no estructurados y sin anotaciones, incluidos los datos recopilados de forma autónoma por el propio robotic. Los objetivos también son más fáciles de fundamentar ya que, como imágenes, se pueden comparar directamente píxel a píxel con otros estados.
Sin embargo, los objetivos son menos intuitivos para los usuarios humanos que el lenguaje pure. En la mayoría de los casos, es más fácil para un usuario describir la tarea que desea realizar que proporcionar una imagen de objetivo, lo que probablemente requeriría realizar la tarea de todos modos para generar la imagen. Al exponer una interfaz de lenguaje para políticas condicionadas por objetivos, podemos combinar las fortalezas de la especificación de objetivos y tareas de lenguaje para habilitar robots generalistas que puedan ser comandados fácilmente. Nuestro método, que se analiza a continuación, expone dicha interfaz para generalizar a diversas instrucciones y escenas utilizando datos de visión y lenguaje, y mejorar sus habilidades físicas al digerir grandes conjuntos de datos de robots no estructurados.
Representaciones de objetivos para el seguimiento de instrucciones.

El modelo GRIF consta de un codificador de lenguaje, un codificador de objetivos y una purple de políticas. Los codificadores asignan respectivamente instrucciones del lenguaje e imágenes de objetivos en un espacio de representación de tareas compartido, lo que condiciona la purple de políticas al predecir acciones. El modelo puede condicionarse efectivamente a instrucciones del lenguaje o imágenes de objetivos para predecir acciones, pero utilizamos principalmente el entrenamiento condicionado a objetivos como una forma de mejorar el caso de uso condicionado al lenguaje.
Nuestro enfoque, Representaciones de objetivos para el seguimiento de la instrucción (GRIF), entrena conjuntamente un lenguaje y una política condicionada por objetivos con representaciones de tareas alineadas. Nuestra thought clave es que estas representaciones, alineadas entre el lenguaje y las modalidades de objetivos, nos permiten combinar de manera efectiva los beneficios del aprendizaje condicionado por objetivos con una política condicionada por el lenguaje. Luego, las políticas aprendidas pueden generalizarse en todos los idiomas y escenas después del entrenamiento con datos de demostración en su mayoría sin etiquetar.
Entrenamos a GRIF en una versión del conjunto de datos Bridge-v2 que contiene 7.000 trayectorias de demostración etiquetadas y 47.000 sin etiquetar dentro de un entorno de manipulación de cocina. Dado que todas las trayectorias en este conjunto de datos tuvieron que ser anotadas manualmente por humanos, poder usar directamente las 47k trayectorias sin anotaciones mejora significativamente la eficiencia.
Para aprender de ambos tipos de datos, GRIF se entrena junto con la clonación conductual condicionada por el lenguaje (LCBC) y la clonación conductual condicionada por objetivos (GCBC). El conjunto de datos etiquetado contiene especificaciones de tareas tanto de lenguaje como de objetivo, por lo que lo usamos para supervisar las predicciones condicionadas tanto por el lenguaje como por el objetivo (es decir, LCBC y GCBC). El conjunto de datos sin etiqueta contiene solo objetivos y se utiliza para GCBC. La diferencia entre LCBC y GCBC es solo una cuestión de seleccionar la representación de la tarea del codificador correspondiente, que se pasa a una purple de políticas compartida para predecir acciones.
Al compartir la purple de políticas, podemos esperar alguna mejora al utilizar el conjunto de datos sin etiquetar para el entrenamiento condicionado por objetivos. Sin embargo, GRIF permite una transferencia mucho más fuerte entre las dos modalidades al reconocer que algunas instrucciones del lenguaje e imágenes de objetivos especifican el mismo comportamiento. En explicit, explotamos esta estructura exigiendo que las representaciones del lenguaje y de los objetivos sean similares para la misma tarea semántica. Suponiendo que esta estructura se mantenga, los datos no etiquetados también pueden beneficiar la política condicionada por el lenguaje, ya que la representación del objetivo se aproxima a la de la instrucción faltante.
Alineación a través del aprendizaje contrastivo

Alineamos explícitamente las representaciones entre tareas condicionadas por objetivos y condicionadas por el lenguaje en el conjunto de datos etiquetados a través del aprendizaje contrastivo.
Dado que el lenguaje a menudo describe un cambio relativo, elegimos alinear las representaciones de pares estado-meta con la instrucción del lenguaje (en lugar de solo objetivo con lenguaje). Empíricamente, esto también hace que las representaciones sean más fáciles de aprender, ya que pueden omitir la mayor parte de la información en las imágenes y centrarse en el cambio del estado al objetivo.
Aprendemos esta estructura de alineación a través de un objetivo infoNCE en instrucciones e imágenes del conjunto de datos etiquetado. Entrenamos codificadores duales de imágenes y texto mediante un aprendizaje contrastivo sobre pares coincidentes de lenguaje y representaciones de objetivos. El objetivo fomenta una alta similitud entre representaciones de la misma tarea y una baja similitud para otras, donde los ejemplos negativos se toman de otras trayectorias.
Cuando se utiliza un muestreo negativo ingenuo (uniforme del resto del conjunto de datos), las representaciones aprendidas a menudo ignoran la tarea actual y simplemente alinean instrucciones y objetivos que se refieren a las mismas escenas. Para utilizar la política en el mundo actual, no resulta muy útil asociar el lenguaje con una escena; más bien lo necesitamos para eliminar la ambigüedad entre diferentes tareas en la misma escena. Por lo tanto, utilizamos una estrategia de muestreo negativo estricto, en la que hasta la mitad de los negativos se muestrean de diferentes trayectorias en la misma escena.
Naturalmente, esta configuración de aprendizaje contrastante se burla de modelos de visión y lenguaje previamente entrenados como CLIP. Demuestran una capacidad efectiva de generalización de cero y pocos intentos para tareas de visión y lenguaje, y ofrecen una manera de incorporar conocimientos de la capacitación previa a escala de Web. Sin embargo, la mayoría de los modelos de lenguaje visible están diseñados para alinear una sola imagen estática con su título sin la capacidad de comprender los cambios en el entorno, y funcionan mal cuando hay que prestar atención a un solo objeto en escenas abarrotadas.
Para abordar estos problemas, diseñamos un mecanismo para acomodar y ajustar CLIP para alinear las representaciones de tareas. Modificamos la arquitectura CLIP para que pueda operar en un par de imágenes combinadas con fusión temprana (apiladas por canales). Esta resulta ser una inicialización capaz para codificar pares de imágenes de estado y objetivo, y que es particularmente buena para preservar los beneficios previos al entrenamiento de CLIP.
Resultados de la política de robots
Para nuestro resultado principal, evaluamos la política GRIF en el mundo actual en 15 tareas en 3 escenas. Las instrucciones se eligen para que sean una combinación de aquellas que están bien representadas en los datos de entrenamiento y otras novedosas que requieren cierto grado de generalización compositiva. Una de las escenas también presenta una combinación invisible de objetos.
Comparamos GRIF con LCBC easy y líneas de base más sólidas inspiradas en trabajos anteriores como LangLfP y BC-Z. LLfP corresponde a una formación conjunta con LCBC y GCBC. BC-Z es una adaptación del método del mismo nombre a nuestro entorno, donde entrenamos en LCBC, GCBC y un término de alineación easy. Optimiza la pérdida de distancia del coseno entre las representaciones de tareas y no utiliza preentrenamiento del lenguaje de imágenes.
Las políticas fueron susceptibles a dos modos principales de fracaso. Es posible que no comprendan la enseñanza del idioma, lo que les lleva a intentar otra tarea o a no realizar ninguna acción útil. Cuando la base lingüística no es sólida, las políticas podrían incluso iniciar una tarea no deseada después de haber realizado la tarea correcta, ya que la instrucción authentic está fuera de contexto.
Ejemplos de fallas de puesta a tierra.

“pon el hongo en la olla de metallic”

“pon la cuchara sobre la toalla”

“pon el pimiento amarillo en el paño”

“pon el pimiento amarillo en el paño”
El otro modo de falla es no manipular objetos. Esto puede deberse a que no se agarra, se mueve de manera imprecisa o se sueltan objetos en el momento incorrecto. Observamos que estas no son deficiencias inherentes a la configuración del robotic, ya que una política de GCBC entrenada en todo el conjunto de datos puede lograr una manipulación exitosa de manera consistente. Más bien, este modo de falla generalmente indica una ineficacia en el aprovechamiento de datos condicionados por objetivos.
Ejemplos de fallos de manipulación

“mueva el pimiento morrón a la izquierda de la mesa”

“pon el pimiento morrón en la sartén”

“mueve la toalla al lado del microondas”
Al comparar las líneas de base, cada uno sufrió estos dos modos de falla en diferentes grados. LCBC se basa únicamente en el pequeño conjunto de datos de trayectoria etiquetados y su escasa capacidad de manipulación le impide completar cualquier tarea. LLfP entrena conjuntamente la política sobre datos etiquetados y no etiquetados y muestra una capacidad de manipulación significativamente mejorada por parte de LCBC. Logra tasas de éxito razonables para instrucciones comunes, pero no logra fundamentar instrucciones más complejas. La estrategia de alineación de BC-Z también mejora la capacidad de manipulación, probablemente porque la alineación mejora la transferencia entre modalidades. Sin embargo, sin fuentes de datos externas de visión y lenguaje, todavía tiene dificultades para generalizar a nuevas instrucciones.
GRIF muestra la mejor generalización y al mismo tiempo tiene fuertes capacidades de manipulación. Es capaz de fundamentar las instrucciones del lenguaje y llevar a cabo la tarea incluso cuando son posibles muchas tareas distintas en la escena. A continuación mostramos algunas implementaciones y las instrucciones correspondientes.
Implementaciones de políticas de GRIF

“mueva la sartén hacia el frente”

“pon el pimiento morrón en la sartén”

“pon el cuchillo sobre la tela morada”

“pon la cuchara sobre la toalla”
Conclusión
GRIF permite que un robotic utilice grandes cantidades de datos de trayectoria sin etiquetar para aprender políticas condicionadas por objetivos, al tiempo que proporciona una “interfaz lingüística” para estas políticas a través de representaciones de tareas alineadas entre lenguaje y objetivos. A diferencia de los métodos anteriores de alineación de lenguaje-imagen, nuestras representaciones alinean los cambios de estado con el lenguaje, lo que mostramos conduce a mejoras significativas con respecto a los objetivos de alineación de imagen-lenguaje estándar de estilo CLIP. Nuestros experimentos demuestran que nuestro enfoque puede aprovechar de manera efectiva las trayectorias robóticas sin etiquetar, con grandes mejoras en el rendimiento con respecto a las líneas de base y los métodos que solo utilizan los datos anotados en el lenguaje.
Nuestro método tiene una serie de limitaciones que podrían abordarse en trabajos futuros. GRIF no es adecuado para tareas en las que las instrucciones dicen más sobre cómo hacer la tarea que qué hacer (por ejemplo, “verter el agua lentamente”); dichas instrucciones cualitativas podrían requerir otros tipos de pérdidas de alineación que consideren los pasos intermedios de la tarea. ejecución. GRIF también supone que toda la base del lenguaje proviene de la parte de nuestro conjunto de datos que está completamente anotada o de un VLM previamente entrenado. Una dirección interesante para el trabajo futuro sería ampliar nuestra pérdida de alineación para utilizar datos de vídeo humanos para aprender una semántica rica a partir de datos a escala de Web. Este enfoque podría luego utilizar estos datos para mejorar la base del lenguaje fuera del conjunto de datos del robotic y permitir políticas de robotic ampliamente generalizables que puedan seguir las instrucciones del usuario.
Esta publicación se basa en el siguiente artículo:
BAIR Weblog es el weblog oficial del Laboratorio de Investigación de Inteligencia Synthetic de Berkeley (BAIR).
BAIR Weblog es el weblog oficial del Laboratorio de Investigación de Inteligencia Synthetic de Berkeley (BAIR).