MotionLM: Predicción de Movimientos Conjuntos como Modelado del Lenguaje

Find AI Tools
No difficulty
No complicated process
Find ai tools

MotionLM: Predicción de Movimientos Conjuntos como Modelado del Lenguaje

Tabla de contenidos:

  1. Introducción
  2. Predicción de trayectorias auto-regresivas
  3. Modelado de secuencias discretas en dominios continuos
  4. Motion LM: un modelo de lenguaje predictivo
  5. Objetivo de entrenamiento: máxima verosimilitud
  6. Marcos de referencia del agente egoísta
  7. Aplicando causalidad temporal
  8. Agregación de trayectorias y ensamblado de modelos
  9. Predicción de interacciones en movimientos conjuntos
  10. Resultados de la predicción interactiva de movimientos

🚗 Predicción de interacciones en movimientos conjuntos

En el contexto de conducción, es esencial ser capaz de predecir las posibles acciones y respuestas de los demás usuarios de la carretera. De manera similar a cómo los modelos de lenguaje pueden predecir el flujo de una conversación, proponemos el uso de modelos de secuencia para predecir el comportamiento de los usuarios de la vía.

Auto-regresión para predecir trayectorias

La predicción de trayectorias auto-regresivas es un método utilizado para predecir los futuros caminos de múltiples agentes en una escena. A diferencia de otros métodos que utilizan técnicas complejas como variables latentes o búsqueda en haz, nuestro enfoque es diferente. Generamos múltiples trayectorias conjuntas posibles muestreando directamente de una distribución aprendida de secuencias de tokens de movimiento discretos.

Modelado de secuencias discretas en dominios continuos

Cuando generamos secuencias en dominios continuos, un enfoque común es descomponer el espacio de salida en partes discretas y predecir distribuciones categóricas en cada paso. En nuestro caso, utilizamos una cuantización uniforme simple de las diferencias alineadas con los ejes entre puntos consecutivos de las trayectorias de los agentes. Esta forma de discretización ha sido efectiva en otros dominios continuos, como la generación de imágenes y audio.

Motion LM: un modelo predictivo del lenguaje

Nuestro modelo, llamado Motion LM, combina la generación de trayectorias y el modelado de interacciones en un proceso único de decodificación temporalmente causal. El modelo se entrena para maximizar la probabilidad logarítmica de estas secuencias de tokens entre agentes que interactúan. En el momento de la inferencia, se generan trayectorias conjuntas paso a paso, donde los agentes interactúan simultáneamente muestreando tokens, atendiendo a los demás y repitiendo.

Este enfoque presenta la ventaja de que la multimodalidad de las predicciones surge de manera natural como una característica del muestreo. Además, Motion LM se puede aplicar a varias tareas de predicción de comportamiento, incluyendo predicciones marginales, conjuntas y condicionales.

Objetivo de entrenamiento: máxima verosimilitud

El objetivo del entrenamiento de Motion LM es igualar la distribución conjunta del comportamiento de los agentes observado en los datos de entrenamiento. Esto se logra entrenando un modelo generativo utilizando una función de verosimilitud máxima sobre secuencias de acciones multi-agentes. El modelo consta de un codificador que procesa los elementos iniciales de la escena y un decodificador de trayectorias que realiza atención cruzada a los elementos de la escena y atención propia a lo largo de los tokens de movimiento de los agentes.

Marcos de referencia del agente egoísta

En nuestro modelo, representamos a cada agente en la escena desde su propia perspectiva, tratándolo como el agente central o egoísta. Esto nos permite centrarnos en las características de la escena relevantes para cada agente. Al agrupar estos agentes egoístas, podemos procesarlos simultáneamente durante el entrenamiento y la inferencia, lo que acelera el proceso.

Aplicando causalidad temporal

En Motion LM, la secuencia de acciones tomadas por un agente solo está influenciada por acciones pasadas y no por acciones futuras. Esto se logra utilizando una máscara durante el entrenamiento que solo permite que el modelo actualice sus representaciones según las acciones pasadas. Esta máscara crea un patrón que permite que cada agente tenga en cuenta las acciones pasadas de los demás hasta el paso actual.

Además, utilizamos un método llamado condicionamiento temporalmente causal. Esto nos permite predecir las acciones de todos los agentes en la escena en función de las acciones de un solo agente consultado. Esto puede verse como una forma de aproximar el efecto de las intervenciones en una red causal, incluso cuando puede haber factores no observados que influyen en las acciones de los agentes.

Agregación de trayectorias y ensamblado de modelos

En nuestro enfoque de predicción conjunta de trayectorias, nuestro objetivo es representar las posibles acciones futuras de los agentes en forma de algunos modos clave. Cada modo se le asigna una probabilidad y representa un resultado posible. Utilizamos un método llamado supresión no máxima (NMS) para agrupar estas salidas y estimar sus probabilidades. También utilizamos el ensamblado de modelos para mejorar la calidad de nuestras predicciones.

Probamos nuestro modelo en el conjunto de datos Waymo OpenMotion, que contiene escenarios de conducción del mundo real. Nuestro modelo obtuvo buenos resultados en estas pruebas, ubicándose en el segundo lugar en el Desafío de Predicción Marginal y reduciendo significativamente la tasa de error en comparación con los modelos anteriores. Encontramos que nuestro modelo fue capaz de capturar la diversidad de posibles acciones futuras sin depender de puntos o trayectorias fijas.

Predicción de interacciones en movimientos conjuntos

Nuestro modelo ha logrado los mejores resultados en el Desafío de Predicción Interactiva, mostrando una mejora del seis por ciento en la precisión promedio del mapa y una mejora del tres por ciento en la tasa de error en comparación con la mejor entrada anterior. A diferencia del enfoque anterior, nuestro modelo no puntua pares de trayectorias marginales predefinidas, sino que Genera trayectorias conjuntas directamente.

Encontramos que nuestro modelo tiene la tasa de superposición de predicciones más baja, lo que sugiere que realiza predicciones consistentes con la escena. Probamos dos versiones de nuestro modelo en el conjunto de validación, una que no utiliza atención entre los agentes durante las simulaciones marginales y otra que sí lo hace en las simulaciones conjuntas. La versión conjunta tuvo un 38 por ciento menos de tasa de superposición que la versión marginal.

También estudiamos el impacto de la frecuencia de atención interactiva durante las simulaciones conjuntas y encontramos que el rendimiento mejoró a medida que los agentes Podían interactuar más frecuentemente. Además, descubrimos que aumentar el número de simulaciones mejora el rendimiento del modelo, ya que generamos suficientes muestras para representar con precisión la distribución de futuros multimodales.

En conclusión, la capacidad de nuestro modelo para generar simulaciones conjuntas directamente y utilizar atención interactiva le permite realizar predicciones más precisas y reducir la probabilidad de superposiciones no plausibles entre diferentes agentes. El número de simulaciones y el tipo de condicionamiento utilizado también tienen un impacto significativo en el rendimiento del modelo.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.