MotionLM: 다중 에이전트 운동 예측을 언어 모델링으로 수행
Table of Contents (목차)
- 서론 (Introduction)
- Auto Regressive Language Models (자기 회귀 언어 모델)
- 2.1 Auto Regressive Trajectory Prediction (자기 회귀적 궤적 예측)
- 2.2 Continuous Domains에서의 이산 시퀀스 모델링
- 모델 소개 (Model Introduction)
- 3.1 모델 개요
- 3.2 Ego Agent Reference Frames (자아 에이전트 참조 프레임)
- 3.3 인과 연결과 시간적 연관성
- 3.4 롤아웃 집계 (Rollout Aggregation)
- Motion LM의 훈련 목표 (Training Objectives of Motion LM)
- 4.1 최대 가능도를 통한 훈련 목표
- 4.2 음영 에이전트 레퍼런스 프레임
- 4.3 인과적 장면 조작 (Temporally Causal Conditioning)
- 다중 에이전트 상호작용 예측 (Interactive Motion Prediction)
- 5.1 상호작용 예측 도전 과제
- 5.2 Motion LM의 성능 평가
- 5.3 상호작용 주의 모델링의 효과
- 5.4 롤아웃 수와 조건 설정의 중요성
- 결론 (Conclusion)
서론 (Introduction)
문장을 생성하는 현대 시퀀스 모델을 사용하는 것은 특정 도메인의 지식에 의존하지 않는 예측 방법입니다. 예를 들어, 자동 회귀 언어 모델은 이전 텍스트를 기반으로 다음 서브 단어를 예측하는 데 훈련됩니다. 이러한 방법은 음성 및 이미지 생성과 같은 연속적인 도메인에서도 성공적으로 적용되었습니다. 운전의 맥락에서는 도로 사용자를 상호작용하는 대화 참여자로 생각할 수 있습니다. 이들 참여자는 복잡한 상호작용 네트워크에서 서로의 행동을 예측하고 대응함으로써 도로를 이동합니다.
Auto Regressive Language Models (자기 회귀 언어 모델)
2.1 Auto Regressive Trajectory Prediction (자기 회귀적 궤적 예측)
자동 회귀적 궤적 예측은 장면 내의 여러 참여자(자동차 또는 보행자 등)의 미래 경로를 예측하는 데 사용되는 방법입니다. 이 방법은 규칙 모델이나 빔 탐색과 같은 복잡한 모델 및 기법에 의존하지 않습니다. 대신, 우리의 방법은 배운 분포에서 직접 샘플링하여 여러 개의 결합 궤적을 생성합니다.
2.2 Continuous Domains에서의 이산 시퀀스 모델링
연속 도메인에서 시퀀스를 생성할 때, 일반적인 접근법은 출력 공간을 이산 부분으로 분할하고 각 단계에서 범주 확률 분포를 예측하는 것입니다. 이러한 접근법은 이미지 생성과 음성 생성과 같은 여러 분야에서 사용되어 왔습니다. 우리의 경우, 우리는 연속 궤적을 이산 토큰의 시퀀스로 변환하여 각 시간 단계에서 분류 작업으로 샘플링 할 수 있습니다. 이 방식은 오디오 및 메쉬 생성과 같은 다른 연속적인 도메인에서 유효한 것으로 입증되었습니다.
모델 소개 (Model Introduction)
3.1 모델 개요
우리의 모델인 Motion LM은 다중 에이전트의 상호작용을 모델링하면서 여러 작업에 적용할 수 있는 성능을 가지고 있습니다. 이 작업에는 한정적, 결합 및 조건부 예측이 포함됩니다. Motion LM은 주어진 시간 이전의 모든 작업에 대한 인코딩을 수행하는 인코더와 다중 에이전트의 움직임 토큰 간 상호 및 자기 주의를 수행하는 궤적 디코더로 구성됩니다.
3.2 자아 에이전트 참조 프레임 (Ego Agent Reference Frames)
우리의 모델에서는 각 에이전트를 해당 에이전트의 관점에서 나타내어 그들을 중심 또는 자아 에이전트로 취급합니다. 이를 통해 각 에이전트와 관련된 장면 특징에 집중할 수 있습니다. 이 자아 에이전트를 함께 그룹화함으로써 훈련 및 추론 중에 동시에 처리할 수 있어 프로세스를 가속화할 수 있습니다.
3.3 인과 연결과 시간적 연관성
우리의 모델에서는 에이전트의 행동 시퀀스가未래 토큰에 영향을 받지 않고 과거 토큰에만 영향을 받도록 인과 연결을 보장하기 위해 마스크를 사용합니다. 이 마스크는 모델이 과거 행동에 기반하여 표현을 업데이트할 수 있도록 만들어 줍니다. 때문에 실제로 발생되지 않은 요소에 의한 효과로 발생하는 오류나 잘못된 예측을 방지할 수 있습니다.
3.4 롤아웃 집계 (Rollout Aggregation)
우리는 모델의 일정한 시간 간격으로 상호작용하는 모든 에이전트에 대해 다중 모드를 나타낼 수 있도록 결과를 대표하는 것을 목표로 합니다. 각 모드에는 확률이 할당되며 가능한 결과를 나타냅니다. 이러한 결과를 그룹화하고 확률을 추정하기 위해 비최대 억제 기법 및 모델 앙상블링을 사용합니다. 이를 통해 우리의 예측의 품질을 향상시킬 수 있습니다.
모델 훈련 목표 (Training Objectives of Motion LM)
4.1 최대 가능도를 통한 훈련 목표
Motion LM의 훈련 목표는 관찰된 에이전트 행동의 결합 분포와 일치시키기 위해 최대 우도를 갖는 생성 모델을 훈련시키는 것입니다. 이 모델은 인코더로 초기 장면 요소를 처리하고 궤적 디코더로 장면 인코딩에 대한 교차 주의와 에이전트 움직임 토큰에 대한 자기 주의를 수행합니다.
4.2 음영 에이전트 레퍼런스 (Shaded Agent Reference Frames)
의식적인 교사 강제도 사용하여 모델이 각 단계에서 정확한 이전 행동을 제공받도록 합니다. 이 접근법은 훈련 과정을 안정적으로 만들고 훈련 과정에서 샘플링이 필요하지 않게 합니다. 우리의 훈련 과정에서는 각 에이전트가 현재 시간 단계까지 다른 에이전트의 올바른 행동 순서에 노출되도록 합니다. 이는 현대의 어텐션 기반 구조를 사용할 때 병렬 처리를 가능하게 합니다.
4.3 인과적 장면 조작 (Temporally Causal Conditioning)
우리의 모델은 인과적 시간적 연관성을 보장하는 자기 회귀적 인과 분해 방식을 사용합니다. 이 방식은 각 에이전트의 토큰 샘플링이 과거 토큰에만 영향을 받도록 합니다. 이를 통해 인과적 개입을 근사화함으로써 인과 관계 없는 요인이 존재하는 경우에도 에이전트의 행동에 영향을 미치는 것처럼 예측을 할 수 있습니다.
다중 에이전트 상호작용 예측 (Interactive Motion Prediction)
5.1 상호작용 예측 도전 과제
Motion LM 모델은 Waymo OpenMotion 데이터 세트에서 수행된 인터랙티브 예측 도전 과제에서 최고의 결과를 달성했습니다. 이 모델은 이전 최상위 점수 항목과 비교하여 평균 초과율(map)에서 6%의 향상과 Miss rate에서 3%의 향상을 보였습니다.
5.2 Motion LM의 성능 평가
우리는 검증 세트에서 두 가지 버전의 모델을 테스트했습니다. 하나는 롤아웃 과정 중 상호작용 주의를 사용하지 않은 마진 버전이었고 다른 하나는 상호작용 주의를 사용한 Joint 버전입니다. 상호작용 주의 빈도가 2 Hertz인 Joint 버전이 마진 버전보다 38% 낮은 중복 비율을 가진 것으로 나타났습니다. 이는 상호작용 주의가 에이전트들이 더 효과적으로 서로 반응하도록 도와주는 것을 의미합니다.
5.3 상호작용 주의 모델링의 효과
상호작용 주의 빈도가 높을수록 모델의 성능이 일반적으로 향상되었습니다. 더 높은 상호작용 주의 빈도는 정확도 뿐만 아니라 다른 에이전트 간의 충돌이나 겹침이 발생할 가능성을 줄이는 데에도 도움이 되었습니다.
5.4 롤아웃 수와 조건 설정의 중요성
모델에서 생성하는 롤아웃 수는 중요합니다. 이는 다중 모달 미래 분포를 정확하게 나타내기 위해 충분한 샘플을 생성해야 함을 의미합니다. 더 많은 롤아웃을 사용할수록 성능이 향상되었습니다. 최종 결과에는 512개의 롤아웃을 사용했지만, 32개의 롤아웃으로도 과거의 최고 점수 항목을 초과하는 성능을 보였습니다. 또한 모델 앙상블링을 사용하여 예측의 품질을 향상시켰습니다.
결론 (Conclusion)
우리의 모델인 Motion LM은 상호작용 예측 도전 과제에서 최고의 결과를 달성하였습니다. 결과적으로, 우리의 모델은 직접적으로 결합 궤적을 생성하고 상호작용 주의를 사용하여 더 정확한 예측을 할 수 있으며, 다른 에이전트 간의 잘못된 겹침 가능성을 줄일 수 있습니다. 롤아웃 수와 조건 설정은 모델의 성능에 중요한 영향을 미칩니다. 또한 인과적 교육은 예측의 품질을 더욱 향상시킵니다.
FAQ (자주 묻는 질문)
-
Motion LM은 어떤 종류의 데이터에 적용할 수 있나요?
Motion LM은 여러 도메인의 다양한 예측 작업에 적용할 수 있습니다. 주요 작업에는 운전 시 에이전트 행동 예측, 이상 탐지 및 추세 예측이 포함됩니다.
-
우리의 모델은 다른 모델과 비교하여 어떤 장점을 가지고 있나요?
우리의 모델은 다른 모델과 비교하여 높은 정확도와 효율성을 가지고 있습니다. 또한 중복 비율이 낮으며, 다중 모달 예측에 필요한 충분한 샘플을 생성할 수 있습니다.
-
우리의 모델을 훈련하기 위해 어떤 데이터를 사용했나요?
우리는 Waymo OpenMotion 데이터 세트를 사용하여 모델을 훈련시켰습니다. 이 데이터 세트에는 실제 운전 시나리오의 다양한 특성이 포함되어 있습니다.
-
모델의 성능을 향상시키기 위해 어떤 방법을 사용했나요?
우리는 비최대 억제와 모델 앙상블링을 사용하여 모델의 성능을 개선했습니다. 이러한 방법은 다양한 모드를 추정하고 예측의 품질을 향상시키는 데 도움이 됩니다.
하이라이트 (Highlights)
- Motion LM은 다중 에이전트의 상호작용을 예측하기 위한 새로운 접근 방법으로 나타났습니다.
- 우리의 모델은 음영 에이전트 참조 프레임을 사용하여 주변 환경과의 상호작용을 모델링합니다.
- 인과적 장면 조작을 통해 우리의 모델은 미래 에이전트 행동의 인과적 예측을 수행합니다.
- 롤아웃 집계 기술을 사용하여 우리의 모델은 미래 에이전트 상호작용 분포를 대표하는 몇 가지 주요 모드를 유추합니다.
- 우리의 모델은 Waymo OpenMotion 데이터 세트 상호작용 예측 도전 과제에서 우수한 성능을 발휘하였습니다.