대외활동

The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction 논문 리뷰

여니여니_ 2020. 5. 2. 14:59

 

이 연구는 Carnegie Mellon UniversityGoogle Research 팀에서 진행된 연구이다. 

 

 

논문의 핵심 주제는 Multi-Future Trajectory Prediction(다중 경로 예측)이다.

 

 

논문의 제목 The Garden of Forking Paths 은 추측해보건데 아르헨티나의 소설가 호르헤 루이스 보르헤스의 책 이름에서 가져온 듯 하다. 책의 요약 내용을 보면 "사람은 순간순간 다른 결정을 할 수 있고, 그로 인해 여러 결과를 도출할 수 있다”가 주제가 되는 듯 하다. 즉, 여기서는 상황에 따라 선택한 경로가 또다시 여러 경로를 도출하게 된다는 의미로 해석 가능할 것 같다. 

 

이전의 경로예측의 논물을 살펴보면 Social-LSTM, Next 모델들은 단일 경로를 예측하는 모델이다.

Social-GAN은 Multiverse와 같이 다중 경로를 예측하는 모델이다.

 

Problem Description

 

 

단일 경로 예측의 문제점을 제기하며 논문이 시작된다. 이 사진에서처럼 사진 속의 남성은 앞으로 쭉 걸어갈 수도 있지만, 차 사이사이를 지나갈 수도 있다. 정답이 한 가지만 있는 것은 아니라는 것이다. 

 

Multi-Future Trajectory Prediction 

 

다중경로 예측이란, 사람이 이동할 때에 여러 방향으로 이동할 가능성이 있는데 이런 가능성을 염두에 두고 다양한 경로를 예측하는 것을 말한다. 다중경로예측은 자율주행과 같은 분야에서 활발한 연구가 이루어지고 있다. 

위 그림에서 빨간색 박스쳐진 에이전트를 관찰해보면 사람들을 피하여 여러 갈래의 길로 이동한다. 이렇게 에이전트의 여러가지 경로를 예측하는 것이 이 연구의 목적이다. 

 

Dataset - Forking Paths

그렇다면 사람의 이동을 담은 동영상을 가지고 어떻게 라벨링을 해야할까?

 

이 논문의 Contribution 중 하나가 Forking Path라는 Dataset을 구축했다는 것이다. 

데이터셋 구축을 위해서 CARLA 시뮬레이터를 활용했고, 사람이 직접 경로 annotation 작업을 진행했다.

Reconstructing reality in simulator, CARLA Simulator

 

실제 환경을 바탕으로 CARLA 시뮬레이터에 나타냈다. CARLA는 실제에 가까운 오픈소스 시뮬레이터로 Unreal Engine4 위에 구축되었다. 앞선 데이터셋에 따라, ETH/UCY and VIRAT/ActEV으로 된 실제 동영상을 활용하여 반자동적으로 정적 장면과 동적 요소들을 반자동적으로 재건축 가능하다. 이동수단과 보행자의 역동감 있는 움직임을 위해서, 우선적으로 정답 경로 주석을 실세계의 비디오(제공된 homography matrices 사용)에서  ground plane으로 변환했다. 그럼으로써 우리는 실제 경로를 재구성한 장면들의 올바른 위치로 매칭시킬 수 있다. 

 

Human generation of plausible futures (Labeled by human annotators)

  • Generating the data  생성한 데이터의 구성 방법
    • 750 human-generated trajectories
    • four camera views(three 45-degree, top-down view)
    • Each Camera view has 127 scenarios (127 agents)
    • collect ground truth for semantic segmentation from 13 classes 

 

(여기부터 수정중.. 수식 입력의 어려움..)

Model - Multiverse

 

 

History Encoder 

    • history 기록을 Grid에 표현
    • Grid의 각 cell에 인덱싱( from 1 to H*W)
    • frame을 semantic segmentation 하여 HxWxK tensor로 표현   (K는 semantic segmentation 할 때의 class 개수)

 

Coarse Location Decoder

앞서 구한 context H로 

coarse distribution over grid location Ct 표현

GAT(graph attention network)






 

  • Fine Location Decoder

    to compute  an offset vector for each possible grid cell 

Evaluation Metrics

    • ADE: 모든 시간동안 정답 좌표와 예측 좌표의 유클리드 거리의 평균


    • FDE: 마지막 도달 위치에서 정답 좌표와 예측 좌표의 유클리드 거리

 

Comparision

 

 

Social LSTM Next Social GAN Ours(Multiverse)

 

Single-Trajectory Prediction Multi Trajectory Prediction
scene semantics scene semantics - scene semantics