논문 요약
본 논문은 오픈소스 3D 애니메이션 단편영화인 'Sintel'을 통해 제작한 optical flow dataset을 소개한다. 이 데이터는 긴 시퀀스로 이루어져 있으며 큰 움직임, 반사, 모션 블러, 초점 블러, 대기 효과 등을 포함했다는 특징을 지닌다. 저자는 이 합성 데이터를 평가하기 위해 이미지와 flow 통계를 실제 세계 데이터와 비교하여 이들이 유사함을 보여준다.
1. Paper Bibliography
논문 제목
- A naturalistic open source movie for optical flow evaluation.
저자
- Butler, Daniel J., et al.et al.
출판 정보 / 학술대회 발표 정보
- ECCV 2012
2. Problems & Motivations
많은 영역들(stereo, 3D reconstruction, segmentation, and object recognition)에서 ground truth 데이터는 특별한 센서나 직접 라벨링하는 방식 등을 통해 만들 수 있다. 하지만 scene motion을 바로 측정할 수 있는 센서나 라벨링법이 없기 때문에 optical flow 데이터를 만드는 것은 쉽지 않다. 그렇기 때문에 이전의 데이터셋은 여러 한계점을 가지고 있었다.
Previous Data Sets
Synthetic
[9] Barron, J., Fleet, D., Beauchemin, S.: Performance of optical flow techniques. IJCV 12, 43–77 (1994)
[10] McCane, B., Novins, K., Crannitch, D., Galvin, B.: On benchmarking optical flow. CVIU 84, 126–143 (2001)
[1] Baker, S., Scharstein, D., Lewis, J., Roth, S., Black, M., Szeliski, R.: A database and evaluation methodology for optical flow. IJCV 92, 1–31 (2011)
Real images
[11] Otte, M., Nagel, H.-H.: Optical Flow Estimation: Advances and Comparisons. In: Eklundh, J.-O. (ed.) ECCV 1994. LNCS, vol. 800, pp. 51–60. Springer, Heidelberg (1994)
[12] Liu, C., Freeman, W., Adelson, E., Weiss, Y.: Human-assisted motion annotation. In: CVPR, pp. 1–8 (2008)
Between synthetic and real
[5] Roth, S., Black, M.: On the spatial statistics of optical flow. IJCV 74, 33–50 (2007)
[13] Geiger, A., Lenz, P., Urtasun, R.: Are we ready for autonomous driving? The KITTI vision benchmark suite. In: CVPR, pp. 3354–3361 (2012) <--- 현재도 쓰이는 KITTI dataset
[14] Meister, S., Jaehne, B., Kondermann, D.: An outdoor stereo camera system for the generation of real-world benchmark datasets. Opt. Eng. 51, 021107 (2012)
공정한 비교를 할 수 있게 하고 다양한 이슈(큰 움직임, 블러 등)를 다룰 수 있는 새로운 데이터셋이 필요하다
3. Method
Sintel은 짧은 애니메이션이며 Blender을 통해 만들어진 오픈소스이다. Sintel의 그래픽 요소, 모션 및 카메라 매개 변수를 고려하면 모든 픽셀이 한 프레임에서 다음 프레임으로 어떻게 이동하는지 계산할 수 있다. 이 때 blender의 내부 모션 블러 파이프라인을 수정하여 각 픽셀마다 정확한 모션 블러 벡터를 제공하도록 하였다. 이 벡터들이 ground truth optical flow maps가 된다.
이때 sintel 영상을 optical flow estimation에 적합하게 변경하여 (예를 들어 원본 영상은 머리카락을 파티클 시스템으로 만들어 투명하게 보이게 했다면 이를 불투명하게 변경함) 렌더링한 후 데이터셋을 제작하였다.
Clips: Training and Testing
- 한 클립당 50 frames로 구성되어 있으며 (6개의 액션 시퀀스 제외) 49개의 flow fields가 있다.
- Clips: 23 training / 12 test
- Frames: 1064 training / 564 test
- 각 이미지는 8-bit PNG, 24 fps
Perturbed Sequences
- Sintel은 오픈된 소스이기 때문에 이를 이용해 부정을 저지를 수 있다. 공정한 평가를 하기 위해 시퀀스를 일부 변경하여 렌더링하는 방법을 사용하였다. 이렇게하면 시각적으로는 원본 데이터와 비슷하지만 공개되지 않은 flow가 있는 시퀀스가 생성된다. 만약 flow가 변경되지 않은 원본 영상에서는 좋은 성능을 보이나 변경을 한 시퀀스에서는 현저히 나쁜 성능을 보인다면 그 알고리즘은 사기일 가능성이 높다.
- test set의 geometry와 camera motion에 -0.1~0.1사이의 랜덤 offset을 적용해 변경, 결과적으로 변경한 장면은 모션이 더 커진다.
Render Passes
- Blender에서 Sintel 프레임을 생성할 때 "passes"라는 일련의 단계를 거친다. 이 단계는 이미지 형성의 다양한 측면을 시뮬레이션하는데 사용된다. 초기 렌더링이 끝난 후 다양한 이펙트를 추가할 수 있으며 본 데이터셋에서 사용한 render pass는 다음과 같다
- Albedo: 일관된 색을 가지며 조명효과가 없다. Occlusion 영역을 제외하면 모든 곳에서 밝기 일관성을 유지한다.
- Clean: 다양한 조명이 추가되었다. 부드러운 쉐이딩, 그림자 효과, 반사 효과 등을 추가했다.
- Final: 영화로서 출시된 렌더링 상태와 가장 유사하다. 대기 효과, 피사체 흐림, 움직임 흐림, 색 보정 등을 추가했다.
Ground Truth Motion Boundaries
- 그래픽 요소에서 물체 경계와 재료 경계를 고려해서 생성.
Unmatched Pixels
- 이미지 쌍 중 한 이미지에는 있지만 다른 이미지에는 없는 픽셀에 대한 마스크를 계산했다.
4. Statistics of Sintel and Natural Movies
그래픽 데이터가 실제 세계의 데이터를 대표할 수 있을까?라는 물음이 들 수 있다. Sintel이 충분히 대표할 수 있음을 보여주기 위해 저자들은 Sintel의 장면과 유사한 의미적 콘텐츠를 가진 다른 영화 클립들로 구성된 "Lookalikes" 데이터 세트를 구성해 분석하였다. (Bamboo, cave, indoor, outdoor, mountain, snowfight로 분류)
Image statistics
- luminance: 이미지 그레이 스케일로 변경, 비교군인 Sintel, Lookalike, Middlebury 모두 비슷하다
- spatial power spectra: 각 프레임의 중앙에 있는 436x436 픽셀 패치의 2D FFT로 추정
- spatial, temporal derivatives: 일차 미분 사용
--> Sintel 데이터셋과 Natural scenes가 비슷하다
Flow statistics
- Natural scenes에는 ground truth flow가 없으므로 계산된 flow의 통계를 비교
Google Scholar Link
GitHub
http://sintel.is.tue.mpg.de/downloads
댓글