논문 요약
1. Paper Bibliography
논문 제목
- Frame-Recurrent Video Super-Resolution
저자
- Sajjadi et al.
출판 정보 / 학술대회 발표 정보
- Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
년도
- 2018
2. Problems & Motivations
논문에서 언급된 현 VSR 연구들에서의 문제점 정리 + 관련 연구
1) The latest state-of-the-art video super-resolution methods approach the problem by combining a batch of LR frames to estimate a single HR frame
- 당시 VSR은 여러 LR frames를 결합해 하나의 HR frame을 만드는 방법을 사용했으며 이는 어떻게 보면 MISR을 많이 한 것과 같다
- 각 input frame이 여러번 처리되어야 하기 때문에 컴퓨팅 비용이 비싸다.
- Kappeler et al[20]은 t-1, t+1 frame을 optical flow를 Drulea and Nedevschi[8]의 방법으로 구해 t frame에 warp한 후 concat하여 CNN에 넣어 output frame을 만들었다
- Caballero et al[3]은 Kappeler의 방법을 따라했으나 학습가능한 모델을 통해 optical flow를 구했다
[20] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos. Video super-resolution with convolutional neural networks. In IEEE Transactions on Computational Imaging, 2016.
[8] M. Drulea and S. Nedevschi. Total variation regularization of local-global optical flow. In ITSC, 2011.
[3] J. Caballero, C. Ledig, A. Aitken, A. Acosta, and Totz. Realtime video super-resolution with spatio-temporal networks and motion compensation. In CVPR, 2017.
2) Generating each output frame separately reduces the system’s ability to produce temporally consistent frames
- 각각의 output frame을 만드는 것은 temporal consistency를 떨어뜨리고 flickering artifacts를 발생시킬 수 있다
3) End-to-end trainable하더라도 전체 시스템을 fine-tuning하기 전에 각 요소를 pre-train해야하는 경우가 있었다
3. Proposed Solutions
논문에서 제안하는 해결책들 정리
1) FRVSR Framework
- Trainable components (Red color): optical flow estimation FNet, super-resolution SRNet
1) Flow estimation
- t-1 LR input과 t LR input 사이의 normalized된 LR flow map을 만든다
2) Upscaling flow
- LR flow map을 이미지로 취급하면서, bilinear interpolation을 사용해 scaling factor s 만큼 upscale해서 HR flow-map을 만든다
3) Warping previous output
- 이전에 estimate한 t-1 est input과(크기 HR) 2의 결과를 warp한다
4) Mapping to LR space
- 3의 결과를 space-to-depth transformation을 이용해 LR 크기로 만든다. HR을 만드는 픽셀들을 추출하여 차원축으로 옮김.
5) Super-resolution
- 4의 결과를 current LR input frame과 channel dimension에서 warp하고 이를 SRNet으로 보낸다.
2) Loss functions
- SR Loss: SRNet의 output과 HR 사이의 MSE. SRNet, FNet 모두에 역전파된다
- Flow Loss: Optical flow GT가 없기 때문에 warped LR input frames와 current input LR frame사이의 spatial mean squared error를 계산한다. Auxiliary loss로 사용
- Total Loss:
3) Implementation
- FNet: encoder decoder style CNN
- SRNet: residual architecture CNN
- 모델은 full RGB videos frames를 estimate하므로 post-processing이 필요 없다
- first frame을 estimate하기 위해 previous estimate를 black image로 초기화했다. 이렇게 하면 네트워크가 첫번째 LR input을 추가 정보 없이 upsample한다. 이는 네트워크가 훈련 초기에 단일 이미지를 독립적으로 업샘플링하는 방법을 배우게하는 추가적인 이점이 있다.
- FRVSR 아키텍처는 end-to-end trainable하고 component-wise pre-training이 필요없다
4. 입력의 형태
- 비디오에서 10 consecutive frames를 추출. (너무 씬 변화는 없게)
5. 시간적 정보 모델링 프레임워크
기본 프레임워크 (2D CNN, 3D CNN, RNN, etc)
- RNN
구조에 기여한 바가 있다면?
- 이전 frame의 estimated output을 다시 사용한다는 점에서 recurrent하다
6. 프레임 정렬 방식
Implicit (암시적) or Explicit (명시적)
- explicit
추가 설명
- previous LR frame과 current LR frame사이의 LR flow map과 previouslt estimated image를 warp한 후 크기를 맞추고 current LR input frame과 concat한다
7. 업샘플링 방식
- pixel-shuffle
8. 그 외
모델 파라미터 개수
-
학습 데이터
40 high-resolution videos (720p, 1080p, 4K) from vimeo.com
- factor of 2로 downsample한 후 256x256 패치를 추출해서 HR videos 생성
- LR video 생성시 HR frames에 Gaussian blur(1.5)를 적용한 후 s=4일 경우 4-th pixelf를 샘플링하여 downscale. 1.5는 실험으로 정한 수치
테스트 데이터
YT10
- 3-5s 1080p video clips from Youtube
Vid4
- standard benchmark
논문 분석
1. 앞서 정리한 논문들에 대한 비평들 중 해당 논문에서 해결된 바가 있다면 정리
- Sliding window방법을 사용하지 않고 각 프레임을 한번씩만 처리하기 때문에 computational cost를 줄일 수 있다
- 이전 output에 바로 접근하기 때문에 temporally consistent하다
- Recurrent architecture이기 때문에 많은 수의 LR frames를 처리할 수 있다
- 모든 연산은 LR space에서 이루어지기 때문에 (HR estimate를 space-to-depth transformation을 통해서 LR space에 매핑) 연산 비용이 줄고 receptive field가 증가했다
2. 해당 논문에 대한 비평(Critique)
1) Fig 7의 실험이 잘 이해가지 않는다. 0으로 초기화된 이미지를 쓰는 것이 이점이 있다고 했으면서 왜 HR이미지를 주는지..?
2) bilinear upsampling하고 이런 과정에서의 오류
Google Scholar Link
댓글