논문 요약
1. Paper Bibliography
논문 제목
- Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation
저자
- Jo et al
출판 정보 / 학술대회 발표 정보
- Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
년도
- 2018
2. Problems & Motivations
논문에서 언급된 현 VSR 연구들에서의 문제점 정리 + 관련 연구
Deep learning based VSR
- 전통적인 VSR은 여러 LR frames를 inputs으로 가져와 LR frames 사이의 sub pixel motions를 가져와 HR을 만들었다
- 딥러닝 기반 VSR도 비슷한 과정을 따른다: two step - 1) Motion Estimation -> 2) Motion Compensation [16, 22, 1, 24, 34]
Two-step approach의 문제점
1) 결과가 'accurate motion estimation'에 의존을 많이함
2) HR output frame은 CNN을 통해 motion compensated된 여러 LR frames들을 합쳐 만드는데 이는 blurry하다
Exploit한 방법들
- BRCN[11]: 3가지 종류의 convolutions를 사용하여 bidirectional하게 연결. Feedforward (spatial dependency), Recurrent (long-term temporal dependency), Conditional (long-term contextual information)
- DECN[22]: non-iterative framework를 사용해서 SR drafts를 hand-design optical flow algorithms로 만들고 deep network으로 최종 결과 만듬
- VSRNet[16]: hand-design optical flow algorithms로 LR frames를 전처리하고 pretrain한 deep SR network로 결과 만듬
- VESPCN[1]: end-to-end framework 제시, spatial transformer를 통해 optical flow 계산, 다른 deep network로 HR frame 만듬
- Liu et al.[24]: 학습을 통해 MC를 하나 다양한 temporal radius의 motion information 사용
- Tao et al.[34]: Optical flow 구하는 방식은 VESPCN과 같으나 뒤에 SR 네트워크를 skip-connection이 있는 encoder-decoder style network를 사용
[16] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos. Video super-resolution with convolutional neural networks. IEEE Transactions on Computational Imaging, 2(2):109– 122, 2016
[22] R. Liao, X. Tao, R. Li, Z. Ma, and J. Jia. Video superresolution via deep draft-ensemble learning. In ICCV, pages 531–539, 2015
[1] J. Caballero, C. Ledig, A. Aitken, A. Acosta, J. Totz, Z. Wang, and W. Shi. Real-time video super-resolution with spatio-temporal networks and motion compensation. In 3231 CVPR, 2017.
[24] D. Liu, Z. Wang, Y. Fan, X. Liu, Z. Wang, S. Chang, and T. Huang. Robust video super-resolution with learned temporal dynamics. In ICCV, 2017.
[34] X. Tao, H. Gao, R. Liao, J. Wang, and J. Jia. Detail-revealing deep video super-resolution. In ICCV, 2017
[11] Y. Huang, W. Wang, and L. Wang. Bidirectional recurrent convolutional networks for multi-frame super-resolution. In NIPS, pages 235–243, 2015.
3. Proposed Solutions
논문에서 제안하는 해결책들 정리
1) Dynamic Upsampling Filters
- DFN[15]에서 영감받음
- LR frames의 spatio-temporal neighborhood에 의해서 locally and dynamically하게 만들어짐
1) input LR frames(논문에서는 7개)가 dynamic filter generation network에 들어감
2) 학습된 네트워크는 r^2HW upsampling filters Ft를 만듬 (논문에서 크기는 5 x 5)
3) 각 HR pixel 값은 input frame Xt의 LR pixel을 해 local filtering해서 만듬
- 위치 (3, 3)에 있는 픽셀 1개를 4배로 키우기 위해서는 16개의 필터가 필요하다. 4배 키웠을 경우 4x4그리드가 있을 때 가장 첫번째 오게 되는 픽셀의 위치는 (3x4, 3x4) = (12, 12)이다. 이때 4x4그리드의 기준 가장 첫번째(0번째) x, 가장 첫번째(0번째) y이므로 이 때 사용되는 필터는 Ft(3, 3, 0, 0)이라고 표현할 수 있다.
- temporal information을 잘 활용하는지 확인하기
- 5(a) 두 영상은 같은 장면이지만 바가 이동하는 위치가(움직임) 다름. 같은 input patch에서는 1) activation map은 달라야 하지만 2) 결과로 나와야하는 HR frame은 같아야한다 (upsampling filter는 같아야한다)
- temporal consistency가 잘 유지되는지 확인 5(b)
2) Residual Learning
- Linear filtering으로 다 살리지 못한 고주파 디테일을 살리기 위해서 residual image를 estimate한다.
- 여러 장의 input frames로 만든다
- Spatial sharpness와 temporal consistency를 얻을 수 있음
3) Network Design
- 효율성을 위해 filter and residual generation networks는 weights를 공유한다.
- Dense block[10]에서 영감을 받았으며 원래 2D인 convolutional layers를 3D로 바꿨다
- 각 dense block은 batch normalization(BN), ReLU, 1x1x1 convolution, BN, ReLU, 3x3x3 covolution 순으로 구성되었다
- 학습을 위해서 Huber loss, Adam optimizer 사용
1) 각 input LR frame은 먼저 shared 2D convolutional layer로 처리되고 temporal axis를 따라서 concat된다
2) 1의 결과로 나온 spatio-temporal feature maps는 3D dense block으로 들어가 2D convolutional layers가 있는 각 브랜치에서 2개의 output을 낸다
3) 마지막 결과를 위해서 filtered output과 residual이 더해진다
4) Temporal Augmentation
- temporal axis에 적용가능한 data augmentation
- 변수 TA에 따라서 training data sequence에서 frame을 샘플링하는 빈도 결정
- |TA| > 3이면 성능 감소
[15] X. Jia, B. De Brabandere, T. Tuytelaars, and L. V. Gool. Dynamic filter networks. In NIPS, pages 667–675, 2016
[10] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger. Densely connected convolutional networks. In CVPR, 2017.
4. 입력의 형태
- LR inputs를 얻기 위해 GT를 가우시안 필터로 smoothing하고 factor r만큼 subsampling
- input patch의 spatial resolution은 32 x 32
5. 시간적 정보 모델링 프레임워크
기본 프레임워크 (2D CNN, 3D CNN, RNN, etc)
- 2D + 3D CNN
구조에 기여한 바가 있다면?
- Implicit한 방법, 하나의 구조의 네트워크가 2가지 용도로 있고 서로 weights를 공유하다 결과만 다르게냄
6. 프레임 정렬 방식
Implicit (암시적) or Explicit (명시적)
- implicit
추가 설명
- input frames가 2D CNN을 거친 후 temporal axis를 따라 concat
7. 업샘플링 방식
- dynamic upsampling filters
- LR inputs로 얻은 filter를 사용해 upscale하고 residual을 더해서 디테일 살림
8. 그 외
모델 파라미터 개수
-
학습 데이터
Collected videoa from the Internet
- total of 351 videos
- various contents including wildlife, activity, and landscape / various texture and motions
- sample 160, 000 ground truth training data (144 x 144)
Val4
- for validation
- coastguard, foreman, garden, and husky from the Derf’s collection(Xiph.org :: Derf's Test Media Collection)
테스트 데이터
Vid4
논문 분석
1. 앞서 정리한 논문들에 대한 비평들 중 해당 논문에서 해결된 바가 있다면 정리
- 이전 방법들은 네트워크가 feature space에서 convolution을 해서 HR frames를 만들게함. VSR-DUF는 네트워크가 가장 좋은 upsampling filters를 만들어 주어진 LR frames에서 바로 HR frames를 만들 수 있게 함
- 이렇게 만들어진 결과는 sharp하면서 temporal consistency를 가진다
2. 해당 논문에 대한 비평(Critique)
1) normalize가 좋은가
2) 결국 sharp한 것은 residual을 더해서인 것 같다
3)
Google Scholar Link
Github
https://github.com/yhjo09/VSR-DUF
댓글