본문 바로가기
논문 리뷰/Super-Resolution

[VSR-DUF] Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation

by 귤이두번 2022. 2. 2.

논문 요약

 

1. Paper Bibliography

논문 제목

- Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation

 

저자

- Jo et al

 

출판 정보 / 학술대회 발표 정보

- Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

 

년도

- 2018

 


 

2. Problems & Motivations

논문에서 언급된 현 VSR 연구들에서의 문제점 정리 + 관련 연구

 

Deep learning based VSR

- 전통적인 VSR은 여러 LR frames를 inputs으로 가져와 LR frames 사이의 sub pixel motions를 가져와 HR을 만들었다

- 딥러닝 기반 VSR도 비슷한 과정을 따른다: two step - 1) Motion Estimation -> 2) Motion Compensation [16, 22, 1, 24, 34]

 

Two-step approach의 문제점

1) 결과가 'accurate motion estimation'에 의존을 많이함

2) HR output frame은 CNN을 통해 motion compensated된 여러 LR frames들을 합쳐 만드는데 이는 blurry하다

 

Exploit한 방법들

- BRCN[11]: 3가지 종류의 convolutions를 사용하여 bidirectional하게 연결. Feedforward (spatial dependency), Recurrent (long-term temporal dependency), Conditional (long-term contextual information)

- DECN[22]: non-iterative framework를 사용해서 SR drafts를 hand-design optical flow algorithms로 만들고 deep network으로 최종 결과 만듬

- VSRNet[16]: hand-design optical flow algorithms로 LR frames를 전처리하고 pretrain한 deep SR network로 결과 만듬

- VESPCN[1]: end-to-end framework 제시, spatial transformer를 통해 optical flow 계산, 다른 deep network로 HR frame 만듬

- Liu et al.[24]: 학습을 통해 MC를 하나 다양한 temporal radius의 motion information 사용

- Tao et al.[34]: Optical flow 구하는 방식은 VESPCN과 같으나 뒤에 SR 네트워크를 skip-connection이 있는 encoder-decoder style network를 사용

 

[16] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos. Video super-resolution with convolutional neural networks. IEEE Transactions on Computational Imaging, 2(2):109– 122, 2016

[22] R. Liao, X. Tao, R. Li, Z. Ma, and J. Jia. Video superresolution via deep draft-ensemble learning. In ICCV, pages 531–539, 2015

[1] J. Caballero, C. Ledig, A. Aitken, A. Acosta, J. Totz, Z. Wang, and W. Shi. Real-time video super-resolution with spatio-temporal networks and motion compensation. In 3231 CVPR, 2017.

[24] D. Liu, Z. Wang, Y. Fan, X. Liu, Z. Wang, S. Chang, and T. Huang. Robust video super-resolution with learned temporal dynamics. In ICCV, 2017.

[34] X. Tao, H. Gao, R. Liao, J. Wang, and J. Jia. Detail-revealing deep video super-resolution. In ICCV, 2017

[11] Y. Huang, W. Wang, and L. Wang. Bidirectional recurrent convolutional networks for multi-frame super-resolution. In NIPS, pages 235–243, 2015.

 


 

3. Proposed Solutions

논문에서 제안하는 해결책들 정리

 

1) Dynamic Upsampling Filters

- DFN[15]에서 영감받음

- LR frames의 spatio-temporal neighborhood에 의해서 locally and dynamically하게 만들어짐

1) input LR frames(논문에서는 7개)가 dynamic filter generation network에 들어감

2) 학습된 네트워크는 r^2HW upsampling filters Ft를 만듬 (논문에서 크기는 5 x 5)

3) 각 HR pixel 값은 input frame Xt의 LR pixel을 해 local filtering해서 만듬

 

- 위치 (3, 3)에 있는 픽셀 1개를 4배로 키우기 위해서는 16개의 필터가 필요하다. 4배 키웠을 경우 4x4그리드가 있을 때 가장 첫번째 오게 되는 픽셀의 위치는 (3x4, 3x4) = (12, 12)이다. 이때 4x4그리드의 기준 가장 첫번째(0번째) x, 가장 첫번째(0번째) y이므로 이 때 사용되는 필터는 Ft(3, 3, 0, 0)이라고 표현할 수 있다. 

 

- temporal information을 잘 활용하는지 확인하기

- 5(a) 두 영상은 같은 장면이지만 바가 이동하는 위치가(움직임) 다름. 같은 input patch에서는 1) activation map은 달라야 하지만 2) 결과로 나와야하는 HR frame은 같아야한다 (upsampling filter는 같아야한다)

- temporal consistency가 잘 유지되는지 확인 5(b)

 

2) Residual Learning

- Linear filtering으로 다 살리지 못한 고주파 디테일을 살리기 위해서 residual image를 estimate한다. 

- 여러 장의 input frames로 만든다

- Spatial sharpness와 temporal consistency를 얻을 수 있음

 

3) Network Design

- 효율성을 위해 filter and residual generation networks는 weights를 공유한다.  

- Dense block[10]에서 영감을 받았으며 원래 2D인 convolutional layers를 3D로 바꿨다

- 각 dense block은 batch normalization(BN), ReLU, 1x1x1 convolution, BN, ReLU, 3x3x3 covolution 순으로 구성되었다

- 학습을 위해서 Huber loss, Adam optimizer 사용

 

1) 각 input LR frame은 먼저 shared 2D convolutional layer로 처리되고 temporal axis를 따라서 concat된다

2) 1의 결과로 나온 spatio-temporal feature maps는 3D dense block으로 들어가 2D convolutional layers가 있는 각 브랜치에서 2개의 output을 낸다

3) 마지막 결과를 위해서 filtered output과 residual이 더해진다

 

4) Temporal Augmentation

- temporal axis에 적용가능한 data augmentation

- 변수 TA에 따라서  training data sequence에서 frame을 샘플링하는 빈도 결정

- |TA| > 3이면 성능 감소

 

[15] X. Jia, B. De Brabandere, T. Tuytelaars, and L. V. Gool. Dynamic filter networks. In NIPS, pages 667–675, 2016

[10] G. Huang, Z. Liu, L. van der Maaten, and K. Q. Weinberger. Densely connected convolutional networks. In CVPR, 2017.

 


 

4. 입력의 형태

- LR inputs를 얻기 위해 GT를 가우시안 필터로 smoothing하고 factor r만큼 subsampling

- input patch의 spatial resolution은 32 x 32

 


 

5. 시간적 정보 모델링 프레임워크

기본 프레임워크 (2D CNN, 3D CNN, RNN, etc)

- 2D + 3D CNN

 

구조에 기여한 바가 있다면?

- Implicit한 방법, 하나의 구조의 네트워크가 2가지 용도로 있고 서로 weights를 공유하다 결과만 다르게냄

 


 

6. 프레임 정렬 방식 

Implicit (암시적) or Explicit (명시적)

- implicit

 

추가 설명

- input frames가 2D CNN을 거친 후 temporal axis를 따라 concat

 


 

7. 업샘플링 방식 

- dynamic upsampling filters

- LR inputs로 얻은 filter를 사용해 upscale하고 residual을 더해서 디테일 살림

 


 

8. 그 외

모델 파라미터 개수

 

학습 데이터

Collected videoa from the Internet

- total of 351 videos

- various contents including wildlife, activity, and landscape / various texture and motions

- sample 160, 000 ground truth training data (144 x 144)

 

Val4

- for validation

- coastguard, foreman, garden, and husky from the Derf’s collection(Xiph.org :: Derf's Test Media Collection)

 

테스트 데이터

Vid4

 

 


논문 분석

 

1. 앞서 정리한 논문들에 대한 비평들 중 해당 논문에서 해결된 바가 있다면 정리

- 이전 방법들은 네트워크가 feature space에서 convolution을 해서 HR frames를 만들게함. VSR-DUF는 네트워크가 가장 좋은 upsampling filters를 만들어 주어진 LR frames에서 바로 HR frames를 만들 수 있게 함

- 이렇게 만들어진 결과는 sharp하면서 temporal consistency를 가진다

 

2. 해당 논문에 대한 비평(Critique)

1) normalize가 좋은가

2) 결국 sharp한 것은 residual을 더해서인 것 같다

3) 

 

 


Google Scholar Link

https://scholar.google.co.kr/scholarhl=ko&as_sdt=0%2C5&q=deep+video+super+resolution+network+using+dynamic+upsampling+filters&btnG= 

 

Google 학술 검색

Video super-resolution (VSR) has become even more important recently to provide high resolution (HR) contents for ultra high definition displays. While many deep learning based VSR methods have been proposed, most of them rely heavily on the accuracy of mo

scholar.google.co.kr

 

Github

https://github.com/yhjo09/VSR-DUF

 

GitHub - yhjo09/VSR-DUF

Contribute to yhjo09/VSR-DUF development by creating an account on GitHub.

github.com

 

댓글