본문 바로가기
논문 리뷰/Super-Resolution

[TDAN] Tdan: Temporally-deformable alignment network for video super-resolution

by 귤이두번 2022. 9. 14.

논문 요약

 이전의 VSR methods는 보통 reference frame과 supporting frame사이의 optical flow를 구한 후 이를 사용해 supporting frame을 warp하여 temporal alignment를 한다. 하지만 부정확한 flow와 iamge-level warping은 warped supporting frames에서 부적절한 artifacts를 유발한다. 이를 해결하기 위한 temporal-deformable alignment network (TDAN)은 optical flow를 사용하지 않고 reference frame과 supporting frame을 feature level에서 적응형으로 align한다. 이는 refrence frame과 supporting frame의 features를 통해 예측한 offsets으로 다양한 커널을 만들어 할 수 있다.

 

1. Paper Bibliography

논문 제목

- Tdan: Temporally-deformable alignment network for video super-resolution

 

저자

- Tian et al.

 

출판 정보 / 학술대회 발표 정보

- Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

 

 


 

2. Problems & Motivations

 각 LR reference frame과 각 supporting frame은 카메라나 물체의 움직임 때문에 align되지 않을 수 있다. 그렇기 때문에 VSR에서는 reference와 supporting frame을 align하는 것이 필요하다. 이전의 방법은 대부분 optical flow를 구한 후 image-level warping을 하는 방식으로 진행되었는데 flow 계산에서 발생한 에러는 이미지 구조에서 아티팩트를 발생시킨다. 

 

Deformable Convolution

Deformable convolutional network는 Dai et al.[1]이 처음으로 제안하였다. 보통 CNN은 kernel의 위치가 고정되어 있기 때문에 geometric transformation modeling에 한계점이 있다. Deformable convolution은 이 한계점을 넘을 수 있다. 그림은 feature alignment를 위한 deformable convolution을 표현한 그림이다. Target feature maps는 neighboring feature maps와 concat되고 projected되어 추가의 convolutional layers를 통해 offsets를 얻는데 사용된다. 얻은 offsets는 원래의 convolution kernel에 적용되어 deformable convolution kernel이 되어 input feature에 적용되어 output feature를 만드는데 사용된다. 

 

[1]: Dai, Jifeng, et al. "Deformable convolutional networks." Proceedings of the IEEE international conference on computer vision. 2017.

 

참고

https://deep-learning-study.tistory.com/575

 

3. Method

3.1 Overview

 TDAN은 2N+1개의 연속된 LR frames를 input으로 받아 하나의 HR frame을 만든다. Fig 2.를 보면 전체 네트워크는 두개의 메인 sub-networks로 구성되어 있는 것을 알 수 있는데 1. temporally-deformable alignment network는 supporting frame을 reference frame과 align하고 2. super-resolution reconstruction network는 HR frame을 predict한다

 

3.2 Temporally-Deformable Alignment Network

 TDAN은 크게 세 모듈로 구성되어 있다

1. feature extraction

- 이 모듈은 visual features ($F^{LR}_i$, $F^{LR}_t$)를 reference image와 support image로부터 visual features를 추출한다. 네트워크는 한개의 conv layer와 $k_1$개의 residual blocks, ReLU로 구성되어 있다. 구현에서는 EDSR구조를 따라 만들었으며 추출된 features는 feature-wise temporal alignment에 사용된다.

 

2. deformable alignment

 Deformable alignment 모듈은 features $F^{LR}_i$와 $F^{LR}_t$를 inputs으로 받아 sampling parameters $\Theta$를 예측한다. $\Theta$는 convolution kernels의 offsets를 나타낸다. 

$$\Theta = f_{ \theta }(F^{LR}_i, F^{LR}_t)$$

$\Theta$와 $F^{LR}_i$를 통해 aligned된 feature supporting frame $F^{LR'}_i$는 deformable convolution을 통해 얻을 수 있다. 

$$F^{LR'}_i = f_{dc}(F^{LR}_i,  \Theta)$$

deformable alignment module은 여러개의 regular, deformable convolutional layers로 구성되어 있는데 sampling parameter generation funciton $f_{ \theta }$의 경우 $F^{LR}_i$와 $F^{LR}_t$를 concat한 후 3x3 bottleneck layer을 통해 channel 수를 줄인다. 이를 통해 sampling parameters를 구하고 마지막으로 $\Theta$와 $F^{LR}_i$가 deformable convolution을 기반으로 aligned feature  $F^{LR'}_t$가 얻어진다. 추가로 2개의 regular deformable convolutional layer을 전에, 1개의 regular deformable convolutional layer를 $f_{dc}$다음에 추가헤 모듈의 변화에 대한 유연성과 기능을 향상시켰다.

 

3. aligned frame reconstruction.

비록 deformation alignment가 효과적이지만 implicit alignment는 supervision 없이는 학습이 어렵다. 그렇기 때문에 aligned LR frame $I^{LR'}_i$를 복원해 alignment loss에 사용해 deformable alignment module이 효과적인 features를 얻게 한다. 

 

3.3 SR Reconstruction Network

 SR Network는 크게 세 모듈로 구성되어 있다

1. temporal fusion: aggregate temporal information from different frames

2. nonlinear mapping: predict high-level visual features

3. HR frame reconstruction: restore the HR frame for the LR reference frame, respectively.

 

3.4 Loss Functions

TDAN loss function

$$L_{align} =   \frac{1}{2N}  \sum_{t-N, \neq t }^{t+N} \parallel I^{LR'}_t - I^{LR}_t \parallel^{2}_{2}$$

Ground truth aligned LR frames가 없으므로 reference frame을 label로 사용해 aligned LR frames가 reference frame과 가깝게 만든다

 

SR reconstruction network

$$L_{sr} =  \parallel I^{HR'}_t - I^{HR}_t \parallel^{2}_{2}$$

 

Overall loss function

$$L = L_{align} + L_{sr}$$

 

4. Experiments

Datasets

train

- Vimeo Super-Resolution dataset: 64612 training samples with 448 × 256 resolution 

 

validation

- 31 frames from the Temple sequence

- Vid4

 

test

- SPMCs-30: 30 diverse and dynamic scenes and each sequence has 31 960 × 520 HR frames

 

Results

BI degradation

 

 


Google Scholar Link

https://scholar.google.co.kr/scholar?hl=ko&as_sdt=0%2C5&q=TDAN%3A+Temporally-Deformable+Alignment+Network+for+Video+Super-Resolution.&btnG= 

 

Google 학술 검색

Video super-resolution (VSR) aims to restore a photo-realistic high-resolution (HR) video frame from both its corresponding low-resolution (LR) frame (reference frame) and multiple neighboring frames (supporting frames). Due to varying motion of cameras or

scholar.google.co.kr

 

GitHub

https://github.com/YapengTian/TDAN-VSR-CVPR-2020

 

GitHub - YapengTian/TDAN-VSR-CVPR-2020: TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution, CVPR 2020

TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution, CVPR 2020 - GitHub - YapengTian/TDAN-VSR-CVPR-2020: TDAN: Temporally-Deformable Alignment Network for Video Super-Resolutio...

github.com

 

댓글