본문 바로가기
논문 리뷰/Super-Resolution

[RLSP] Efficient Video Super-Resolution through Recurrent Latent Space Propagation

by 귤이두번 2022. 4. 12.

논문 요약

 

1. Paper Bibliography

논문 제목

- Efficient video super-resolution through recurrent latent space propagation

 

저자

- Fuoli et al.

 

출판 정보 / 학술대회 발표 정보

- 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)

 

년도

- 2019

 


 

2. Problems & Motivations

논문에서 언급된 현 VSR 연구들에서의 문제점 정리 + 관련 연구

 

대부분의 딥러닝 기반 VSR 알고리즘: ME -> MC

- LR frames 사이의 subpixel motion 획득

- subpixel-level alignment는 어려운 문제

  1. May generate blurred estimations: when MC module fails to generate accurate ME
  2. Computationally expensive: unable to handle HR video in real time

Dynamic Upsampling Filters (DUF) [16]

- 모션 정보를 dynamic upsampling filters로 implicit하게 얻는다

- center input frame을 local filtering한 후 residuals를 더해서 HR frame을 얻을 수 있다

- ME, MC과정이 없이 HR을 얻을 수 있으나 각 위치에서 dynamic filters를 얻어야하기 때문에 computing 비용이 많이 들고 큰 사이즈의 이미지를 처리하는데 메모리 부담이 있다

 

FRVSR [33]

- Recurrent architecture: LR input frames가 여러번 처리되는 것 방지 (RLSP가 이와 유사한 전략을 씀)

- Explicit motion estimation and warping을 함 (RLSP는 implicit)

 

 

[16] Y. Jo, S. Wug Oh, J. Kang, and S. Joo Kim. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

 

 


 

3. Proposed Solutions

논문에서 제안하는 해결책들 정리

 

1) Concat inputs

- 여러 인접한 LR frames xt-1:t+1를 사용해 HR frame yt을 만든다. LR frames는 channel axis를 따라 concat된다. 이 때 recurrent inputs ht-1, yt-1도 함께 concat된다

- 이전 HR output yt-1을 LR tensors에 concat/align하기 위해 yt-1은 scaling factor r로 shuffled down된다

2) Convolutional Layers

- 합쳐진 input은 n conv layer + ReLU에 들어간다

3) Output

- 마지막으로 hidden state ht와 HR output's residual(LR 크기)가 만들어진다

- residuals는 nearest neighbor interpolated frame에 더해지고 (LR 크기) scaling factor r로 shuffle up되어 최종 output yt를 만든다 

 

- 모든 input frames는 RGB color space이고 output은 YCbCr의 Y channel이다. Chroma channels는 bicubic interpolation으로 upscale됨

- 모델은 recurrent, fully convolutional network하기 때문에 input size가 고정되지 않아도 된다

 

1. Shuffling

- LR을 HR로 매핑하기 위해서는 spatial dimension이 transformation 되어야한다

- 보통 LR 크기를 유지한 후 마지막 단계에서 크기를 키운다. RLSP에서는 output이 다시 fed back되므로 inverse transformation이 필요하다

 

- 텐서 t의 channel dimension Z를 변형시켜서 spatial dimenstion을 바꿀 수 있다

- 예를 들어 single channel HR output image를 upscaling factor r=4로 만든다 하면 LR tensor의 channel dimension Z = 16이어야 한다. 그러므로 마지막 레이어는 filter 수가  16이다

- 이 방법의 중요한 특징은 local integrity를 유지한다는 것이다

- LR channel dimension의 모든 pixels는 해당하는 local HR interpolation area로 재배치된다. 이는 LR input부터 HR output까지의 localized information flow가 smooth하게 한다

- 이 방법은 FRVSR, VESPCN에서도 사용됨

 

2. Residual Learning

- LR space에서의 lower Nyquist frequency때문에 main information loss는 spatial high-frequency components에서 일어난다

- downsampling 과정에서 Nyquist frequency 밑의 low-frequency components는 남아있음

- 이러한 사실은 LR input frame xt를 output frame yt에 residual connection을 통해 연결하는 것에서 사용된다

1) xt는 RGB에서 YCbCr color space의 Y channel로 변경된다

2) residual's dimension을 맞추기 위해16번 복사된다. 이는 단순히 nearest-neighbor interpolation으로 한다. 그러므로 변형되는 정보가 없으며 학습을 위한 추가 complexity가 필요 없다

- FRVSR과 달리 모든 complexity는 high-frequency components를 재건하는데 사용된다

 

3. Feedback

- 피드백은 frames간의 연속성에 도움이 되고 flickering을 줄인다

- 인접한 frames간의 연관성 때문에 이전 output yt-1은 이전 HR 정보를 가지고 있어 새로운 HR estimate yt를 만드는데 도움이 된다\

 

4. Hidden State

- 시간에 따른 information을 전파하기 위해서 hidden state ht가 처리 과정에 추가되었다

 

 

 


 

4. 입력의 형태

- 10 frames

 


 

5. 시간적 정보 모델링 프레임워크

기본 프레임워크 (2D CNN, 3D CNN, RNN, etc)

- RNN

 

구조에 기여한 바가 있다면?

-

 


 

6. 프레임 정렬 방식 

Implicit (암시적) or Explicit (명시적)

- implicit

 

추가 설명

- 


 

7. 업샘플링 방식 

- pixel shuffle + residual

 


 

8. 그 외

모델 파라미터 개수

 

학습 데이터

37 high resolution(720p, 1080p, 4K) videos from vimeo.com

- FRVSR의 실험을 따라 했기 때문에 같은 데이터를 쓰려 했으나 3개를 쓸 수 없어서 37개

- 40000 random crops of size 30 x 256 x 256 x 3

- LR 생성시 HR frames에 Gaussian blur(1.5)를 적용한 후 4-th pixel을 샘플링하여 downsample

 

10 high resolution videos from youtube.com

- validation sequence 

- training data와 같은 절차로 가공

 

테스트 데이터

Vid4

- PSNR 계산: 모든 시퀀스에 대해 계산. 최종으로는 각 시퀀스의 PSNR 값의 평균

 

- Recurrent한 구조여서 더 많은 정보들이 처리될수록 성능이 좋아지는 것을 볼 수 있다

 

Full HD (1920x1080)

- 속도 계산

- NVIDIA TITAN Xp에서 측정

- DUF와 FRVSR의 속도는 각 논문에서 가져옴

 


논문 분석

 

1. 앞서 정리한 논문들에 대한 비평들 중 해당 논문에서 해결된 바가 있다면 정리

shallow and wide

- 얕고 넓은 구조로 인하여 많은 연산을 parallel하게 할 수 있어서 효율적이고 빠르다

- 현재 얕기 때문에 complexity를 늘리면 (ex: 필터 수 증가) 더 정확한 결과를 만들 수 있을 것이다

- Vid4에서 DUF보다 70배 빠르나 SOTA 달성

 

2. 해당 논문에 대한 비평(Critique)

1) 

2) 

3) 

 

 


Google Scholar Link

https://scholar.google.co.kr/scholar?hl=ko&as_sdt=0%2C5&q=Efficient+Video+Super-Resolution+through+Recurrent+Latent+Space+Propagation&btnG= 

 

Google 학술 검색

With the recent trend for ultra high definition displays, the demand for high quality and efficient video super-resolution (VSR) has become more important than ever. Previous methods adopt complex motion compensation strategies to exploit temporal informat

scholar.google.co.kr

 

Github

https://github.com/dariofuoli/RLSP

 

GitHub - dariofuoli/RLSP: Official repository containing code and other material from the paper "Efficient Video Super-Resolutio

Official repository containing code and other material from the paper "Efficient Video Super-Resolution through Recurrent Latent Space Propagation" (https://arxiv.org/abs/1909.08080). - G...

github.com

 

댓글