논문 요약
1. Paper Bibliography
논문 제목
BasicVSR: The search for essential components in video super-resolution and beyond
저자
Chan, Kelvin CK, et al.
출판 정보 / 학술대회 발표 정보
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021
년도
2021
2. Problems & Motivations
논문에서 언급된 현 VSR 연구들에서의 문제점 정리 + 관련 연구
복잡하고 다양한 VSR methods
- VSR methods의 구성
- propagation
- alignment
- aggregation
- upsampling
Sliding-window
1) Earlier methods[1, 29, 33]: LR 사이의 optical flow 계산한 후 spatial warping함
2) Implicit alignment
- TDAN[30]: deformable convolutions를 사용하여 feature level에서 각 다른 frames align
- EDVR[32]: multi-scale로 deformable convolutions를 사용
- DUF[16]: dynamic upsampling filters
Recurrent
- RSDN[12]: recurrent detail-structural block과 hidden state adaptiation module사용해 변화/에러에 강한 네트워크 제시
- RRN[14]: identiy skip connection을 사용한 residual mapping 정보의 흐름을 더 용이하게 하고 텍스쳐 정보를 긴 시간동안 유지
- 현재 연구들은 각각의 기능에만 초점을 두고 요소들의 시너지를 고려하지 않는다
- VSR을 구성하는 요소들의 기능을 시험하고 이해해야 각 방법들의 장점과 단점을 알 수 있다
Interval-based processing [4, 15, 26, 35, 36, 38, 39]
- 비디오 프레임을 키 프레임과 키 프레임이 아닌 독립된 간격으로 구분한다
- 그런 다음 키 프레임과 비-키프레임은 서로 다른 파이프라인에 의해 처리된다
[1] Jose Caballero, Christian Ledig, Aitken Andrew, Acosta Alejandro, Johannes Totz, Zehan Wang, and Wenzhe Shi. Realtime video super-resolution with spatio-temporal networks and motion compensation. In CVPR, 2017.
[4] Kai Chen, Jiaqi Wang, Shuo Yang, Xingcheng Zhang, Yuanjun Xiong, Chen Change Loy, and Dahua Lin. Optimizing video object detection via a scale-time lattice. In CVPR, 2018.
[12] Takashi Isobe, Xu Jia, Shuhang Gu, Songjiang Li, Shengjin Wang, and Qi Tian. Video super-resolution with recurrent structure-detail network. In ECCV, 2020.
[14] Takashi Isobe, Fang Zhu, and Shengjin Wang. Revisiting temporal modeling for video super-resolution. In BMVC, 2020.
[15] Samvit Jain, Xin Wang, and Joseph E Gonzalez. Accel: A corrective fusion network for efficient semantic segmentation on video. In CVPR, 2019.
[16] Younghyun Jo, Seoung Wug Oh, Jaeyeon Kang, and Seon Joo Kim. Deep video super-resolution network using dynamic upsampling filters without explicit motion compensation. In CVPR, 2018.
[26] Evan Shelhamer, Kate Rakelly, Judy Hoffman, and Trevor Darrell. Clockwork convnets for video semantic segmentation. In ECCV, 2016.
[29] Xin Tao, Hongyun Gao, Renjie Liao, Jue Wang, and Jiaya Jia. Detail-revealing deep video super-resolution. In CVPR, 2017.
[30] Yapeng Tian, Yulun Zhang, Yun Fu, and Chenliang Xu. TDAN: Temporally deformable alignment network for video super-resolution. In CVPR, 2020
[32] Xintao Wang, Kelvin C.K. Chan, Ke Yu, Chao Dong, and Chen Change Loy. EDVR: Video restoration with enhanced deformable convolutional networks. In CVPRW, 2019.
[33] Tianfan Xue, Baian Chen, Jiajun Wu, Donglai Wei, and William T Freeman. Video enhancement with task-oriented flow. IJCV, 2019.
[35] Zhengdong Zhang and Vivienne Sze. FAST: A framework to accelerate super-resolution processing on compressed videos. In CVPRW, 2017.
[36] Xizhou Zhu, Jifeng Dai, Xingchi Zhu, Yichen Wei, and Lu Yuan. Towards high performance video object detection for mobiles. arXiv preprint arXiv:1804.05830, 2018.
[38] Xizhou Zhu, Yujie Wang, Jifeng Dai, Lu Yuan, and Yichen Wei. Flow-guided feature aggregation for video object detection. In ICCV, 2017.
[39] Xizhou Zhu, Yuwen Xiong, Jifeng Dai, Lu Yuan, and Yichen Wei. Deep feature flow for video recognition. In CVPR, 2017.
3. Proposed Solutions
논문에서 제안하는 해결책들 정리
1. BasicVSR
- simple, string, versatile, baseline
- 다양한 구조의 backbone으로 사용 가능
Propagation
- 어떻게 video sequence의 정보를 활용하는가?
1) Local propagation
- sliding window 방법들은 LR images를 local window 범위안에서 input으로 사용하여 local information을 재건에 사용한다
- 이러한 방법은 얻을 수 있는 정보가 local로 한정된다는 단점이 있다
- Receptive field를 줄여가는 실험, 테스트 시퀀스를 K segment로 나눔
- K=1이 global receptive field.
1) 좀 더 적은 수의 sequence만 사용할 때 성능이 떨어짐을 알 수 있다: 인근 프레임의 정보가 재건에 효과적인 것을 알 수 있다
2) 각 segment의 양 끝은 PSNR수치가 좋지 않다: 긴 시퀀스는 long-term information이 축적되어야한다
--> frame을 각각 만든다는 말 같음
2) Unidirectional propagation
- 정보들이 첫 frame부터 마지막 frame까지 순차적으로 propagated된다
- 각 frame들이 얻는 정보량이 imbalanced하다: 첫 frame은 sequence에서 얻을 수 있는 정보가 없고 마지막 frame은 전체 sequence에서 정보를 얻을 수 있다
- uni와 bi실험. Unidirectional 모델이 모든 구간에서 Bi보다 적은 PSNR을 얻은 것을 알 수 있다. 시간이 지나며 그 차이가 점점 줄어드는 것을 알 수 있다.
3) Bidirectional propagation
- Features가 forward, backward로 독립적으로 전달된다
- LR image x_i가 주어지면 neighboring frames x_i-1, x_i+1과 해당하는 features h_i-1, h_i+1를 통해 새로운 feature을 만든다
- 현재 LR이미지를 통해 backward, forward 두가지 방향의 결과물을 만들어야 한다. Backward의 결과물을 만들기 위해서는 target LR 이미지, future neighboring LR 이미지, future neighboring LR 이미지의 feature이 필요하다. Forward의 결과물을 만들기 위해서는 target LR 이미지, past neighboring LR 이미지, past neighboring LR 이미지의 feature이 필요하다.
Alignment
- VSR에서 spatial alignment는 중요한 역할을 한다
- 연관성 있는 정보를 얻을 수 있지만 잘못된 정보를 조심해야 한다
1) Without Alignment
- Recurrent methods는 보통 alignment를 하지 않는다
- 이러한 방법은 features/image aggregation을 지연시키고 수준 이하의 성능을 가져오기도 한다
- BasicVSR에서 spatial alignment module을 제거해 실험. Non-aligned features를 바로 concat.
- 적절한 alignment없이, 전달된 features는 input 이미지와 spatially aligned되지 않았다. 결과적으로 convolution같은 local operations는 (보통 작은 receptive fields를 가진 곳) 해당 위치에서 aggregation에 비효율적이었다. (1. 19dB 감소)
2) Image Alignment
- 이전에는 optical flow를 구해 이미지를 warp한 후 재건했다.
- BasicVSR에서는 image warping과 feature warping을 비교.
- Optical flow의 inaccuracy때문에 warped image는 blurriness와 incorrectness문제를 겪었다. (0.17dB 감소)
- 이는 spatial alignment를 feature level에서 해야함을 보여준다
3) Feature Alignment
- BasicVSR은 optical flow를 spatial alignmet에 사용한다
- 하지만 이미지에 warping하던 이전 방법과 다르게 feature에 align하여 더 나은 성능을 얻었다
- Aligned features는 여러 residual blocks를 통해 개선된다
- s_i: target과 neighboring을 통해 optical flow를 구함
- _h_i: neighboring features와 optical flow를 warp
- h_i: target과 warp한 것을 residual blocks를 통해 구함
Aggregation and Upsampling
- feature concat
- features h{b, f}_i가 주어질 때 upsampling module은 여러 convolutions과 pixel shuffle로 이루어져 있다
2. From BasicVSR to IconVSR
- Information-refill mechanism and coupled propagation
Information-Refill
- Occluded regions와 image boundarite의 inaccurate alignment는 error를 만드는 요인이다. 특히 long-term propagation을 할 때.
- 이를 완화하기 위해서 feature refinement를 위한 information-refill을 제안한다
- 추가의 feature extractor가 deep features를 얻기 위해 추가되었다.
- E: feature extractor. input frames와 neighboring frames로부터 얻음
- 추출된 features는 aligned features와 convolution을 통해 fuse된다.
- keyframe set만 이 작업을 한다
Coupled Propagation
- BasicVSR에서는 두 반대 방향이 독립적이다. 각 propagation branch의 features는 서로 다른 정보들로 계산된다
- Coupled propagation scheme은 inter-connected되었다. Backward로 propagated된 features가 forward propagation module의 input으로 들어간다
- Forward propagation branch는 past, future frame의 정보를 모두 받아 더 좋은 결과를 낸다.
4. 입력의 형태
- patch size 64x64
- REDS: 15 frames.
- Vimdeo-90K: temporally augment the sequence by flipping the original input sequence. 14 frames.
5. 시간적 정보 모델링 프레임워크
기본 프레임워크 (2D CNN, 3D CNN, RNN, etc)
- RNN
구조에 기여한 바가 있다면?
- 구조에 대한 연구를 했음
6. 프레임 정렬 방식
Implicit (암시적) or Explicit (명시적)
- explicit
추가 설명
- spynet을 통해 optical flow 추출
7. 업샘플링 방식
- pixel shuffle
8. 그 외
모델 파라미터 개수
- BasicVSR: 6.3M
- IconVSR: 8.7M
학습 데이터
REDS, Vimeo-90K
테스트 데이터
Two degradations
- Bicubic (BI)
- Blur Downsampling (BD)
REDS4 for REDS
- REDS training set 중 000, 011, 015, 020
Vid4, UDM10, Vimeo-90K-T for Vimeo-90K
논문 분석
1. 앞서 정리한 논문들에 대한 비평들 중 해당 논문에서 해결된 바가 있다면 정리
-
2. 해당 논문에 대한 비평(Critique)
1)
2)
3)
Google Scholar Link
Project Page
https://ckkelvinchan.github.io/projects/BasicVSR/
댓글