본문 바로가기
논문 리뷰/Super-Resolution

[ABPN] Image Super-Resolution via Attention based Back Projection Networks

by 귤이두번 2022. 8. 9.

논문 요약

 보통 더 깊고 넓은 네트워크가 더 좋은 SR 이미지를 만들 수 있으나 더 복잡해질수록 실생활에서 사용하기가 어려워진다. 그렇기 때문에 네트워크를 간단히 할 필요가 있다. 본 논문에서는 이를 위한 Attention based Back Projection Network (ABPN)을 제시한다. Back projection blocks는 low- and high-resolution feature residue를 반복적으로 업데이트한다. Spatial Attention Block(SAB)는 서로 다른 레이어들의 features간 cross-correlation을 학습하며 Refined Back Projection Block (RBPB)를 통해 final reconstruction을 진행한다.

 

1. Paper Bibliography

논문 제목

Image super-resolution via attention based back projection networks

 

저자

Liu et al.

 

출판 정보 / 학술대회 발표 정보

2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). IEEE, 2019.

 

 


 

2. Problems & Motivations

 Attention 혹은 non-local modeling은 전체 이미지에서 전역적으로 feature response를 찾을 수 있는 방법 중 하나이다. Attention operations는 여러 장점들이 있는데

1) 거리와 관계없이 이미지 안 패턴 간의 상관 관계(correlation)를 직접 계산할 수 있다

2) 좋은 성능을 유지하면서 (혹은 더 나은) 효과적으로 커널의 수와 네트워크의 깊이를 줄일 수 있다

3) 어떤 구조에서도 쉽게 추가해 사용할 수 있다

 

Non-local neural networks[27]와 Back Projection based image SR[20]에서 영감을 얻어 저자는 효율적인 SR을 위한 Attention based Back Projection Network를 제시한다. 

 

[27] Xiaolong Wang, Ross B. Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. CoRR, abs/1711.07971, 2017.

[20] Zhi-Song Liu, Li-Wen Wang, Chu-Tak Li, and Wan-Chi Siu. Hierarchical back projection network for image superresolution. CoRR, abs/1906.06874, 2019

 

 

Non-local Image Processing

 Non-local Image Processing의 아이디어는 반복된 패턴을 위해 local한 영역 뿐만 아니라 non-local한 영역까지 서치한다는 것이다. 이는 인근의 픽셀들이나 패치들이 filtered region에 기여할 수 있게 하며 이웃한 지역을 이미지 또는 비디오의 전체 영역에 매핑하는 non-local convolution operatoion으로 일반화된다.

 최근 non-local processing은 explicit or implicit하게 deep neural network에 내장되어, long-term dependencies를 찾도록 사용된다

 

3. Method

3.1 Problem Formulation

 ABPN은 크게 3가지 모듈로 나눌 수 있다:

1. Feature extraction

- 2개의 conv layers와 self-attention block으로 구성되어 있다. 

2. Enhanced Back Projection Blocks

- [20]을 수정한 것이며 다른점은 concatenation layer가 제시한 Spatial Attention Block으로 대체되었고 LR feature maps가 HR feature maps와 합쳐져 최종 feature maps를 만든다는 것이다. 

3. Refined Back Projection Block

- 최종 SR이미지를 refine하기 위해 estimated와 original LR images사이의 feature residues를 업데이트한다 

 

[20] Zhi-Song Liu, Li-Wen Wang, Chu-Tak Li, and Wan-Chi Siu. Hierarchical back projection network for image superresolution. CoRR, abs/1906.06874, 2019

 

3.2 Back Projection Blocks for image SR

 (Fig. 3) back projection의 메인 아이디어는 좋은 SR이미지로부터 만든 LR 이미지는 원본 LR 이미지와 가까울 것이라는 추정을 기반으로 한다. 이러한 아이디어를 따라서 기본 모듈을 Enhanced Down-sampling Back Projection blocks (EDBP) (for down-sampling)과 Enhanced Up-sampling Back Projection block (EUBP) (for upsampling) 사용한다. 

 (Fig. 2) up-down 순서로 있는 여러개의 back projection blocks는 deep feature representation을 추출하기 위해 사용된다.

마지막 reconstruction 단계에서는 intermediated feature maps가 같이 SR이미지를 학습하기 위해 concat된다. LR을 HR과 concat할 때 LR을 한개의 deconvolution layer를 통해 HR크기로 up-sample한다. 

 

3.3 Spatial Attention Blocks (SAB)

 Spatial Attention Blocks의 아이디어는 다른 레벨에서의 features간 cross-correlation을 학습하는 것이다. 제시한 ABPN에서는 두가지 종류의 attention block이 있다:

1) Self-attention Block: [26]과 같은 방법이며 feature extraction 마지막 단계에서 사용된다. (Fig. 2(a))

2) Spatial-attention Block: 각 EDBP 블록마다 위치하며 이어지는 up-sampling을 위한 attention maps를 추출하는데 사용된다. 

Self-attention과 Spatial-attention block 안에는 3개의 conv layers가 있으며 input data를 3가지 요소 $θ, φ, g$로 분해한다. 그 다음 이 요소들을 이용해 2번의 내적 연산을 한다. Input과 output 사이에는 short connection이 있는데 이는 어텐션 모델이 residual mapping relationship을 학습하게 한다. 이 때 차이점은 self-attention의 경우 input X만을 계산을 위해 사용하나 spatial attention은 X와 Y를 둘 다 사용한다는 점에 있다. 

 

 Attention 모델은 non-local convolution process로 이해할 수 있다. Input X에 대하여, non-local operation은 다음과 같이 정의할 수 있다

$$Z = f(X,X^{T})g(X)$$

이 때 $f$는 X와 각 픽셀들간의 관계를 나타낸다.

위 수식은 다음과 같이 다시 쓸 수 있으며 

$$Z = softmax(θ(X)φ(X^{T}))g(X)$$

Spatial attention block의 경우 다음과 같이 쓸 수 있다. 

$$Z = softmax(θ(X))φ(X^{T}))g(Y)$$

 

Self-attention과 spatial-attention에서의 non-local operation은 둘다 feature maps에서의 모든 위치를 고려한다. $θ(X)φ(X^{T})$의 내적은 입력 데이터의 공분산(covariance)로 간주할 수 있으며 서로 다른 채널에서 두 feature maps 사이의 tendency 정도를 측정한다.

Fig 4처럼 input X는 $θ(X)$와 $φ(X^{T})$로 분해된다. 그 다음 chnnel 축을 따라 feature maps를 벡터화한다: i-th vector는 i-th channel의 feature map을 표현. 내적은 input data의 autocorrelation을 계산하는데 softmax를 사용하여 각 벡터를 unit vector로 normalize한다. 이 과정이 끝나면 각 unit vector는 input data의 axis를 나타낼 수 있게 되고 $g(X)$를 곱하는 것은 새로운 좌표 시스템에 data를 projection하는 것과 같다. Softmax의 결과는 각 feature map의 중요도를 나타내는 global weighting matrix라고 할 수 있다. Self-attention과 spatial attention은 전체 spatial domain에서 중요한 features를 찾는것을 목적으로 하며 이를 통해 channel domain간 feature correlation을 계산하고 projection의 basis를 찾을 수 있게 한다. 

 

 보통 대부분의 deep learning based SR은 각 다른 레이어에서의 feature maps를 concat하여 다음 연산을 위한 큰 feature maps를 만든다. 계산을 줄이기 위해 1x1 conv가 사용된다. 단점은 만약 모델이 깊어지면 더 많은 feature maps는 더 무거운 연산을 가지고 1x1 conv하는데도 많은 비용이 든다는 것이다. 이와 반대로 spatial attention blocks는 모든 feature maps를 중요하게 생각하지 않기 때문에 각 feature maps간의 correlation을 향상시킬 수 있다. $θ, φ, g$는 활성화 함수가 없는 1x1 conv를 표현하는데 이는 

1) correlation 또는 covariance는 데이터 간 선형 종속성에 대한 측도이기 때문이다..
2)입력 데이터 X가 활성화된 feature maps이므로 훈련 난이도를 높이기 위해 다른 activation function을 추가할 필요가 없다.

 

3.4 Refined Back Projection Block (RBPB)

 마지막으로 최종 재건을 위해 Enhanced Back Projection Block을 Refined Back Projection Block(RBPB)으로 수정했다. (Fig 2.d). 그 이유는 EDBP와 EUBP를 LR과 HR feature residues를 업데이트하기 위해 쌓았지만 원본 LR 이미지들에는 피드백되지 않기 때문이다. Fig 3처럼 close loop를 만들기 위해 RBPB를 사용해 input LR과 final SR을 연결했다. 대부분의 SR 접근법들은 LR 이미지가 Bicubic operator로  down-sample되었다고 가정하고 진행한다. 그렇기 때문에 estimated SR이미지를 down-sample할 때도 bicubic을 사용하여 estimated LR을 얻는다. 그 다음 또 다른 feature extraction block을 사용해 estimated LR과 input LR사이의 LR residues를 얻고 이를 bicubic으로 up-sample한 뒤 estimated SR과 합쳐 최종 SR 이미지를 얻는다.  

 

[26] Aaron van den Oord, Nal Kalchbrenner, Oriol Vinyals, Lasse ¨ Espeholt, Alex Graves, and Koray Kavukcuoglu. Conditional image generation with pixelcnn decoders. CoRR, abs/1606.05328, 2016.

 

4. Experiments

Datasets

train

- 800 2K images from DIV2K and 2650 2K images from Flickr 

- LR patch 32x32

 

test

- Set5, Set14, BSD100, Urban100, Manga109, DIV2K, DIV8K

Results

 

 


Google Scholar Link

https://scholar.google.co.kr/scholar?hl=ko&as_sdt=0%2C5&q=Image+Super-Resolution+via+Attention+based+Back+Projection+Networks&btnG= 

 

Google 학술 검색

Deep learning based image Super-Resolution (SR) has shown rapid development due to its ability of big data digestion. Generally, deeper and wider networks can extract richer feature maps and generate SR images with remarkable quality. However, the more com

scholar.google.co.kr

 

GitHub

GitHub - Holmes-Alan/ABPN: Attention based Back Projection Network (ABPN) for image ultra-resolution in ICCV2019

 

GitHub - Holmes-Alan/ABPN: Attention based Back Projection Network (ABPN) for image ultra-resolution in ICCV2019

Attention based Back Projection Network (ABPN) for image ultra-resolution in ICCV2019 - GitHub - Holmes-Alan/ABPN: Attention based Back Projection Network (ABPN) for image ultra-resolution in ICCV2019

github.com

 

댓글