본문 바로가기
논문 리뷰/Generative

[LPTN] High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

by 귤이두번 2022. 7. 14.

논문 요약

 

1. Paper Bibliography

논문 제목

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network

 

저자

Liang et al.

 

출판 정보 / 학술대회 발표 정보

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

 

 


 

2. Problems & Motivations

 

 Image to Image Translation (이하 I2IT)는 이미지를 source domain에서 target domain으로 변화를 주는 것이다.

ex) day -> night, summer -> winter, retouching illumination and color

Practical photorealistic I2IT는 고해상도 이미지를 처리시 효율성을 유지하면서 내용의 왜곡을 최소화하는 것이 목적이다

 

이전에는 대부분 encoding-decoding 구조를 가지며 입력이미지의 low-dimensional latent space를 translated latent space로 재건하는 방식을 거쳤다. 하지만 이는 저해상도의 이미지에 적합한 방법이고 고해상도 이미지 처리시 시간이 오래 소요되어 실용적이지 않다. 그 이유는

1. 모델이 deep한 신경망을 가져야 함

2. 고해상도의 이미지를 처리하기 위해서는 큰 kernel을 사용하고 충분한 채널이 필요하기 때문에 연산량 또한 많아짐

 

LPTN은 Laplacian Pyramid에서 영감을 받아 domain-specific한 처리를 한다.

- low-frequency : 빛, 색

- high-frequency: 디테일

 

 

3. Proposed Solutions

3.1 Framework Overview

 이미지 $I_0 \in R^{h \times w \times 3}$이 주어졌을 때 먼저 Laplacian pyramid(LP)로 분해되어 band-pass components $H=[h_0,h_1,...,h_{L-1}]$와 low-frequency residual image $I_L$을 얻는다

- $H$에서는 디테일한 텍스처 부분 이외의 픽셀 값이 0에 가깝다

- $I_L$에서는 octave Gaussian filter를 통해 각 픽셀들은 이웃 픽셀과 평균화되어 블러처리되며 contents와 독립적인 속성이 된다

 

  LPTN framework

1. Low resolution $I_L$을 deep conv를 통해 $\hat{I_L}$로 만든다 (Red)

2. concatenation하는 부분$[h_{L-1}, up(I_L), up(\hat{I_L})]$에서 mask를 학습한다. mask는 h_{L-1}와 곱해진 후 level $L-1$의 high-frequency부분을 refine 한다. (Brown)

3. high resolution의 components들을 refine하기 위해 progressive upsampling strategy 사용. (Purple)

 

3.2 Translation on Low-Frequency Component

 Photorealistic I2IT에서, 영역별 속성은 보통 illuminations나 colors와 관련이 있다. - fixed kernels로 추출 가능

Fig 1을 보면, day-to-night  translatiopn task에서 대부분의 속성은 low-frequency에 존재하며 high-frequency는 텍스처 등에 더 관련이 있다. 

Fig 2를 보면, 작은 사이즈의 $I_L$가 주어지면 먼저 feature map을 1x1 conv를 사용하여 channel-wise하게 확장한다. 그 다음 5 개의 residual blocks를 쌓아 feature map을 늘린다. 그 다음 feature maps를 다시 $c$개로 줄여서 translated results $\hat{I_L}$을 만든다 ($c$는 원래 채널 수). 최종 결과는 tanh activation layer을 지난 original inputs과 더해진다. 

 

위 방법은 2가지 장점이 있다

1. On time and space efficiency: LP로 분해하는 것은 fixed kernel과 간단한 convolution operation을 통해 하는 것이므로 학습이 필요 없어 효율적이고 학습이 필요 없다. 이는 photorealistic I2IT가 많은 illuminations와 colors가 필요하고 texture refining은 조금만 해도 된다는 것을 기반으로 한다.

2. On the disentanglement and reconstruction effectiveness: LP를 frequency band로 나누는 것은 쉽고 문제를 해결하는데 효율적이다.

 

3.3 Residual of High-Frequency Components

High-frequency components $[h_0, h_1, ..., h_{L-1}]$은 $I_L$ to $\hat{I_L}$ translation 후 refined되어야 한다

1. 먼저 $I_L$과 $\hat{I_L}$을 bilinear upsample하여 $h_{L-1}$과 같은 크기로 만든다

2. 그 다음 $[I_L, \hat{I_L}, h_{L-1}]$을 concat한 후 작은 네트워크에 넣는다. 이 네트워크에서 마지막 conv layer을 지난 output의 channel은 1이다. 이렇게 나온 output은 $h_{L-1}$의 per-pixel mask로 여겨진다. Fig1을 보면 같은 같은 레벨의 high-level components는 크게 차이가 나지 않는 것을 볼 수 있다. 그렇기 때문에 전체 frequency를 optimize하는 것 보다 부분만 refine하는 것이 쉽다는 것을 알 수 있다.

3. 이어서 pixel-wise multiplication $ \otimes $으로 $h_{L-1}$을 refine한다

4. 그 다음 점진적으로 per-pixel mask를 원래 크기까지 upsample한다. Upsample한 mask는 (1)연산을 통해 해당 크기에서 $\hat{h_{L-n}}$를 만들 수 있다.

 

3.4 Learning Criteria

reconstruct loss

$L_{recons} = \|I_0-\hat{I}_0\|^2_2$

$I_0$: input image

$\hat{I}$: translated image

 

adversarial loss

$L_{adv}$

generator $G$(low, high frequency modules) to minimize: $E_{I_0∼p_{data}(I_0)}[D(G(I_0) − 1)^2]$

discriminator $D$ to minimize: $E_{\tilde{I_0}∼p_{data}(\tilde{I_0})}[D(G(\tilde{I_0}) − 1)^2]  + E_{I_0∼p_{data}(I_0)}[D(G(I_0))^2]$

 

total loss

$L = L_{recons} + \lambda L_{adv}$

\lambda : balances the two loss

 

4. Experiments

Datasets

Flickr

- random resolutions from 1080p(1920 x 1080) to 4K(3840 x 2160)

- day2night: 1035 day photos, 862 night photos

- summer2winter: 1173 summer photos, 1020 winter photos

 

MIT-Adobe fiveK

- 5000 untouched images and corresponding manually-retouched targets given by photo-graph experts

- 4500 train, 500 eval

Results

 

 


Google Scholar Link

https://scholar.google.co.kr/scholar?hl=ko&as_sdt=0%2C5&q=High-Resolution+Photorealistic+Image+Translation+in+Real-Time%3A+A+Laplacian+Pyramid+Translation+Network&btnG= 

 

Google 학술 검색

Existing image-to-image translation (I2IT) methods are either constrained to low-resolution images or long inference time due to their heavy computational burden on the convolution of high-resolution feature maps. In this paper, we focus on speeding-up the

scholar.google.co.kr

 

GitHub

https://github.com/csjliang/LPTN

 

GitHub - csjliang/LPTN: Official implementation of the paper 'High-Resolution Photorealistic Image Translation in Real-Time: A L

Official implementation of the paper 'High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network' in CVPR 2021 - GitHub - csjliang/LPTN: Official...

github.com

 

댓글