지금까지 딥러닝을 이용한 화질개선(super-resolution)에 관한 여러 논문들이 소개되어 왔다. 이 포스팅에서는 지금까지 어떤 논문들이 있었는지(2014-2018) 간략하게 소개하고, 다음의 소수 논문만을 간단히 살펴보도록 하겠다. 

 

  1. SRCNN

  2. VDSR

  3. SRGAN(SRRseNet)

  4. EDSR, MDSR

 

 

 

1. SRCNN

Chao Dong et al, "Image Super-Resolution Using Deep Convolutional Networks", 2014 ECCV

Fig1. SRCNN architecture

SRCNN은 super-resolution 분야에 딥러닝을 최초로 적용한 논문이다. 방법은 보시다시피 매우 간단하다. Low-resolution image에 bicubic을 이용하여 HR 사이즈와 동일하게 키운 후 이미지의 size를 유지하며 convolution network를 3번 통과하여 이미지의 화질을 개선시킨다. 매우 간단한 방법임에도 불구하고 좋은 성능을 보인다. 

 

 

 

 

2. VDSR

Kyoung Mu Lee et al, "Accurate Image Super-Resolution Using Very Deep Convolutional Networks", 2016  CVPR

Fig2. VDSR architecture

VDSR은 아주 deep 한 네트워크로 VGG-net에서 영감을 받았다고 한다. 20개의 레이어를 사용하였으며 계단식의 작은 필터들을 여러번 사용함으로써 이미지 전반적으로 contextual information을 잘 활용할 수 있었다고 한다. 또한 adjustable gradient clipping을 사용함으로써 104배의 큰 learning rate(SRCNN과 비교하였을 때)가 느린 수렴 속도를 보완해 주었다. 위 그림에서 마지막에 한번의 residual 이 들어감을 알 수 있는데, 이 여파인지 VDSR 이후의 super-resolution 논문들은 residual block을 적극 활용하고 있다.  

 

 

 

 

3. SRResNet(SRGAN)

Christian Ledig et al, "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network", 2017 CVPR

Fig3. SRGAN architecture

지금까지 super-resolution의 accuracy나 speed면에서는 크게 성능이 좋아졌으나 high frequency를 갖는 texture detail들이 잘 살지 않는다는 단점이 있었다. SRGAN 논문에서는 GAN의 형식을 사용함으로써 texture를 보다 잘 살린다는 장점이 있다.

 

기존의 논문들은 MSE loss와 PSNR metric을 동시에 사용하여 이미지의 화질개선 성능을 평가했기에 PSNR 수치는 높으나 엣지가 선명하지 않은 blur된 이미지가 도출되었다면, 본 논문에서는 adversarial loss 와 content loss를 사용하는 perceptual loss function을 적용함으로써 사람이 보기에 더 좋아보이는 이미지를 만든다는 점에서 큰 차이가 있다. perceptual loss는 VGG network의 high-level-feature maps를 사용하였다.

 

위 그림에서도 확인 가능하듯 generator network에서 ResNet과 skip-connection을 적극 활용함으로써 time과 memory 절약에 좋은 성능을 보였다. 

 

위 논문에서도 알 수 있듯, loss function과 metric은 이미지 개선에서 큰 차이를 불러 일으킨다. 기회가 된다면 지금까지 deep learning에 사용되는 loss function들(l1, l2, cross entropy loss, VGG loss, perceptual loss 등)과 metric(PSNR, SSIM 등)의 상관관계를 분석해보고 각 loss fuction들과 metric들이 가지는 장단점들에 대하여 정리해보는 포스팅을 진행해 보겠다. 

 

 

 

 

4. EDSR, MDSR 

Bee Lim et al, "Enhanced Deep Residual Networks for Single Image Super-Resolution", 2017 CVPRW

Fig4. comparison of residual blocks
Fig5. EDSR(single-scale)architecture                                                 Fig6. MDSR(multi-scale) architecture

 

 

EDSR, MDSR 논문에서는 residual block에서 불필요한 요소들을 제거했다는 것이 큰 특징이다. 기존의 super-resolution 논문들은 MSE, L2 loss를 사용한 반면, 본 논문에서는 L1 loss를 사용하였다. 또한 기존의 논문들에서는 한번에 한 종류의 scale에 대하여 학습시켰다면, MDSR에서는 x2, x3, x4배율 모두 upscale이라는 맥락 아래에서 weight들을 공유할 수 있을 것이라 생각하여 다양한 배율을 동시에 학습하는 multi-scale deep super-resolution system을 도입하였다.

 

Fig4에서 볼 수 있듯, 본 논문에서는 residual module에 포함되어 있던 batch normalization을 제거하였다. BN layer에서 feature들을 normalize하기 때문에 네트워크 내의 유연성 즉, 개선 가능성을 억제한다고 보았기 때문이다. 실제로 이런 간단한 변경이 디테일을 살리는 부분에서 도움이 되었다고 한다. SRResNet과 비교하였을 때, BN layer를 제거함으로써 GPU memory를 약 40% 절약할 수 있었다고 한다.

 

Fig5의 EDSR architecture는 SRResNet의 baseline을 따랐으나, residual block 밖의 ReLU activation을 제거하였다는 점이 다르다. Fig6의 MDSR architecture는 parameter가 공유되는 중간의 16층 ResBlock과 scale specific하게 진행되는 앞, 뒤 module로 구성된다. 네트워크의 머리부분에 해당하는 pre-processing module은 5x5 kernel의 2개의 residual block으로 구성된다. 상대적으로 큰 kernel를 이용함으로써 scale-specific한 부분들을 잡아낼 수 있었다고 한다. 또한 마지막 부분의 upsampling module을 parallel하게 진행시킴으로써 x2, x3, x4의 결과를 각각 얻을 수 있다.   

 


 

앞서 소개한 논문들 후에 super-resolution을 다루는 논문들이 많이 나왔다. 종류별로 잘 정리되어있는 자료를 찾아 첨부한다.

 

Fig7. super-resolution papers

2019년 9월 17일에 발행된 논문의 자료임으로 대강 2014-2018(2019초)의 논문들이 정리되어 있다고 생각하면 될 것 같다. 

 

 

 


Reference

 

 

1. Wenming Yang et al, "Deep Learning for Single Image Super-Resolution: A Brief Review",  https://arxiv.org/pdf/1808.03344.pdf

2.  Saeed Anwar et al, "A Deep Journey into Super-resolution: A Survey",  https://arxiv.org/pdf/1904.07523.pdf

3. Chao Dong et al, "Image Super-Resolution Using Deep Convolutional Networks", 2014 ECCV

4. Kyoung Mu Lee et al, "Accurate Image Super-Resolution Using Very Deep Convolutional Networks", 2016  CVPR

5. Christian Ledig et al, "Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network", 2017 CVPR

6. Bee Lim et al, "Enhanced Deep Residual Networks for Single Image Super-Resolution", 2017 CVPRW

 

 

 

+ Recent posts