목록AI (5)
땡글이LAB

이전에 리뷰했었던 pSp 논문과는 달리 본 논문은 이미지 조작(manipulation)에 적합한 인코딩을 수행하는 e4e 네트워크를 제안한다. 즉, pSp 에서 주장한 인코더는 input image를 잘 inversion 해주는 latent vector를 찾는 것이 목적이었다면 본 논문은 manipulation을 잘해주는 인코더를 제안한다는 점이 pSp 와의 차이점이라고 볼 수 있을 것 같다. 최적화 방식과 인코딩 방식 [Image Inversion] 최적화 방식과 인코더 방식의 차이점부터 다뤄보고자 한다. StyleGAN 혹은 StyleGANv2 에서 사용되는 최적화 방식은 input image x와 유사한 이미지를 얻기에 적합하지만, 조작(manipulation)에는 낮은 성능을 보인다. 하지만 인코..

0. Abstract 본 논문에서 주장하는 pSp 프레임워크는 사전 훈련된 Style-GAN 생성기에 공급되어 확장된 W+ 잠재 공간을 형성하는 일련의 스타일 벡터를 직접 생성하는 새로운 인코더 네트워크를 기반으로 한다. 그리고 본 논문에서는 인코더가 추가 최적화 없이 실제 이미지를 W+ 에 직접 내장할 수 있음을 보여준다. 그리고 얼굴 영역에서의 Translation 과정을 통해 pSp 프레임워크의 활용성을 입증하고 얼굴영역에 그치지 않고, 다른 영역으로 확장도 가능함을 보여준다. 최적화 과정 : Image2StyleGAN 논문에서는 W+ space 즉, w+ vector를 얻기 위한 Embedding 알고리즘을 소개하는데, 이것이 바로 최적화 과정이다. (참고 : https://circle-lab...

1. Instruction 본 논문에서는 StyleGAN에서 사용되는 latent space W 대신 latent space W+를 사용하면 조금 더 일반화된 StyleGAN 기능을 사용할 수 있다고 주장하고 있다. 또한, 본 논문에서 주장하는 embedding 알고리즘은 사람의 얼굴 뿐만이 아니라 다양한 그림체의 얼굴(만화, 그림 등) 들에도 적용 가능하다고 주장한다. 그리고 기술을 제안하는 것에 그치지 않고, 본 논문에서는 새롭게 제안한 embedding 기술이 얼마나 semantical하게 의미 있는 결과물이 나오는지 확인한다. 또한 3가지 이미지 변환들로 추후에 StyleGAN에서 사용되는 W와 본 논문에서 제안한 W+를 사용했을 때의 Morphing, Style Transfer, Expressi..

[0. 본격적인 리뷰 전 간단한 설명] Style GAN은 PGGAN 구조에서 Style transfer 개념을 적용하여 generator architecture 를 재구성한 논문이다. 그로 인하여 PGGAN 에서 불가능 했던 scale-specific control이 가능하게 되었다. image synthesis(이미자 합성) 과정에서 specific(특정)한 scale(크기)로 자유롭게 조절해가면서 style을 변경한다는 의미이다. [0-1. PGGAN] PGGAN이란, 점진적으로 낮은 해상도부터 높은 해상도까지 차근차근 점진적으로 생성하는 대표적인 생성모델로써 StyleGAN의 base가 되는 모델로 latent vector z가 Normalize를 거쳐 모델에 바로 입력이 되는 학습이 진행된다. ..

[이미지 데이터에 대한 확률분포] 이미지 데이터는 많은 픽셀들로 구현되어 있고 그 픽셀들은 3차원(RGB) 데이터를 포함하고 있어서 이미지 데이터는 고차원 데이터라고 할 수 있다. 즉, 이미지 데이터는 다차원 특징 공간의 한 점으로 표현된다. 이미지의 분포를 근사하는 모델을 학습할 수 있다. 사람의 얼굴에는 통계적인 평균치가 존재할 수 있다. 모델은 이를 수치적으로 표현할 수 있게 된다. 이미지에서의 다양한 특징들이 각각의 확률 변수가 되는 분포를 의미한다. 다변수 확률분포(multivariate probability distribution) 예시는 다음과 같다. [생성 모델(Generative Models)] 생성 모델은 실존하지 않지만 있을 법한 이미지를 생성할 수 있는 모델을 의미합니다. 분류 모델..