You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
저자들은 good representation is one in which the distribution of the data is easy to model라는 것에 근간을 두고 있음
이에 transformation of the data into a new space such that the resulting distribution factorizes, the components are independent한 special case에 대해 고려하여 새로운 generation 방식을 제안함
Change of variables를 통해 data에 대한 maximum likelihood를 h에 대한 식으로 변경하면 easy determinant of Jacobian과 easy inverse를 가지면서도 complex transformations를 배우기에 충분한 capacity가 되는 transformation f를 찾는 것이 핵심이 됨
Change of variables
2. Learning Bijective Transformations of Continuous Probabilities
Objective : non-linear independent components estimation (NICE) criterion
maximum likelihood objective에 change of variables formula + factorial assumption을 통해 바꿔준 식
Train : NICE objective로 data distribution x에서 prior distribution h로 mapping하는 function f를 학습
Inference (generation) : prior distribution h에서 sample한 다음 f의 invertible process를 이용하여 data generation
NICE 식에서 determinant of the Jacobian matrix는 high density region에서 contraction을 penalize하고 expansion을 encourage하는 역할을 함
말이 어려운데, determinant of the Jacobian matrix가 representation learning에서 data의 패턴과 같은 중요한 부분은 dimension을 expand, noise와 같은 중요하지 않은 부분은 dimension을 contract하는 역할을 한다는 의미
3. Architecture
3.1. Triangular Structure
위에서 언급했듯이, easy determinant of Jacobian + easy inverse를 가지는 function f를 잘 선택해야함
생각해볼 수 있는 것은 affine transformation, triangular matrix가 있을 수 있음
하지만 해당 방법으로 neural network를 구성하게 되면 neural network의 design에 제약이 너무 많아지기에, Jacobian의 diagonal elements가 compute하기 쉬운 family of functions with triangular Jacobian을 사용
3.2. Coupling Layer
3.2.1. General coupling layer
Family of bijective transformation with triangular Jacobian인 coupling layer을 위와 같이 구성
(Jacobian을 구하기 쉽도록 + inverse가 가능하도록 설계)
Concept만 간단히 요약하자면, input dimension을 쪼개서 $I_1$은 [1, d], $I_2$는 [d+1, D] dimension을 가진다고 하고 $I_1$, $I_2$마다 따로 mapping하는 function을 설계
3.2.2. Additive coupling layer
저자들은 dimension을 반으로 나눠 $I_1, I_2$의 dimension을 같게 만들고, additive coupling law를 이용
이외에도 multiplicative coupling law, affine coupling law 등을 사용할 수 있는데 numerical stability issue로 인해 additive coupling law를 사용했다고 함
3.2.3. Combining coupling layers
Complex layered transformation을 위해 coupling layers를 여러개 사용함
Coupling layer는 input의 일부를 바꾸지 않기 때문에, subset을 바꿔가면서 모든 dimension이 modify되도록 함
Jacobian을 확인해봤을 때, 최소 3개의 coupling layers를 사용해야하며 저자들은 4개를 사용함
(examining the Jacobian, we observe that at least three coupling layers are necessary to allow all dimensions to influence one another)
3.3. Allowing Rescaling
Additive coupling layers는 unit Jacobian을 가져 coupling layers의 composition도 unit Jacobian을 가져 volume이 preserve됨
이를 해결하기 위해, 가장 마지막에 diagonal scaling matrix S를 이용하여 어떤 dimension이 중요한 지를 알 수 있음
Additive coupling layers, diagonal scaling matrix S를 이용하여 NICE criterion을 다음과 같이 표현할 수 있음
Scaling factor을 PCA의 eigenspectrum 관점에서 해석하면, scaling factor의 값이 큰 dimension은 latent dimension에서의 variation이 많은 것으로 해석할 수 있기에 덜 중요하다고 볼 수 있음
3.4. Prior Distribution
Prior distribution으로 Gaussian distribution, logistic distribution 등을 사용할 수 있는데, 저자들은 gradient의 behave가 더 좋았던 logistic distribution을 사용
Input data를 transformation한 output이 prior distribution인 logistic distribution이 되도록 학습
4. Experiments
4.1. Log-likelihood and Generation
특이한 점은 dequantized version of data를 사용하여 학습했다는 점
(data에 uniform noise를 더하는 형태 : e.g. add uniform noise of 1/256 to the data)
4.2. Inpainting
Inpainting은 다음과 같은 방법으로 진행됨
학습된 모델을 frozen한 뒤, painted image를 이용하여 output을 구함
Input인 painted image에 대해 gradient를 구함
Painted되지 않은 pixel은 update시키지 않고, painted된 pixel을 gradient를 이용하여 update
해당 과정을 반복하여 수행
The text was updated successfully, but these errors were encountered:
Generation 분야에서 flow를 처음으로 제안한 논문
Main concept 위주로만 설명
1. Introduction
저자들은
good representation is one in which the distribution of the data is easy to model
라는 것에 근간을 두고 있음이에
transformation of the data into a new space such that the resulting distribution factorizes, the components are independent
한 special case에 대해 고려하여 새로운 generation 방식을 제안함Change of variables를 통해 data에 대한 maximum likelihood를 h에 대한 식으로 변경하면
easy determinant of Jacobian
과easy inverse
를 가지면서도 complex transformations를 배우기에 충분한 capacity가 되는 transformation f를 찾는 것이 핵심이 됨Change of variables
2. Learning Bijective Transformations of Continuous Probabilities
maximum likelihood objective에 change of variables formula + factorial assumption을 통해 바꿔준 식
NICE 식에서 determinant of the Jacobian matrix는 high density region에서 contraction을 penalize하고 expansion을 encourage하는 역할을 함
말이 어려운데, determinant of the Jacobian matrix가 representation learning에서 data의 패턴과 같은 중요한 부분은 dimension을 expand, noise와 같은 중요하지 않은 부분은 dimension을 contract하는 역할을 한다는 의미
3. Architecture
3.1. Triangular Structure
위에서 언급했듯이, easy determinant of Jacobian + easy inverse를 가지는 function f를 잘 선택해야함
생각해볼 수 있는 것은 affine transformation, triangular matrix가 있을 수 있음
하지만 해당 방법으로 neural network를 구성하게 되면 neural network의 design에 제약이 너무 많아지기에, Jacobian의 diagonal elements가 compute하기 쉬운 family of functions with triangular Jacobian을 사용
3.2. Coupling Layer
3.2.1. General coupling layer
Family of bijective transformation with triangular Jacobian인 coupling layer을 위와 같이 구성
(Jacobian을 구하기 쉽도록 + inverse가 가능하도록 설계)
Concept만 간단히 요약하자면, input dimension을 쪼개서$I_1$ 은 [1, d], $I_2$ 는 [d+1, D] dimension을 가진다고 하고 $I_1$ , $I_2$ 마다 따로 mapping하는 function을 설계
3.2.2. Additive coupling layer
저자들은 dimension을 반으로 나눠$I_1, I_2$ 의 dimension을 같게 만들고, additive coupling law를 이용
이외에도 multiplicative coupling law, affine coupling law 등을 사용할 수 있는데 numerical stability issue로 인해 additive coupling law를 사용했다고 함
3.2.3. Combining coupling layers
Complex layered transformation을 위해 coupling layers를 여러개 사용함
Coupling layer는 input의 일부를 바꾸지 않기 때문에, subset을 바꿔가면서 모든 dimension이 modify되도록 함
Jacobian을 확인해봤을 때, 최소 3개의 coupling layers를 사용해야하며 저자들은 4개를 사용함
(examining the Jacobian, we observe that at least three coupling layers are necessary to allow all dimensions to influence one another)
3.3. Allowing Rescaling
Additive coupling layers는 unit Jacobian을 가져 coupling layers의 composition도 unit Jacobian을 가져 volume이 preserve됨
이를 해결하기 위해, 가장 마지막에 diagonal scaling matrix S를 이용하여 어떤 dimension이 중요한 지를 알 수 있음
Additive coupling layers, diagonal scaling matrix S를 이용하여 NICE criterion을 다음과 같이 표현할 수 있음
Scaling factor을 PCA의 eigenspectrum 관점에서 해석하면, scaling factor의 값이 큰 dimension은 latent dimension에서의 variation이 많은 것으로 해석할 수 있기에 덜 중요하다고 볼 수 있음
3.4. Prior Distribution
Prior distribution으로 Gaussian distribution, logistic distribution 등을 사용할 수 있는데, 저자들은 gradient의 behave가 더 좋았던 logistic distribution을 사용
Input data를 transformation한 output이 prior distribution인 logistic distribution이 되도록 학습
4. Experiments
4.1. Log-likelihood and Generation
특이한 점은 dequantized version of data를 사용하여 학습했다는 점
(data에 uniform noise를 더하는 형태 : e.g. add uniform noise of 1/256 to the data)
4.2. Inpainting
Inpainting은 다음과 같은 방법으로 진행됨
The text was updated successfully, but these errors were encountered: