You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
perceptual distance : measures how similar are two images in a way that coincides with human judgment
기존의 perceptual metric (PSNR, SSIM)은 human perception과 align하지 않음
그렇다면 perceptual metric을 설계하는 것이 왜 어려울까?
perceptual metric의 3 challenges는 다음과 같음
depend on high-order image structure
context-dependent
may not actually constitute a distance metric
human judgement가 context-dependent하다는 점이 가장 까다로움
예를 들어 (red circle, red square), (red circle, blue circle)는 둘다 유사하나, 어떤게 더 유사하다고 말하기 힘듬
따라서, human judgement를 directly fitting하는 function을 만드는 것은 intractable함
저자들이 실험한 결과, human judgement를 directly fitting하는 방법은 generalize하지 않는다고 함
최근 image synthesis 분야에서 perceptual loss를 사용해 성능을 높인 연구들이 등장했음
(perceptual loss : ImageNet pre-trained VGG feature space에서의 distance를 측정한 loss)
그렇다면 perceptual loss는 human visual perception과 align이 잘 맞을까?라는 생각이 자연스럽게 들게 됨
만약 align이 잘 맞다면, 어떠한 요소가 중요할까?
(ex. network architecture, training signal, ...)
이러한 궁금증을 잘 실험한 논문이다...라고 생각하면 됨
해당 논문의 main contribution 3가지는 다음과 같음
large-scale, highly varied human perceptual similarity judgement dataset을 공개함
image quality assessment가 아닌 perceptual similarity에 focus하도록 설계
main data : 2AFC (2장의 이미지가 있을 때, reference와 더 유사한 이미지는?)
validation : JND (2장의 이미지가 서로 같은지 아닌지?)
deep features가 기존의 perceptual metric보다 low-level perceptual similarity를 잘 모델링함을 보임
network architecture, training signal에 무관하게, deep features는 perceptual similarity를 잘 모델링함
→ perceptual similarity is an emergent property shared across deep visual representations
(그렇다고 untrained network가 perceptual similarity를 모델링할 수 있다는 의미는 아님)
pre-trained network의 feature responses를 calibrate하여 성능을 높일 수 있음
layer activations를 simple linear scaling하는 방법인 calibrating만으로 성능을 높일 수 있음
저자들은 실험 결과가 perceptual similarity는 world의 important structure를 학습한 visual representation의 consequence이다라는 hypothesis와 consistent하다고 표현
(perceptual similarity is not a special function all of its own, but rather a consequence of visual representations tuned to be predictive about important structure in the world)
즉, semantic prediction task에 효과적인 representation은 perceptual similarity judgement에도 효과적일 것이라는 것
(classification으로 학습한 모델은 perceptual similarity judgement도 잘할 것이다)
two alternative forced choice (2AFC)
2장의 distorted image 중에서 reference와 더 유사한 이미지는 무엇인가?
just noticeable difference (JND)
reference image와 distorted image가 같은지 다른지?
2가지 approach를 반영한 large-scale highly diverse perceptual judgement dataset인 BAPPS를 공개
기본적으로 2AFC가 main이며, 검증을 위해 JND를 추가적으로 구축
1.1. Images
Distort : reference image에 distortion을 가해 distorted image 생성
Real alg : pre-trained model 이용해서 distorted image 생성
64 x 64 patch를 사용하는 가장 주된 이유 : low-level similarity를 보고 싶어서
(to mitigate the effect of differing respects of similarity that may be influenced by high-level semantics)
Distort detail
Table 2 (left) - traditional distortions
4 photometric distortions
6 random noise
2 blurring
7 spatial shifts and corruptions
1 compression artifacts
→ total 20 distortions
compose pairs of distortions to increase overall space of possible distortions
→ 308 sequentially composed distortions
super-resolution
frame interpolation
video deblurring
colorization
1.2. Psychophysical Similarity Measurements
2AFC similarity judgments
reference image x가 존재하고
2 distorted images x0, x1이 있을 때
사람이 x0, x1 중에서 x와 가까운 이미지 선택
사람의 답변인 record response h는 0 혹은 1로 저장
→ 2AFC dataset은 (x, x0, x1, h)로 구성
같은 데이터에 대해 5명이 작업했는데 4명이 0, 1명이 2이면 h = 0.2가 됨
Just noticeable differences (JND)
2AFC task의 경우, 사람이 의도적으로 특정 부분에만 집중해서 task를 완수할 수 있다는 단점이 존재함
우리 dataset이 괜찮다는 것을 어떻게 검증할 수 있을까?
JND
사람에게 1초 동안 2장의 이미지를 보여주고, 2장의 이미지가 같은지 아닌지를 판단
good perceptual metric will be able to order pairs from most to least confusable
말이 복잡해보이는데 정리하면...
images를 perceptual metric으로 sorting한 순서와
사람들이 같다고 한 비율로 sorting한 순서가 비슷해야 좋은 perceptual metric이다
2. Deep Feature Spaces
Network activations to distance
Figure 3 (left), Equation 1
network layer L에서 feature를 추출 (H, W, C)
unit-normalize in the channel dimension (H, W, C)
scale the activations channel-wise by learnable linear weight w (C)
compute L2 distance
average spatially
sum over layers
즉, 각 layer마다 learnable weight가 따로 있는 형태
(VGG network의 layer1-w1, layer2-w2, ...)
Training on our data
Learned Perceptual Image Patch Similarity (LPIPS) metric lin : pre-trained weight frozen하고 linear weight w만 학습 tune : pre-trained weight로 initialize + fine-tune scratch : random Gaussian으로 initialize + 학습
Figure 3 (right), Equation 2
(x, x0, x1, h) data로 다음과 같이 모델 학습
(x, x0)의 distance d0를 구함
(x, x1)의 distance d1을 구함
d0, d1을 concat한 다음, MLP를 통과
MLP : (32-channel FC-ReLU) x2 + (1-channel FC + sigmoid)
MLP output이 h가 되도록 학습
저자들은 ranking loss로도 실험해봤는데, learned network + BCE loss가 성능이 더 잘나왔다고 함
3. Experiments
Evaluations
Figure 4
LPIPS가 다른 metric보다 성능이 좋음 lin, tune, scratch 성능은 모두 비슷함
다양한 network architecture에 대해 성능 좋음
self-supervised model 사용해도 성능 좋음
random network는 성능 안좋음
→ tasks across a large spectrum can induce representations which transfer well to perceptual distances
Do metrics correlate across different tasks?
Figure 5
2AFC와 JND는 highly correlate함
→ 2AFC generalizes to another perceptual test and giving us signal regarding human judgements
Table 4
"high-level" semantic task와 "low-level" perceptual task간의 correlation이 매우 높다
the stronger a feature set is at classification and detection, the stronger it is as a model of perceptual similarity judgments
→ good feature is a good feature
The text was updated successfully, but these errors were encountered:
intuition
해당 논문의 main contribution 3가지는 다음과 같음
image quality assessment가 아닌 perceptual similarity에 focus하도록 설계
main data : 2AFC (2장의 이미지가 있을 때, reference와 더 유사한 이미지는?)
validation : JND (2장의 이미지가 서로 같은지 아닌지?)
network architecture, training signal에 무관하게, deep features는 perceptual similarity를 잘 모델링함
→ perceptual similarity is an emergent property shared across deep visual representations
(그렇다고 untrained network가 perceptual similarity를 모델링할 수 있다는 의미는 아님)
layer activations를 simple linear scaling하는 방법인 calibrating만으로 성능을 높일 수 있음
저자들은 실험 결과가
perceptual similarity는 world의 important structure를 학습한 visual representation의 consequence이다
라는 hypothesis와 consistent하다고 표현(perceptual similarity is not a special function all of its own, but rather a consequence of visual representations tuned to be predictive about important structure in the world)
즉, semantic prediction task에 효과적인 representation은 perceptual similarity judgement에도 효과적일 것이라는 것
(classification으로 학습한 모델은 perceptual similarity judgement도 잘할 것이다)
중요하다고 생각되는 부분만 간단히 요약
1. Berkeley-Adobe Perceptual Patch Similarity (BAPPS) Dataset
1.1. Images
Distort detail
Real alg detail
1.2. Psychophysical Similarity Measurements
2AFC similarity judgments
Just noticeable differences (JND)
2. Deep Feature Spaces
Network activations to distance
Training on our data
3. Experiments
Evaluations
Do metrics correlate across different tasks?
The text was updated successfully, but these errors were encountered: