Deep Learning/AI수학 3

Information Theory 이해하기 - KL Divergence, JSD

오늘은 cross entropy에 이어 KL Divergence에 대해 설명하겠습니다. 참고로 여기서 Divergence의 의미는 벡터장의 발산 같은 개념이 아니라, “차이”를 다른 말로 쓴 것일 뿐입니다. 처음 공부할때 이걸 몰라서 삽질을 했던 멍청한 경험이 있습니다. ㅎㅎ 저말고 그런사람이 또 있을까요? 어떤 두 좌표 $x_1$,$x_2$가 가까운지를 판단할때, 어떤 방법을 사용할 수 있을까요? 두 좌표값의 절댓값 차이를 구해서 나타낼수도 있고, (Manhattan Distance) 공식을 사용해 두 좌표 사이의 직선 거리를 구해서 판단 할 수도 있죠. (Euclidean Distance) 그 외에도 수없이 많은 방법들이 있습니다. 분포도 마찬가지입니다. 두 확률분포의 '근사한정도', '서로 닮았는지..

Information Theory 이해하기 - Cross Entropy

이번 글에서는 지난번의 정보이론 소개에 이어 딥러닝에서 많이 등장하는 Cross Entropy를 다루겠다. Cross-Entropy는 딥러닝에서 손실 함수로도 사용되고 KL, JSD, f-deivergence등에서도 많이 보이기 때문에 중요한 개념이다. 정보량과 Entropy의 개념이 확실히 이해되지 않는다면 이전글이나 다른 자료를 참고해서 공부한 후에 보는것을 추천한다!! Entropy Reminder 먼저 Entropy를 다시 떠올려 보자. $$ \sum_{x=1}^{N}-p(x) log p(x)$$ 분포 p에 대한 entropy다. (위 식에서는 밑의 값에 2가 들어왔지만 다른 숫자도 올 수 있다. 가령, $e$) $p(x) $ : x의 확률 $log_2 p_i$ : x의 정보량 여태까지 entro..

Information Theory 이해하기 - 정보량과 Entropy

딥러닝을 공부하다보면 KL-divergence, JSD-divergence같이 확률분포를 판단하는 척도들을 종종 접하게 된다. 그리고 그런 척도들의 기본이론이 바로 Information Theory, 정보이론이다. 정보량 정보이론의 기본 단위라고도 할 수 있는 정보량은 무엇일까? 정보량 = '깜놀도' 이해를 돕기위해, 여러 비유중에서 '깜놀도'(깜짝 놀라는 정도)라는 비유를 들어서 정리해보겠다. 확률이 매우 낮은 사건이라서 잘 일어나지도 않고, 고로 누적된 데이터도 없는 사건A가있다. A: 어떤 사람이 로또를 사서 집에가다가 번개를맞고, UFO에 납치됐다가 풀려났는데 아까 산 로또까지 당첨될 사건 A가 일어날 확률 $P(A)$는 $10^{-10000}$보다도 작을것이다. 거의 불가능한 사건이다. 그럼에도..