정보이론 2

Information Theory 이해하기 - Cross Entropy

이번 글에서는 지난번의 정보이론 소개에 이어 딥러닝에서 많이 등장하는 Cross Entropy를 다루겠다. Cross-Entropy는 딥러닝에서 손실 함수로도 사용되고 KL, JSD, f-deivergence등에서도 많이 보이기 때문에 중요한 개념이다. 정보량과 Entropy의 개념이 확실히 이해되지 않는다면 이전글이나 다른 자료를 참고해서 공부한 후에 보는것을 추천한다!! Entropy Reminder 먼저 Entropy를 다시 떠올려 보자. $$ \sum_{x=1}^{N}-p(x) log p(x)$$ 분포 p에 대한 entropy다. (위 식에서는 밑의 값에 2가 들어왔지만 다른 숫자도 올 수 있다. 가령, $e$) $p(x) $ : x의 확률 $log_2 p_i$ : x의 정보량 여태까지 entro..

Information Theory 이해하기 - 정보량과 Entropy

딥러닝을 공부하다보면 KL-divergence, JSD-divergence같이 확률분포를 판단하는 척도들을 종종 접하게 된다. 그리고 그런 척도들의 기본이론이 바로 Information Theory, 정보이론이다. 정보량 정보이론의 기본 단위라고도 할 수 있는 정보량은 무엇일까? 정보량 = '깜놀도' 이해를 돕기위해, 여러 비유중에서 '깜놀도'(깜짝 놀라는 정도)라는 비유를 들어서 정리해보겠다. 확률이 매우 낮은 사건이라서 잘 일어나지도 않고, 고로 누적된 데이터도 없는 사건A가있다. A: 어떤 사람이 로또를 사서 집에가다가 번개를맞고, UFO에 납치됐다가 풀려났는데 아까 산 로또까지 당첨될 사건 A가 일어날 확률 $P(A)$는 $10^{-10000}$보다도 작을것이다. 거의 불가능한 사건이다. 그럼에도..