딥러닝을 공부하다보면 KL-divergence, JSD-divergence같이 확률분포를 판단하는 척도들을 종종 접하게 된다. 그리고 그런 척도들의 기본이론이 바로 Information Theory, 정보이론이다. 정보량 정보이론의 기본 단위라고도 할 수 있는 정보량은 무엇일까? 정보량 = '깜놀도' 이해를 돕기위해, 여러 비유중에서 '깜놀도'(깜짝 놀라는 정도)라는 비유를 들어서 정리해보겠다. 확률이 매우 낮은 사건이라서 잘 일어나지도 않고, 고로 누적된 데이터도 없는 사건A가있다. A: 어떤 사람이 로또를 사서 집에가다가 번개를맞고, UFO에 납치됐다가 풀려났는데 아까 산 로또까지 당첨될 사건 A가 일어날 확률 $P(A)$는 $10^{-10000}$보다도 작을것이다. 거의 불가능한 사건이다. 그럼에도..