오늘은 cross entropy에 이어 KL Divergence에 대해 설명하겠습니다. 참고로 여기서 Divergence의 의미는 벡터장의 발산 같은 개념이 아니라, “차이”를 다른 말로 쓴 것일 뿐입니다. 처음 공부할때 이걸 몰라서 삽질을 했던 멍청한 경험이 있습니다. ㅎㅎ 저말고 그런사람이 또 있을까요? 어떤 두 좌표 x1,x2가 가까운지를 판단할때, 어떤 방법을 사용할 수 있을까요? 두 좌표값의 절댓값 차이를 구해서 나타낼수도 있고, (Manhattan Distance) 공식을 사용해 두 좌표 사이의 직선 거리를 구해서 판단 할 수도 있죠. (Euclidean Distance) 그 외에도 수없이 많은 방법들이 있습니다. 분포도 마찬가지입니다. 두 확률분포의 '근사한정도', '서로 닮았는지..