Mathematics/Information Theory3 [Information theory] KL-divergence 지난 피드에서 살펴봤던 cross entropy, H(p,q) 에 이어서 이번 글에서는 KL-divergence에 대해 살펴보자. 단어자체가 굉장히 어려워 보여서 그렇지 이번 글을 통해서 KL-divergence가 전혀 낯선 개념이 아니라는 것을 볼 수 있다. Kullback-Leibler divergence 풀네임은 쿨백-라이블러 divergence(발산), 줄여서 KL-divergence라고 부른다. 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. 상대 엔트로피(relative ent.. 2023. 11. 7. [Information Theory] Cross-Entropy 톺아보기 2023.10.05 - [분류 전체보기] - [Information Theory] Entropy 톺아보기 [Information Theory] Entropy 톺아보기Entropy의 정의 확률변수 X가 이산확률변수이고 그 확률밀도함수가 다음과 같이 주어져있다고 하자. 그러면 X의 엔트로피인 H(X)는 다음과 같이 정의된다. 여기서 log는 밑이 2인 로그이고, 0log0 = 0이holy-jjjae.tistory.com 이번 피드에서는 딥러닝에서 Loss function으로 많이 쓰이는 Cross Entropy 개념에 대해 알아보자. 먼저, 지난 피드인 'Entropy 톺아보기' 에서 들었던 예시를 들고와보겠다. 예를 들어, 문자열을 출력하는 2개의 기계 X와 Y가 있다고 하자. 기계 X는A, B, C, D.. 2023. 10. 5. [Information Theory] Entropy 톺아보기 Entropy의 정의 확률변수 X가 이산확률변수이고 그 확률밀도함수가 다음과 같이 주어져있다고 하자. 그러면 X의 엔트로피인 H(X)는 다음과 같이 정의된다. 여기서 log는 밑이 2인 로그이고, 0log0 = 0이다. (컴퓨터의 언어가 이진법이기 때문) 더보기 (참고) 0log0 = 0인 이유? 이렇게 엔트로피를 식으로 정립한 것이 바로 Claude Shannon이다. Shannon은 이 불확실성의 측정을 ‘Entropy‘라고 불렀다. 이를 H(X)라고 표시하였고 단위를 bit라고 하였다. 톺아보기 예를 들어 문자열을 출력하는 2개의 기계 X와 Y가 있다고 하자. 기계 X는 A, B, C, D를 각각 0.25의 확률로 출력 (동일한 확률) 기계 Y는 A : 0.5 B: 0.125 C: 0.125 D: .. 2023. 10. 5. 이전 1 다음