본문 바로가기

분류 전체보기55

[Statistics] Rejection Sampling 대략적인 수식을 알고 있는 어떤 확률밀도함수가 있다고 하자. 가령 아래와 같은 함수 \f(x)를 생각해볼 수 있다. 함수 \f(x)는 정확히 말하면 확률밀도함수라고는 할 수 없다. 왜냐하면 - \inf부터 \inf까지 이 함수를 적분했을 때의 전체 면적이 1이 아니기 때문이다. 하지만, 이와 같이 정확한 확률밀도 함수를 알기 곤란할 때나 확률밀도 함수의 수식은 있지만 해당 함수로부터 sample을 추출하기 어려운 경우 sampling 방법이 필요할 수 있다. 우리가 샘플을 추출하고자 하는 이 유사 확률 분포를 ‘타겟 분포(target distribution)’라고 이름 붙이고, \f(x)로 쓰도록 하자. 이 타겟 분포를 plot 해보면 다음과 같은 형태를 가지고 있다는 것을 알 수 있다. 만약에 우리가 .. 2023. 11. 8.
[Statistics] MCMC (Markov Chain Monte Carlo) 마르코프 연쇄 몬테카를로 방법(Markov Chain Monte Carlo, MCMC)은 “마르코프 연쇄의 구성에 기반한 확률 분포로부터 원하는 분포의 정적 분포를 갖는 표본을 추출하는 알고리즘의 한 분류이다.” (출처 : https://en.wikipedia.org/wiki/Markov_chain_Monte_Carlo) 복잡해보이지만 우선 MCMC는 샘플링 방법 중 하나인 것이라는 것만 알고있도록 하자. 언제나 그렇듯 정의만 보면 처음 볼 때는 이해할 수 있는 것이 거의 없기에 하나 하나 뜯어서 살펴볼 것이다. (-ing) 퇴근~ 2023. 11. 8.
[Information theory] KL-divergence 지난 피드에서 살펴봤던 cross entropy, H(p,q) 에 이어서 이번 글에서는 KL-divergence에 대해 살펴보자. 단어자체가 굉장히 어려워 보여서 그렇지 이번 글을 통해서 KL-divergence가 전혀 낯선 개념이 아니라는 것을 볼 수 있다. Kullback-Leibler divergence 풀네임은 쿨백-라이블러 divergence(발산), 줄여서 KL-divergence라고 부른다. 쿨백-라이블러 발산(Kullback–Leibler divergence, KLD)은 두 확률분포의 차이를 계산하는 데에 사용하는 함수로, 어떤 이상적인 분포에 대해, 그 분포를 근사하는 다른 분포를 사용해 샘플링을 한다면 발생할 수 있는 정보 엔트로피 차이를 계산한다. 상대 엔트로피(relative ent.. 2023. 11. 7.