자카드 유사도 (Jaccard Similarity)
자카드 유사도(Jaccard Similarity), 자카드 계수(Jaccard Coefficient), 자카드 지수(Jaccard Index) 다 같은 말이다. 유사도(similarity) 유사도라 함은 우리가 흔히 알고 있듯이 A라는 아이템과 B라는 아이템이 얼마나 유사한지를 수치화한 것이다. 대표적인 유사도 측정 방법으로는 유클리디안 거리, 맨하튼 거리, 피어슨 상관계수, 코사인 유사도, 그리고 본 피드에서 다룰 자카드 유사도 등이 있다. 자카드 유사도 공식 이름이 뭐 대단해보여서 그렇지 자카드 유사도 공식은 매우 쉬운데, 교집합을 합집합으로 나눈 것으로 정의된다. 다음과 같이 예를 들어서 설명해보면 더욱 이해가 쉬울 것이다. 예시 A가 보유한 주식 종목 삼성전자, 네이버, 카카오, 셀트리온, 아시아..
2023. 9. 18.
matplotlib 한글 깨지는 문제 해결
matplotlib는 대표적인 데이터 시각화를 위한 파이썬 라이브러리이다. 특히 Pandas나 NumPy 패키지를 자주 사용하시는 사람들은 아주 유용하게 사용할 수 있는 시각화 라이브러리다. 한국인이 matplotlib를 쓰다 보면 필연적으로 만나게 될 에러러를 정리해보겠다. matplotlib를 이용해서 플롯(plot)을 그릴 때, 제목, x라벨, y라벨 등에 영어가 아닌 한글을 사용하면, 한글이 제대로 표현되지 않고 깨진다. import matplotlib.pyplot as plt plt.scatter([0, 1, 2, 3, 4, 5], [0, 1, 2, 3, 4, 5]) plt.title('산점도') plt.xlabel('변수1') plt.ylabel('변수2') plt.grid(True) plt...
2023. 9. 7.