분류 전체보기55 [NLP] Attention is All You Need Submit date : 12 Jun 2017 Archive Link https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org Attention is All You Need, Transfor.. 2023. 9. 2. [NLP] Neural Machine Translation by Jointly Learning to Align and Translate Submit date: 1 Sep, 2014 Archive Link https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and Translate Neural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the tra a.. 2023. 8. 28. Loss가 [nan]일 경우 요즘 많이 겪는 문제가 nan loss이다. 커스텀 레이어와 loss를 쓰다 보니 미처 파악하지 못한 예외가 생긴다. 그래서 nan loss이 발생했을 때 원인을 찾고 해결하는 방법에 대해 짧게 적어보려고 한다. 원인이 되는 연산 찾기 먼저 torch.autograd 함수 중에 NaN loss가 발생했을 경우 원인을 찾아주는 함수가 있다. autograd.set_detect_anomaly(True) 학습 코드에 위 코드를 추가해주고 실험을 하면, NaN loss가 발생하는 즉시 실행이 멈추고 NaN을 유발한 라인을 출력해준다. 주로 division by zero나 매우 작은 값에 대한 log 연산이 NaN loss를 유발한다. NaN은 loss 연산 뿐만 아니라 forward 연산, backward 연산.. 2023. 8. 26. 이전 1 ··· 15 16 17 18 19 다음