Greedy, Top-K, Nucleus sampling에 대하여
·
AI Paper Review/NLP
NLP에서는 token generation을 진행할 때 model scaling만으로 성능을 올리는 데에는 한계가 있다. 그 다음 token을 에측할 때 가장 확률이 높은 token들만 출력한다면(=Greedy Decoding) , 종종 불필요하게 반복되는 문장들이 생길 수 있다. 예를 들어, Q: What did you do today? A: I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch. I had a hamburger for lunch.. ..인간처럼 다방면적으로 답변을 하는 것이 아니라, 앵무새처럼 반복적으로 답변을 해버릴 수도 있다는 것이다. 따라서, 이러한 기존의 sampling 방..