Distributed Data Parallel (DDP)Parallel의 종류model을 쪼개서 여러 개의 GPU로 뿌려주는 경우model이 너무 클 때 사용특정 layer는 part_1이 하고, 또 다른 특정 layer는 part_2가 하는 식임Model Parallel예시 코드class ModelParallel(nn.Module): def __init__(self, *args, **kwargs): super(ModelParallel, self).__init__() self.part_1 = nn.Sequential(...) self.part_2 = nn.Sequential(...) # put each part on a different device..
AI 개념 정리
GPT는 이전 token 생성 시 발생된 중간값인 activation (KV cache)를 캐싱하여, 이전 token값을 재계산하기 위한 GPU의 FLOPs를 절감하는 대신, KV cache를 위한 추가적인 메모리 공간이 필요함또한 LLM의 context window size가 증가할수록 KV cache의 크기 또한 linear하게 증가하므로 context window size는 메모리 용량에 제한을 받음KV caching 은 multiple token generation step 시 decoder에서만 발생scaled dot-product attention 과정에서 우리는 결국 “새로운 token”만을 생성하기를 원하기 때문에, 이전 정보에 대해서는 caching을 진행한다. caching을 적용해서 ..