분산 학습

Deep Learning

[ DL ] Data Parallelism(DP), Distributed Data Parallelism(DDP)

2024.07.10

본 포스팅은 다음 글을 기반으로 작성하였습니다.좋은 자료 공유해주셔서 감사합니다. Jupyter Notebook Viewer그런데 잠깐, All-reduce를 언제 수행하는게 좋을까요?¶ All-reduce를 backward()연산과 함께 하는게 좋을까요? 아니면 backward()가 모두 끝나고 step() 시작 전에 하는게 좋을까요? 결과적으로 backward()와 all-nbviewer.org Overview of Parallelism`병렬화(Parallelism)`란, 여러 개를 동시에 처리하는 기술을 의미하며 머신러닝에서는 주로 여러개의 디바이스에서 연산을 병렬화하여 속도나 메모리 효율성을 개선하기 위해 사용한다. 병렬화는 크게 `Data Parallelism`, `Model Parallelis..

Deep Learning

[ DL ] Multi-processing, Message Passing, P2P, Process Group, NCCL, GLOO, MPI, Collective Communication

2024.07.08

본 포스팅은 다음 글을 기반으로 작성하였습니다. 매우 좋은 자료 공유해주셔서 감사합니다. Jupyter Notebook Viewer2. Large-scale의 시대에 우리는 무엇을 준비해야 할까?¶ Large-scale transformer 모델은 기존과 아키텍처는 거의 동일한데, 모델의 모델과 데이터 사이즈를 엄청나게 키운 것입니다. 그래서 몇몇 사람들nbviewer.org Why Large Scale?그동안 많은 연구에서 언어 모델의 아키텍처의 변화가 생각보다 큰 차이를 가져오진 못한다고 말한다. 물론, 언어 모델의 성능이 어느 정도 향상된 것은 사실이지만 이것이 드라마틱한 성능 개선을 의미하진 않는다. 결국 모델의 성능에 가장 큰 영향을 끼치는 것은 데이터와 모델의 크기이다. 둘 중 굳이 더 중요..

[ DL ] Data Parallelism(DP), Distributed Data Parallelism(DDP)

[ DL ] Multi-processing, Message Passing, P2P, Process Group, NCCL, GLOO, MPI, Collective Communication

티스토리툴바