gradient bucketing

Deep Learning

[ DL ] Data Parallelism(DP), Distributed Data Parallelism(DDP)

2024.07.10

본 포스팅은 다음 글을 기반으로 작성하였습니다.좋은 자료 공유해주셔서 감사합니다. Jupyter Notebook Viewer그런데 잠깐, All-reduce를 언제 수행하는게 좋을까요?¶ All-reduce를 backward()연산과 함께 하는게 좋을까요? 아니면 backward()가 모두 끝나고 step() 시작 전에 하는게 좋을까요? 결과적으로 backward()와 all-nbviewer.org Overview of Parallelism`병렬화(Parallelism)`란, 여러 개를 동시에 처리하는 기술을 의미하며 머신러닝에서는 주로 여러개의 디바이스에서 연산을 병렬화하여 속도나 메모리 효율성을 개선하기 위해 사용한다. 병렬화는 크게 `Data Parallelism`, `Model Parallelis..

[ DL ] Data Parallelism(DP), Distributed Data Parallelism(DDP)

티스토리툴바