GitHub - robinnarsinghranabhat/pytorch-optimizations-notes: Notes on Improving performance of pytorch programs

Recipes on writing better Pytorch

Keeping GPU busy is essential for efficient training and inference, especially in a real-world distributed setting (Multiple Nodes, Each having Multiple GPUs). But in distributed setting, if not careful, programs could be very inefficient as, GPUs could remain idle majority of time, waiting for data (could be intermediate activations, gradients e.t.c)

Topics covered :

Visualizing pytorch programs better with profiling tools (torch Profiler, Nvidia Nsight Systems)
How Program Execution happens ? When/How does CPU sends computation request to the GPU ?
Utilize Concept of "CUDA Stream" to write efficient programs that try to keep GPU Busy

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
01. cuda-stream-tutorial		01. cuda-stream-tutorial
02. async-communication-tutorial-torch		02. async-communication-tutorial-torch
03. ddp-training-from-scratch		03. ddp-training-from-scratch
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Recipes on writing better Pytorch

About

Uh oh!

Releases

Packages

Languages

robinnarsinghranabhat/pytorch-optimizations-notes

Folders and files

Latest commit

History

Repository files navigation

Recipes on writing better Pytorch

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages