Quantization explained with PyTorch - Post-Training Quantization, Quantization-Aware Training

Quantization explained with PyTorch - Post-Training Quantization, Quantization-Aware Training

Share:

Similar Tracks

LLaMA explained: KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query Attention, SwiGLU Umar Jamil

Variational Autoencoder - Model, ELBO, loss function and maths explained easily! Umar Jamil

Distributed Training with PyTorch: complete tutorial with cloud infrastructure and code Umar Jamil

LoRA explained (and a bit about precision and quantization) DeepFindr

Retrieval Augmented Generation (RAG) Explained: Embedding, Sentence BERT, Vector Database (HNSW) Umar Jamil

Quantization vs Pruning vs Distillation: Optimizing NNs for Inference Efficient NLP

EfficientML.ai Lecture 5 - Quantization (Part I) (MIT 6.5940, Fall 2023) MIT HAN Lab

Reinforcement Learning from Human Feedback explained with math derivations and the PyTorch code. Umar Jamil

Coding Stable Diffusion from scratch in PyTorch Umar Jamil

Attention is all you need (Transformer) - Model explanation (including math), Inference and Training Umar Jamil

How diffusion models work - explanation and code! Umar Jamil

GPTQ Quantization EXPLAINED Oscar Savolainen

LoRA: Low-Rank Adaptation of Large Language Models - Explained visually + PyTorch code from scratch Umar Jamil

Direct Preference Optimization (DPO) explained: Bradley-Terry model, log probabilities, math Umar Jamil

Optimize Your AI - Quantization Explained Matt Williams

Intro to Binarized Neural Networks Neuro Symbolic

Understanding int8 neural network quantization Oscar Savolainen

Coding a Multimodal (Vision) Language Model from scratch in PyTorch with full explanation Umar Jamil

Model Context Protocol (MCP), clearly explained (why it matters) Greg Isenberg

Which Quantization Method is Right for You? (GPTQ vs. GGUF vs. AWQ) Maarten Grootendorst