Complete Bayesian Methods Cheat Sheet: Concepts, Techniques & Best Practices

Introduction to Bayesian Methods

Bayesian methods are statistical techniques based on Bayes’ theorem that update the probability of a hypothesis as more evidence becomes available. Unlike traditional (frequentist) statistics, Bayesian approaches incorporate prior knowledge and allow for direct probability statements about parameters and hypotheses.

Why Bayesian Methods Matter:

Allow incorporation of prior knowledge into analysis
Provide complete probability distributions rather than point estimates
Handle uncertainty more naturally and explicitly
Enable sequential updating as new data arrives
Work well with small sample sizes and complex models

Core Concepts & Principles

Bayes’ Theorem

The cornerstone of Bayesian statistics:

$$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$$

In practical terms: $$\text{Posterior} = \frac{\text{Likelihood} \times \text{Prior}}{\text{Evidence}}$$

Key Bayesian Terminology

Term	Description	Role in Bayesian Analysis
Prior	Initial belief about parameters before seeing data	Encodes existing knowledge
Likelihood	Probability of observing the data given parameters	Represents data’s contribution
Posterior	Updated belief about parameters after seeing data	The main inference result
Evidence	Total probability of observing the data	Normalizing constant
Credible Interval	Range containing parameter with specified probability	Bayesian alternative to confidence intervals
Conjugate Prior	Prior that yields posterior of same family	Simplifies calculations

Frequentist vs. Bayesian Approaches

Aspect	Frequentist	Bayesian
Parameters	Fixed but unknown	Random variables with distributions
Probability	Long-run frequency	Degree of belief
Inference	P(data\|hypothesis)	P(hypothesis\|data)
Uncertainty	Confidence intervals	Credible intervals
Prior information	Not formally used	Explicitly incorporated
Small samples	Often problematic	Can work well
Computation	Often analytical	Often requires sampling/simulation

Step-by-Step Bayesian Analysis Process

Define Model & Variables
- Identify parameters of interest
- Determine relationships between variables
- Structure the probabilistic model
Specify Prior Distributions
- Choose distribution family (normal, beta, etc.)
- Set hyperparameters based on existing knowledge
- Consider informativeness vs. vagueness tradeoffs
Formulate Likelihood Function
- Express probability of data given parameters
- Account for data collection process
- Incorporate appropriate probability distributions
Calculate Posterior Distribution
- For simple models: Direct calculation
- For complex models: Approximation methods (MCMC, etc.)
- Verify convergence and stability
Derive Inferences & Predictions
- Extract parameter estimates (mean, median, mode)
- Calculate credible intervals
- Make predictions for new observations
- Test hypotheses using Bayes factors or posterior probabilities

Key Techniques & Methods

Prior Selection

Prior Type	Description	When to Use
Informative	Strongly reflects specific prior knowledge	When reliable information exists
Weakly informative	Provides gentle regularization	Most practical applications
Noninformative/Vague	Minimizes influence on posterior	When prior knowledge is limited
Improper	Does not integrate to 1	When it yields proper posterior
Hierarchical	Parameters of priors have their own priors	For multi-level/grouped data
Empirical Bayes	Uses data to estimate priors	When prior information is limited

Computational Methods

Analytic Solutions

Conjugate priors: Closed-form posteriors (e.g., Beta-Binomial, Normal-Normal)
Laplace approximation: Approximates posterior with normal distribution
Sufficient statistics: Reduces computational complexity

Simulation Methods

Markov Chain Monte Carlo (MCMC)
- Metropolis-Hastings: General-purpose algorithm for sampling complex distributions
- Gibbs Sampling: Samples each parameter conditionally
- Hamiltonian Monte Carlo (HMC): Uses gradient information for efficient sampling
- No-U-Turn Sampler (NUTS): Adaptive version of HMC
Variational Inference
- Approximates posterior with simpler distribution
- Minimizes KL divergence between approximate and true posterior
- Often faster but less accurate than MCMC
Approximate Bayesian Computation (ABC)
- For models with intractable likelihoods
- Simulates data using parameter proposals
- Accepts parameters that produce data similar to observations

Bayesian Model Types

Model Type	Description	Common Applications
Bayesian Linear Regression	Linear models with prior distributions on coefficients	Prediction, causal inference
Hierarchical Models	Multi-level models with shared parameters	Grouped/nested data, shrinkage
Bayesian Networks	Directed acyclic graphs showing probabilistic relationships	Causal modeling, expert systems
Gaussian Processes	Nonparametric models for functions	Time series, spatial data
Bayesian Nonparametrics	Infinite-dimensional models (e.g., Dirichlet Process)	Clustering, density estimation
State Space Models	Hidden Markov Models, dynamic linear models	Time series, tracking

Common Challenges & Solutions

Challenge	Description	Solutions
Prior Sensitivity	Results highly dependent on prior choice	Sensitivity analysis, weakly informative priors
Computation Time	Complex models can be slow to fit	Efficient samplers, variational methods, GPU acceleration
Convergence Issues	MCMC chains fail to converge	Reparameterization, better initializations, alternative samplers
Identifiability	Multiple parameter combinations produce same likelihood	Informative priors, parameter constraints
Model Comparison	Selecting between competing models	Bayes factors, WAIC, LOO-CV, predictive checks
High Dimensionality	Many parameters cause inefficient sampling	Marginalization, better samplers (HMC), dimensionality reduction

Bayesian Inference Metrics & Diagnostics

Model Assessment

Posterior predictive checks: Compare replicated data to observed data
Information criteria: WAIC (Widely Applicable Information Criterion), LOO-CV (Leave-One-Out Cross-Validation)
Bayes factors: Ratio of marginal likelihoods for model comparison

MCMC Diagnostics

Trace plots: Visual check for mixing and stationarity
Autocorrelation: Measures independence of samples
Effective sample size: Accounts for correlation in samples
R-hat (potential scale reduction factor): Convergence metric across chains
Divergences: Indicates problems with the geometric properties of the posterior

Best Practices & Tips

Model Building

Start simple and gradually increase complexity
Use directed acyclic graphs to clarify model structure
Incorporate domain knowledge into priors when available
Consider hierarchical structures for grouped data
Standardize/normalize predictors for better convergence

Computation

Run multiple MCMC chains with different starting points
Use longer warmup periods for complex models
Monitor convergence diagnostics during sampling
Save generated samples for later analysis
Consider approximate methods for initial exploration

Reporting Results

Show full posterior distributions, not just summaries
Report prior specifications clearly
Include model checking and validation results
Compare with alternative (including non-Bayesian) approaches
Share code and data when possible

Software Tools for Bayesian Analysis

Software	Language	Features	Best For
Stan	Own language, interfaces to R/Python/Julia	HMC/NUTS sampling, high performance	Complex hierarchical models
PyMC	Python	User-friendly API, visualization tools	Python users, general modeling
JAGS	Own language, R interface	Gibbs sampling, BUGS language compatibility	Conditionally conjugate models
BUGS/OpenBUGS	Own language	Established, extensive examples	Legacy applications
brms	R	Formula interface, Stan backend	R users, regression models
Edward/TensorFlow Probability	Python	Deep learning integration	Large-scale models, variational inference
Turing.jl	Julia	Fast performance, composable	Julia users, custom algorithms

Resources for Further Learning

Books

“Bayesian Data Analysis” by Gelman et al. – Comprehensive reference
“Statistical Rethinking” by McElreath – Accessible introduction with R examples
“Doing Bayesian Data Analysis” by Kruschke – Beginner-friendly with diagrams
“Bayesian Statistics the Fun Way” by Kurt – Very gentle introduction

Online Courses

Statistical Rethinking (Richard McElreath) – Available on YouTube
Bayesian Methods for Machine Learning (Coursera) – Applied focus
Bayesian Statistics: From Concept to Data Analysis (Coursera)

Websites & Communities

mc-stan.org – Documentation, case studies, forums
pymc.io – Tutorials and examples
Andrew Gelman’s blog – Discussions on methods

Key Papers

Gelman & Shalizi (2013) – “Philosophy and the practice of Bayesian statistics”
Betancourt (2017) – “A Conceptual Introduction to Hamiltonian Monte Carlo”
Simpson et al. (2017) – “Penalising model component complexity: A principled, practical approach to constructing priors”