Complete Bayesian Statistics Cheat Sheet: Theory, Applications & Practical Implementation

Introduction to Bayesian Statistics

Bayesian statistics is a framework for statistical inference that uses probability to represent uncertainty about the state of knowledge. It provides a mathematical method for updating beliefs based on new evidence, allowing for direct probability statements about parameters and hypotheses.

Why Bayesian Statistics Matters:

Allows incorporation of prior knowledge and domain expertise
Provides full probability distributions rather than point estimates
Handles small sample sizes better than frequentist methods
Enables sequential updating as new data arrives
Offers natural framework for hierarchical modeling
Makes uncertainty quantification straightforward
Provides intuitive interpretation of probability as degree of belief

Core Concepts & Principles

Bayes’ Theorem

The foundation of Bayesian statistics:

$$P(\theta|D) = \frac{P(D|\theta) \times P(\theta)}{P(D)}$$

Where:

$P(\theta|D)$ is the posterior probability of parameters $\theta$ given data $D$
$P(D|\theta)$ is the likelihood of observing data $D$ given parameters $\theta$
$P(\theta)$ is the prior probability of parameters $\theta$
$P(D)$ is the marginal likelihood or evidence (normalizing constant)

In words: $\text{Posterior} \propto \text{Likelihood} \times \text{Prior}$

Key Bayesian Concepts

Concept	Description	Importance
Prior Distribution	Probability distribution representing beliefs about parameters before seeing data	Encodes existing knowledge; influences posterior with small datasets
Likelihood Function	Probability of observing the data given specific parameter values	Connects model to observed data
Posterior Distribution	Updated probability distribution of parameters after observing data	Main output of Bayesian analysis; used for inference and decisions
Marginal Likelihood	Total probability of observed data averaged over all parameter values	Used for model comparison; denominator in Bayes’ theorem
Credible Interval	Interval containing parameter with specified probability (e.g., 95%)	Bayesian alternative to confidence intervals; directly interpretable
Posterior Predictive	Distribution of future observations given observed data	Used for prediction, model checking
Bayes Factor	Ratio of marginal likelihoods of two competing models	Used for model comparison

Bayesian vs. Frequentist Statistics

Aspect	Frequentist Approach	Bayesian Approach
Parameters	Fixed but unknown	Random variables with probability distributions
Probability Definition	Long-run frequency of events	Degree of belief
Inference Focus	P(data\|hypothesis)	P(hypothesis\|data)
Prior Information	Not formally incorporated	Explicitly modeled
Uncertainty Quantification	Confidence intervals	Credible intervals
Hypothesis Testing	p-values, significance tests	Posterior probabilities, Bayes factors
Small Sample Performance	Often requires large samples	Can work well with small samples
Sequential Analysis	Requires special techniques	Natural updating process
Computation	Often analytical	Often requires simulation methods

Step-by-Step Bayesian Statistical Analysis

Formulate the Problem
- Define parameters of interest
- Determine goals (estimation, prediction, testing, etc.)
- Identify observed and unobserved variables
Construct Probabilistic Model
- Specify likelihood function
- Account for data-generating process
- Include measurement error if applicable
Choose Prior Distributions
- Select appropriate families for parameters
- Set hyperparameters based on existing knowledge
- Consider sensitivity to prior choice
Collect Data & Compute Posterior
- For conjugate models: analytical solution
- For simple models: grid approximation
- For complex models: MCMC or variational methods
Check Model Adequacy
- Posterior predictive checks
- Sensitivity analysis for priors
- Convergence diagnostics for MCMC
Draw Inferences
- Summarize posterior (mean, median, mode)
- Compute credible intervals
- Calculate probabilities of hypotheses
Make Predictions
- Simulate from posterior predictive distribution
- Compute predictive intervals
- Validate with out-of-sample data if available

Key Techniques & Methods

Common Prior Distributions

Distribution	Typical Use	Conjugate For	Properties
Beta	Proportions, probabilities	Binomial, Bernoulli	Range: [0,1]; flexible shapes
Normal	Continuous unbounded parameters	Normal (known variance)	Symmetric; well-understood
Gamma	Positive continuous parameters	Poisson, Exponential	Range: (0,∞); right-skewed
Inverse Gamma	Variances	Normal (known mean)	Range: (0,∞); heavy right tail
Dirichlet	Multinomial probabilities	Multinomial	Multivariate generalization of Beta
Uniform	Minimal prior information	Various	Assigns equal probability across range
Half-Cauchy	Scale parameters	–	Range: (0,∞); heavy tail for robustness
Student’s t	Robust alternatives to Normal	–	Heavier tails than Normal

Conjugate Prior-Likelihood Pairs

Likelihood	Conjugate Prior	Posterior
Bernoulli/Binomial	Beta(α,β)	Beta(α+successes, β+failures)
Poisson(λ)	Gamma(α,β)	Gamma(α+sum(x), β+n)
Normal(μ,σ² known)	Normal(μ₀,σ₀²)	Normal((σ₀²∑x+σ²μ₀)/(nσ₀²+σ²), σ²σ₀²/(nσ₀²+σ²))
Normal(μ known,σ²)	Inverse-Gamma(α,β)	Inverse-Gamma(α+n/2, β+∑(x-μ)²/2)
Multinomial	Dirichlet(α₁,…,αₖ)	Dirichlet(α₁+x₁,…,αₖ+xₖ)
Exponential(λ)	Gamma(α,β)	Gamma(α+n, β+∑x)

Computational Methods

For Simple Models

Analytical solutions (for conjugate models)
Grid approximation (discretize parameter space)
Quadrature methods (numerical integration)

For Complex Models

Markov Chain Monte Carlo (MCMC)
- Metropolis-Hastings algorithm
- Gibbs sampling
- Hamiltonian Monte Carlo (HMC)
- No-U-Turn Sampler (NUTS)
Variational Inference
- Mean-field approximation
- Full-rank approximation
- Automatic differentiation variational inference (ADVI)
Approximate Bayesian Computation (ABC)
- Rejection sampling
- MCMC-ABC
- Sequential Monte Carlo ABC

Common Bayesian Models

Model Type	Description	Applications
Bayesian Linear Regression	Linear model with prior distributions on coefficients	Prediction, regression analysis
Hierarchical Models	Multi-level models with shared parameters	Grouped/clustered data, shrinkage
Bayesian GLMs	Generalized linear models (logistic, Poisson, etc.)	Count data, binary outcomes
Bayesian Time Series	Dynamic models, state-space models, ARIMA	Forecasting, trend analysis
Mixture Models	Combination of multiple distributions	Clustering, density estimation
Bayesian Networks	Graphical models showing probabilistic relationships	Causal inference, expert systems
Dirichlet Process Models	Nonparametric models with infinite components	Clustering with unknown number of clusters
Gaussian Processes	Nonparametric regression	Flexible function approximation

Common Challenges & Solutions

Challenge	Description	Solutions
Prior Selection	Choosing appropriate prior distributions	Use weakly informative priors; sensitivity analysis; hierarchical modeling
Computational Burden	Long run times for complex models	Efficient samplers; GPU acceleration; approximation methods
MCMC Convergence	Determining if chains have converged	Multiple chains; convergence diagnostics (R-hat, ESS); trace plots
High Dimensionality	Many parameters causing sampling inefficiency	Reparameterization; marginalization; improved samplers
Model Comparison	Selecting between competing models	Bayes factors; information criteria (WAIC, LOO); predictive performance
Identifiability	Multiple parameter values giving same likelihood	Informative priors; parameter constraints; reparameterization
Communicating Results	Explaining Bayesian analysis to non-experts	Visual posterior summaries; analogies to familiar concepts

Diagnostics & Model Checking

MCMC Diagnostics

Diagnostic	Description	Good Values
R-hat	Potential scale reduction factor	< 1.01 (closer to 1 is better)
Effective Sample Size (ESS)	Equivalent number of independent samples	> 100 per chain (higher is better)
Trace Plots	Time series of samples	Should look like “hairy caterpillars”
Autocorrelation	Correlation between consecutive samples	Should decay quickly to zero
Divergences	Issues with geometry of posterior	Zero divergent transitions

Model Checking Methods

Method	Description	Use For
Posterior Predictive Checks	Compare replicated data to observed data	Overall model fit assessment
Prior Predictive Checks	Simulate from prior predictive distribution	Verify prior assumptions
Leave-One-Out Cross-Validation	Estimate out-of-sample predictive accuracy	Model comparison, overfitting detection
Information Criteria	WAIC, LOO-IC, DIC	Model comparison
Bayes Factors	Ratio of marginal likelihoods	Hypothesis testing, model comparison
Sensitivity Analysis	Vary priors and check posterior changes	Assess robustness to prior specification

Best Practices & Practical Tips

Problem Formulation

Start with clear research questions
Consider what parameters actually represent
Use domain knowledge to inform modeling choices
Parameterize models for interpretability

Prior Selection

Use weakly informative priors when possible
Avoid flat improper priors for scale parameters
Standardize/normalize predictors for better prior specification
Document and justify prior choices
Check prior predictive distribution

Computation

Run multiple MCMC chains with different starting points
Use adequate warmup/burn-in period
Monitor convergence diagnostics
Save all MCMC samples for later analysis
Use appropriate transformations for constrained parameters

Reporting Results

Show full posterior distributions, not just summaries
Report credible intervals, not just point estimates
Be transparent about modeling assumptions
Include model checking and validation results
Provide code and data when possible

Practical Workflow Tips

Start with simple models and gradually add complexity
Simulate data to validate model implementation
Build models incrementally and check each step
Use graphical representations of the model
Compare with non-Bayesian alternatives when appropriate

Software for Bayesian Statistics

Software	Language	Features	Best For
Stan	Own language, interfaces to R/Python/Julia	HMC/NUTS sampling, efficient for complex models	General-purpose Bayesian modeling
PyMC	Python	User-friendly API, visualization tools	Python users, general modeling
JAGS	Own language, R interface	Gibbs sampling	Conditionally conjugate models
BUGS/OpenBUGS	Own language	Established, extensive examples	Legacy applications
brms	R	Formula interface, Stan backend	R users, regression models
rstanarm	R	Pre-compiled Stan models	Common models with R syntax
bayesplot	R	Specialized plots for Bayesian analysis	Visualization of Bayesian results
ArviZ	Python	Exploratory analysis of Bayesian models	Visualization and diagnostics
TensorFlow Probability	Python	Variational inference, deep learning integration	Large-scale models, neural networks
Turing.jl	Julia	Fast performance, model composability	Julia users, custom algorithms

Applications of Bayesian Statistics

Field	Applications	Benefits
Machine Learning	Probabilistic neural networks, Gaussian processes	Uncertainty quantification, regularization
Clinical Trials	Adaptive designs, interim analyses	Efficiency, ethical considerations
Epidemiology	Disease mapping, outbreak detection	Spatial modeling, small area estimation
Finance	Portfolio optimization, risk assessment	Handling uncertainty, incorporating beliefs
Environmental Science	Climate models, ecological analysis	Hierarchical modeling, spatial-temporal data
Sports Analytics	Player performance, game predictions	Prior knowledge inclusion, uncertainty
Marketing	A/B testing, customer behavior	Sequential decision making
Genomics	Gene expression, phylogenetics	High-dimensional data, complex relationships
Social Sciences	Survey analysis, causal inference	Missing data handling, multilevel models

Resources for Further Learning

Introductory Books

“Statistical Rethinking” by Richard McElreath – Accessible introduction with R examples
“Doing Bayesian Data Analysis” by John Kruschke – Beginner-friendly with diagrams
“Bayesian Statistics the Fun Way” by Will Kurt – Gentle introduction
“Think Bayes” by Allen Downey – Computational approach, Python

Advanced Books

“Bayesian Data Analysis” by Gelman, Carlin, Stern, Dunson, Vehtari, and Rubin – Comprehensive reference
“Bayesian Cognitive Modeling” by Lee and Wagenmakers – Cognitive science applications
“Gaussian Processes for Machine Learning” by Rasmussen and Williams – GP-specific
“Monte Carlo Statistical Methods” by Robert and Casella – Computational methods

Online Courses

Statistical Rethinking (Richard McElreath) – Available on YouTube
Bayesian Statistics: From Concept to Data Analysis (Coursera)
Probabilistic Programming and Bayesian Methods (PyMC Labs)

Journals & Conferences

Bayesian Analysis – Official journal of ISBA
Journal of Statistical Software – Often features Bayesian methods
ISBA World Meeting – International Society for Bayesian Analysis conference
StanCon – Stan users conference

Online Resources

mc-stan.org – Documentation, case studies, forums
pymc.io – Tutorials and examples
Andrew Gelman’s blog – Discussions on methods
Bayes Rules! book website – Modern introduction with R